Introducción

Muchos ejecutivos encargados de liderar proyectos de datos se enfrentan a confusión sobre los términos de datos comunes. ¿Cuál es la diferencia entre big data, un lago de datos, un almacén de datos y un data mart? ¿Cuándo es el big data "lo suficientemente grande"? ¿Por qué eso importa?

En este artículo, desglosamos las diferencias entre los diferentes términos para que pueda parecer más inteligente en cualquier reunión relacionada con datos, resumen de proyecto o iniciativa de personal.

Primero, ¿qué son los datos?

Los datos son, en esencia, el almacenamiento de información cuantitativa y cualitativa. En su negocio, esto podría ser información sobre:

  •  Tus empleados internos
  •  Sus clientes
  • Tus procesos internos
  • Tus datos financieros
  • Números de ticket del servicio de ayuda

Y mucho más que es imposible enumerar en un solo documento en todas las dimensiones y medidas. Sus datos se distribuyen en muchos sistemas, bases de datos y grupos dentro y fuera de su organización.

Sus datos también se encuentran en varios estados de relevancia, precisión, puntualidad y accesibilidad. Algunos de ellos están alineados con otros datos y otros no.

Si su organización es como más del 95% de las empresas, entonces se enfrenta a una gran cantidad de datos no estructurados y sucios. Ese estado es lo que a menudo llamamos un "lago de datos".

¿Qué es un lago de datos?

Un lago de datos es un lugar donde se recopilan sus datos y en su estado natural. Eso podría significar que los datos no están estructurados, no son claros o no están disponibles para su uso en canalizaciones. Los lagos de datos almacenan TODOS LOS DATOS que tiene, incluidas décadas de datos históricos, de todos los tiempos.

El almacenamiento de su lago de datos suele ser barato y, en su mayoría, no administrado.

¿Cuándo se convierten los datos en "Big Data"?

Otro término que se usa mucho es big data, y por una buena razón. Los macrodatos son un fenómeno creciente gracias a la disponibilidad de almacenamiento de datos, la asequibilidad del almacenamiento y la cantidad de sistemas y dispositivos que generan datos a diario.

Big data es, según una definición común, “datos que contienen una mayor variedad que llegan en volúmenes crecientes y con una velocidad cada vez mayor. "

Sus datos son su mayor activo y su mayor riesgo ... sin embargo, solo son útiles si realmente puede entenderlos.

Es por eso que los data marts son tan útiles.

¿Qué es un Data Mart?

Un data mart es un segmento centrado en el tema de un data warehouse que puede responder preguntas específicas, a menudo sobre áreas comerciales específicas o problemas comerciales clave. Aún mejor, un centro de datos está diseñado para poder responder preguntas a pedido y hacer que los datos sean confiables, a diferencia de un lago de datos, que puede estar sucio y desestructurado.

Un almacén de datos suele ser una combinación de muchos mercados de datos diferentes.

¿Qué es un almacén de datos?

Un almacén de datos es, según Wikipedia, “… repositorios centrales de datos integrados de una o más fuentes dispares. Almacenan datos actuales e históricos y se utilizan para crear informes de tendencias para informes de la alta dirección, como comparaciones anuales y trimestrales ".

A diferencia de un lago de datos, un almacén de datos es una fuente deliberada de datos estructurados. Aún más, es un único repositorio de múltiples fuentes… muchas de las cuales son en sí mismas lagos de datos.

Nuestros servicios de paneles se basan en el desarrollo de sólidos almacenes de datos y canalizaciones para que su equipo pueda ver, analizar y visualizar sus datos fácilmente.

Cómo determinar sus próximos pasos

En su mayor parte, pasar de lagos de datos a un almacén de datos o un centro de datos implica muchas actividades de ingeniería de datos como la limpieza de datos, los procesos ETL y las canalizaciones de datos.

Antes de que decida contratar a alguien para su próximo proyecto de datos, es importante comprender dónde se encuentra ahora.

Aquí hay algunas preguntas para hacerle a su equipo:

  • ¿Qué tan aislados están nuestros datos?
  • ¿Qué tan limpios están nuestros datos?
  • ¿Tenemos un conjunto de datos lo suficientemente grande para la iniciativa?
  • ¿Tenemos un caso de uso claro?
  • ¿Qué partes del proyecto puede manejar nuestro equipo interno ahora?
  • ¿Qué tipo de ROI estamos buscando?
  • ¿Sabemos qué área podríamos necesitar con más urgencia que otras?
  • ¿Realmente solo necesitamos visualizaciones antes de probar ML?

Si desea que algún experto lo ayude a averiguar por dónde empezar y qué necesita en términos de datos, mano de obra, herramientas y presupuesto, podemos ayudarlo. Muchos de nuestros proyectos involucran iniciativas relacionadas con datos, especialmente porque ahora tenemos un Centro de Excelencia Python en la Ciudad de México, México.

Con más de 20 años de experiencia, el equipo de datos de Aptude puede ayudarlo a determinar qué capacidades necesita, desarrollar una hoja de ruta del proyecto y dotar de personal a su proyecto con miembros experimentados del equipo. Nuestro proceso comienza con una conversación y un NDA, por lo que puede estar seguro de que, incluso si decide no trabajar con nosotros, su información está segura.

Contáctanos para iniciar la conversación.

Solicite un kit de información sobre ciencia de datos hoy mismo.

¿No estás listo para llamarnos o concertar una reunión con nuestro equipo? ¡Esta bien! Hemos preparado un práctico kit de información para que pueda tener una mejor idea de nuestra experiencia relacionada con los datos, nuestras capacidades y nuestros proyectos exitosos.

Complete el formulario para solicitar su kit de información de ciencia de datos GRATIS.