Introducción
Aptude se ha desempeñado como consultores de datos expertos para algunas de las empresas más conocidas del mundo, incluidas algunas que no podemos nombrar. Nuestros clientes abarcan casi todas las industrias y nos piden que los ayudemos con una variedad de proyectos. Si bien podemos hacer casi cualquier cosa, algunos de nuestros mejores trabajos implican una gran experiencia en ciencia de datos, especialmente cuando se trata de Python y ciencia de datos.
Sin embargo, seremos los primeros en admitir que muchas empresas no necesitan un científico de datos, y mucho menos un equipo completo. Aún no.
En este artículo, analizaremos por qué creemos que su primera contratación de datos (ya sea interna o externa) no debería ser un científico de datos. También le daremos preguntas para determinar su preparación para proyectos de ciencia de datos.
Es posible que no necesite un científico de datos. Este es el por qué.
Como comentamos en otro blog que compara Ingeniería de datos, Análisis de datos y Ciencia de datos, la ciencia de datos avanzada, como el aprendizaje automático, requiere grandes cantidades de datos ("big data") en almacenes de datos donde los datos se pueden consumir fácilmente.
Para hacer esto, los datos no solo deben estar disponibles. Debe limpiarse, estructurarse y colocarse en tuberías a las que puedan acceder sus equipos de análisis. Esto implica mucho trabajo, porque no basta con poseer los datos históricos. Los datos deben tener sentido y relacionarse entre sí de una manera que sea utilizable.
Por ejemplo, digamos que tiene campos de nombre en diferentes bases de datos. En una base de datos utilizada por su equipo de ventas, el nombre se conoce como "Nombre" y puede contener hasta 50 caracteres alfabéticos. En otra base de datos, digamos la utilizada por marketing, el nombre se conoce como FIRSTNAME y puede contener 75 caracteres alfanuméricos más caracteres especiales como guiones y apóstrofos. Debe quedar claro que estos dos campos no están alineados. ¿Qué sucede cuando desea extraer datos de nombres de estas dos fuentes dispares?
No es bonito, especialmente si se tiene en cuenta que algunos lenguajes de bases de datos calculan algunos campos matemáticos de forma diferente a otros lenguajes; ¡dos y dos pueden no ser cuatro!
Para la mayoría de las empresas, el primer paso debería implicar realmente la ingeniería y la limpieza de datos, en lugar de intentar realizar predicciones de vanguardia.
Existe una razón aún mayor para esto: las tecnologías avanzadas como el aprendizaje automático requieren una gran cantidad de datos para funcionar. Si no tiene suficientes datos limpios, el proyecto fracasará sin importar cuán experimentados y talentosos sean sus científicos de datos.
Por eso decimos que es posible que no necesite un científico de datos, todavía.
Preguntas que debe hacerse antes de lanzar un proyecto de ciencia de datos.
Si bien en Aptude nos encanta trabajar en proyectos que involucran algoritmos complejos que resuelven casos de uso altamente desafiantes y basados en el ROI, sabemos que no siempre es factible comenzar con el aprendizaje automático.
Aquí hay algunas preguntas para hacerle a su equipo:
- ¿Qué tan aislados están nuestros datos?
- ¿Qué tan limpios están nuestros datos?
- ¿Tenemos un conjunto de datos lo suficientemente grande para la iniciativa?
- ¿Tenemos un caso de uso claro?
- ¿Qué partes del proyecto puede manejar nuestro equipo interno ahora?
- ¿Qué tipo de ROI estamos buscando?
- ¿Sabemos qué área podríamos necesitar con más urgencia que otras?
- ¿Realmente solo necesitamos visualizaciones antes de probar ML?
- ¿Qué preguntas queremos responder ... y cuáles debemos responder?
- ¿Qué herramientas nos gustaría utilizar para esto? (Oráculo, Hadoop, Python, SQL Server, Power BI, Tableau)
Responder a estas preguntas debería arrojar luz sobre los esqueletos en el armario de su organización en lo que respecta a la recopilación, gestión y garantía de calidad de datos. Y debe tener una idea clara de la dirección en la que es probable que deba dirigirse para progresar ... incluso si esa dirección hace que las partes interesadas y los tomadores de decisiones estén en una sala con más frecuencia para hablar sobre los silos de datos de su organización.
Si no es ciencia de datos, ¿entonces qué?
Para la mayoría de los proyectos de datos, no puede fallar con una auditoría de datos exhaustiva para determinar:
- Todos de las fuentes de datos históricos en su organización
- La ubicación y gestión de cada una de estas fuentes de datos.
- La calidad e integridad de los datos en cada una de estas fuentes.
- La alineación de datos entre estas fuentes
- Las preguntas que puede responder con sus datos actuales
- Las preguntas que no puede responder con sus datos actuales
Si desea que algún experto lo ayude a averiguar por dónde empezar y qué necesita en términos de datos, mano de obra, herramientas y presupuesto, podemos ayudarlo. Muchos de nuestros proyectos involucran iniciativas relacionadas con datos, especialmente porque ahora tenemos un Centro de excelencia Python en la Ciudad de México, México. Obtener nuestra ayuda es tan fácil como ccontactándonos a través de correo, formularioo teléfono.
Sigue avanzando con Aptude
Aptude es su propia firma personal de servicios profesionales de TI. Brindamos a nuestros clientes recursos de primera clase de manera continua y con costos reducidos.
Nuestros servicios de soporte liberarán a su personal de TI senior de la abrumadora carga de los problemas diarios de mantenimiento. Ahora tendrán tiempo para lanzar esos nuevos proyectos y aplicaciones que has estado esperando. En pocas palabras, podemos liberar sus recursos y contener sus costos. Tengamos una conversación rápida para discutir nuestros servicios exclusivos.