简介

Aptude曾担任全球一些最知名公司(包括一些我们无法命名的公司)的专家数据顾问。 我们的客户几乎遍布各个行业,并要求我们为他们提供各种项目的帮助。 尽管我们几乎可以做任何事情,但我们的一些最佳工作涉及数据科学方面的深厚专业知识,尤其是在Python和数据科学方面。

但是,我们将第一个承认许多公司不需要数据科学家,更不用说整个团队了。 还没。

在本文中,我们将讨论为什么我们认为您的第一个数据租用者(无论是内部还是外部)都不应该是数据科学家。 我们还将向您提出问题,以确定您是否准备好进行数据科学项目。

您可能不需要数据科学家。 这就是为什么。

正如我们在另一篇博客中比较数据工程,数据分析和数据科学所讨论的那样,诸如机器学习之类的高级数据科学需要在易于存储数据的数据仓库中存储大量数据(“大数据”)。

为此,数据不仅应可用。 必须对其进行清理,结构化并放入管道中,以供您的分析团队访问。 这涉及很多工作,因为仅拥有历史数据是不够的。 数据必须有意义并以可用的方式相互关联。

例如,假设您在不同的数据库中有名字字段。 在您的销售团队使用的一个数据库中,名字被称为“名字”,最多可以包含50个字母字符。 在另一个数据库中,例如营销所使用的数据库,名字被称为FIRSTNAME,可以包含75个字母数字字符以及特殊字符,例如连字符和撇号。 应该清楚的是,这两个字段是不对齐的。 如果您想从这两个不同的来源中提取名字数据,会发生什么?

这不是很漂亮,尤其是当您考虑到某些数据库语言对某些数学字段的计算方式不同于其他语言时; 两个和两个可能不是四个!

对于大多数公司而言,第一步实际上应该涉及数据工程和清理,而不是尝试进行最先进的预测。

这有一个更大的原因:机器学习等先进技术需要大量数据才能正常工作。 如果您没有足够的干净数据,那么无论您的数据科学家多么有经验和才华,项目都会失败。

这就是为什么我们说您现在可能不需要数据科学家的原因。

启动数据科学项目之前要问的问题。

尽管在Aptude,我们喜欢从事涉及复杂算法的项目,以解决极富挑战性和ROI驱动的用例,但我们知道从机器学习开始并不总是可行的。

以下是一些要问您的团队的问题:

  • 我们的数据有多孤立?
  • 我们的数据有多干净?
  • 我们是否有足够大的数据集可用于该计划?
  • 我们有明确的用例吗?
  • 我们的内部团队现在可以处理项目的哪些部分?
  • 我们正在寻找什么样的投资回报率?
  • 我们是否比其他地方更迫切需要我们一个地方?
  • 在尝试ML之前,我们真的真的首先需要可视化吗?
  • 我们想回答哪些问题……我们需要回答哪些问题?
  • 我们要使用哪些工具? (Oracle, Hadoop的,Python,SQL Server,Power BI,Tableau)

回答这些问题可以使您更清楚地了解组织的数据收集,管理和质量保证框架。 而且,您应该对可能需要朝哪个方向前进有很好的了解……即使该方向是使您的利益相关者和决策者更多地坐在一个房间里谈论组织的数据孤岛。

如果不是数据科学,那又如何?

对于大多数数据项目,通过彻底的数据审核来确定以下内容不会出错:

  • 全部 组织中历史数据的来源
  • 这些数据源的位置和管理
  • 每个来源中数据的质量和完整性
  • 这些来源之间的数据对齐
  • 您可以使用当前数据回答的问题
  • 当前数据无法回答的问题

如果您需要一些专家来帮助您确定从哪里开始以及在数据,人力,工具和预算方面需要什么,我们可以为您提供帮助。 我们的许多项目都涉及与数据相关的计划,尤其是由于我们现在拥有 墨西哥墨西哥城的Python卓越中心。 获得我们的帮助就像c通过与我们联系 邮箱地址, form电话.