产品简介

许多负责领导数据项目的高管面临着关于通用数据术语的困惑。 大数据,数据湖,数据仓库和数据集市之间有什么区别? 大数据什么时候“足够大”? 为什么这有关系?

在本文中,我们将分解不同术语之间的区别,以便您在任何与数据相关的会议,项目简介或人员配备计划中听起来都更加聪明。

首先-什么是数据?

数据的核心是定量和定性信息的存储。 在您的企业中,这可能是有关以下信息:

  •  您的内部员工
  •  您的顾客
  • 您的内部流程
  • 您的财务数据
  • 服务台票号

还有更多的东西是不可能在单个文档中跨维度和度量列出的。 您的数据分散在组织内外的许多系统,数据库和组中。

您的数据也处于相关性,准确性,及时性和可访问性的各种状态。 其中一些与其他数据保持一致,而另一些则与之不符。

如果您的组织像超过95%的公司一样,那么您将面临大量非结构化,不干净的数据。 该状态通常被我们称为“数据湖”。

什么是数据湖

数据湖是收集数据并处于自然状态的地方。 这可能意味着数据没有结构化,清晰或无法在管道中使用。 数据湖始终存储您拥有的所有数据,包括数十年的历史数据。

您的数据湖的存储通常很便宜,而且大多不受管理。

数据什么时候成为“大数据”?

另一个经常使用的术语是大数据,这是有充分理由的。 由于数据存储的可用性,存储的可承受性以及每天生成数据的系统和设备的数量,大数据正在成为一种日益增长的现象。

根据一个共同的定义,大数据是“包含更多种类的数据,它们以越来越大的速度和越来越高的速度到达。 “

您的数据是您最大的资产,也是您最大的风险……但是,只有在您能真正理解它的情况下,它才有用。

这就是为什么数据集市如此有帮助的原因。

什么是数据集市?

数据集市是数据仓库中以主题为中心的部分,可以回答特定问题,通常是有关特定业务领域或关键业务问题的信息。 甚至更好的是,数据集市的构建是为了能够按需回答问题并使数据受信任,这与可能是不干净且结构化的数据湖相反。

数据仓库通常是许多不同数据集市的组合。

什么是数据仓库

根据Wikipedia所述,数据仓库是“…来自一个或多个不同来源的集成数据的中央存储库。 它们存储当前和历史数据,并用于为高级管理报告创建趋势报告,例如年度和季度比较。”

与数据湖不同,数据仓库是结构化数据的有意来源。 更进一步,它是一个由多个来源组成的单一存储库,其中许多本身就是数据湖。

我们的仪表板服务建立在强大的数据仓库和管道开发之上,因此您的团队可以轻松地查看,分析和可视化数据。

如何确定下一步

在大多数情况下,从数据湖移入数据仓库或数据集市涉及许多数据工程活动,例如数据清理,ETL流程和数据管道。

在决定雇用任何人进行下一个数据项目之前,了解您现在的位置非常重要。

以下是一些要问您的团队的问题:

  • 我们的数据有多孤立?
  • 我们的数据有多干净?
  • 我们是否有足够大的数据集可用于该计划?
  • 我们有明确的用例吗?
  • 我们的内部团队现在可以处理项目的哪些部分?
  • 我们正在寻找什么样的投资回报率?
  • 我们是否比其他地方更迫切需要我们一个地方?
  • 在尝试ML之前,我们真的真的首先需要可视化吗?

如果您需要一些专家帮助您确定从哪里开始以及在数据,人力,工具和预算方面需要什么,我们可以为您提供帮助。 我们的许多项目都涉及与数据相关的计划,尤其是因为我们现在在墨西哥的墨西哥城拥有Python卓越中心。

拥有20多年经验的Aptude数据团队可以帮助您确定所需的功能,制定项目路线图,并由经验丰富的团队成员来为您的项目配备人员。 我们的流程始于对话和NDA,因此您可以确定,即使您决定不与我们合作,您的信息也是安全的。

与我们联系以开始对话。

立即索取数据科学信息工具包。

还没准备好打电话给我们或与我们的团队预约会议吗? 没关系! 我们整理了一个方便的信息包,使您可以更好地了解与数据相关的经验,功能和成功的项目。

填写表格,索取免费的数据科学信息工具包。