产品简介
许多负责领导数据项目的高管面临着关于通用数据术语的困惑。 大数据,数据湖,数据仓库和数据集市之间有什么区别? 大数据什么时候“足够大”? 为什么这有关系?
在本文中,我们将分解不同术语之间的区别,以便您在任何与数据相关的会议,项目简介或人员配备计划中听起来都更加聪明。
首先-什么是数据?
数据的核心是定量和定性信息的存储。 在您的企业中,这可能是有关以下信息:
- 您的内部员工
- 您的顾客
- 您的内部流程
- 您的财务数据
- 服务台票号
还有更多的东西是不可能在单个文档中跨维度和度量列出的。 您的数据分散在组织内外的许多系统,数据库和组中。
您的数据也处于相关性,准确性,及时性和可访问性的各种状态。 其中一些与其他数据保持一致,而另一些则与之不符。
如果您的组织像超过95%的公司一样,那么您将面临大量非结构化,不干净的数据。 该状态通常被我们称为“数据湖”。
什么是数据湖
数据湖是收集数据并处于自然状态的地方。 这可能意味着数据没有结构化,清晰或无法在管道中使用。 数据湖始终存储您拥有的所有数据,包括数十年的历史数据。
您的数据湖的存储通常很便宜,而且大多不受管理。
数据什么时候成为“大数据”?
另一个经常使用的术语是大数据,这是有充分理由的。 由于数据存储的可用性,存储的可承受性以及每天生成数据的系统和设备的数量,大数据正在成为一种日益增长的现象。
根据一个共同的定义,大数据是“包含更多种类的数据,它们以越来越大的速度和越来越高的速度到达。 “
您的数据是您最大的资产,也是您最大的风险……但是,只有在您能真正理解它的情况下,它才有用。
这就是为什么数据集市如此有帮助的原因。
什么是数据集市?
数据集市是数据仓库中以主题为中心的部分,可以回答特定问题,通常是有关特定业务领域或关键业务问题的信息。 甚至更好的是,数据集市的构建是为了能够按需回答问题并使数据受信任,这与可能是不干净且结构化的数据湖相反。
数据仓库通常是许多不同数据集市的组合。
什么是数据仓库
根据Wikipedia所述,数据仓库是“…来自一个或多个不同来源的集成数据的中央存储库。 它们存储当前和历史数据,并用于为高级管理报告创建趋势报告,例如年度和季度比较。”
与数据湖不同,数据仓库是结构化数据的有意来源。 更进一步,它是一个由多个来源组成的单一存储库,其中许多本身就是数据湖。
我们的仪表板服务建立在强大的数据仓库和管道开发之上,因此您的团队可以轻松地查看,分析和可视化数据。
如何确定下一步
在大多数情况下,从数据湖移入数据仓库或数据集市涉及许多数据工程活动,例如数据清理,ETL流程和数据管道。
在决定雇用任何人进行下一个数据项目之前,了解您现在的位置非常重要。
以下是一些要问您的团队的问题:
- 我们的数据有多孤立?
- 我们的数据有多干净?
- 我们是否有足够大的数据集可用于该计划?
- 我们有明确的用例吗?
- 我们的内部团队现在可以处理项目的哪些部分?
- 我们正在寻找什么样的投资回报率?
- 我们是否比其他地方更迫切需要我们一个地方?
- 在尝试ML之前,我们真的真的首先需要可视化吗?
如果您需要一些专家帮助您确定从哪里开始以及在数据,人力,工具和预算方面需要什么,我们可以为您提供帮助。 我们的许多项目都涉及与数据相关的计划,尤其是因为我们现在在墨西哥的墨西哥城拥有Python卓越中心。
拥有20多年经验的Aptude数据团队可以帮助您确定所需的功能,制定项目路线图,并由经验丰富的团队成员来为您的项目配备人员。 我们的流程始于对话和NDA,因此您可以确定,即使您决定不与我们合作,您的信息也是安全的。
与我们联系以开始对话。
立即索取数据科学信息工具包。
还没准备好打电话给我们或与我们的团队预约会议吗? 没关系! 我们整理了一个方便的信息包,使您可以更好地了解与数据相关的经验,功能和成功的项目。
填写表格,索取免费的数据科学信息工具包。