Einführung

Viele Führungskräfte, die mit der Leitung von Datenprojekten beauftragt sind, sind verwirrt über gemeinsame Datenbegriffe. Was ist der Unterschied zwischen Big Data, einem Data Lake, einem Data Warehouse und einem Data Mart? Wann ist Big Data „groß genug“? Warum spielt es eine Rolle?

In diesem Artikel werden die Unterschiede zwischen den verschiedenen Begriffen aufgeschlüsselt, damit Sie bei jeder datenbezogenen Besprechung, Projektbeschreibung oder Personalinitiative intelligenter klingen können.

Erstens: Was sind Daten überhaupt?

Daten sind im Kern die Speicherung quantitativer und qualitativer Informationen. In Ihrem Unternehmen können dies Informationen sein über:

  •  Ihre internen Mitarbeiter
  •  Ihre Kunden
  • Ihre internen Prozesse
  • Ihre Finanzdaten
  • Helpdesk-Ticketnummern

Und so viel mehr, das nicht in einem einzigen Dokument über Dimensionen und Maße hinweg aufgelistet werden kann. Ihre Daten sind auf viele Systeme, Datenbanken und Gruppen innerhalb und außerhalb Ihrer Organisation verteilt.

Ihre Daten befinden sich auch in verschiedenen Zuständen von Relevanz, Genauigkeit, Aktualität und Zugänglichkeit. Ein Teil davon ist auf andere Daten ausgerichtet, ein anderer Teil nicht.

Wenn Ihre Organisation mehr als 95% der Unternehmen umfasst, sind Sie mit einer Fülle unstrukturierter, unreiner Daten konfrontiert. Diesen Zustand nennen wir oft einen „Datensee“.

Was ist ein Data Lake?

Ein Datensee ist ein Ort, an dem Ihre Daten gesammelt werden und sich in ihrem natürlichen Zustand befinden. Dies kann bedeuten, dass die Daten nicht strukturiert, klar oder für die Verwendung in Pipelines verfügbar sind. Data Lakes speichern ALLE DATEN, einschließlich jahrzehntelanger historischer Daten, für alle Zeiten.

Der Speicher für Ihren Datensee ist normalerweise billig und meistens nicht verwaltet.

Wann werden Daten zu „Big Data“?

Ein anderer Begriff, der häufig verwendet wird, ist Big Data - und das aus gutem Grund. Big Data ist aufgrund der Verfügbarkeit von Datenspeicher, der Erschwinglichkeit von Speicher und der Anzahl der Systeme und Geräte, die täglich Daten generieren, ein wachsendes Phänomen.

Big Data ist nach einer gängigen Definition „Daten, die eine größere Vielfalt enthalten, die in zunehmendem Umfang und mit immer höherer Geschwindigkeit ankommt. „

Ihre Daten sind Ihr größtes Kapital und Ihr größtes Risiko. Sie sind jedoch nur dann nützlich, wenn Sie tatsächlich einen Sinn daraus ziehen können.

Aus diesem Grund sind Data Marts so hilfreich.

Was ist ein Data Mart?

Ein Data Mart ist ein themenorientiertes Segment eines Data Warehouse, das bestimmte Fragen beantworten kann, häufig zu bestimmten Geschäftsbereichen oder wichtigen Geschäftsproblemen. Noch besser ist, dass ein Data Mart so aufgebaut ist, dass er Fragen bei Bedarf beantworten und den Daten vertrauen kann, im Gegensatz zu einem Datensee, der möglicherweise unrein und unstrukturiert ist.

Ein Data Warehouse ist normalerweise eine Kombination aus vielen verschiedenen Data Marts.

Was ist ein Data Warehouse?

Ein Data Warehouse ist laut Wikipedia „… ein zentrales Repository für integrierte Daten aus einer oder mehreren unterschiedlichen Quellen. Sie speichern aktuelle und historische Daten und werden zur Erstellung von Trendberichten für die Berichterstattung der Geschäftsleitung verwendet, z. B. für jährliche und vierteljährliche Vergleiche. “

Im Gegensatz zu einem Data Lake ist ein Data Warehouse eine bewusste Quelle für strukturierte Daten. Darüber hinaus handelt es sich um ein einziges Repository mit mehreren Quellen, von denen viele selbst Datenseen sind.

Unsere Dashboarding-Services basieren auf der Entwicklung robuster Data Warehouses und Pipelines, sodass Ihr Team Ihre Daten problemlos anzeigen, analysieren und visualisieren kann.

So bestimmen Sie Ihre nächsten Schritte

Der Umzug von Data Lakes in ein Data Warehouse oder Data Mart erfordert zum größten Teil viele Data Engineering-Aktivitäten wie Datenbereinigung, ETL-Prozesse und Datenpipelines.

Bevor Sie sich entscheiden, jemanden für Ihr nächstes Datenprojekt einzustellen, ist es wichtig zu verstehen, wo Sie sich gerade befinden.

Hier sind einige Fragen, die Sie Ihrem Team stellen sollten:

  • Wie isoliert sind unsere Daten?
  • Wie sauber sind unsere Daten?
  • Haben wir einen ausreichend großen Datensatz für die Initiative?
  • Haben wir einen klaren Anwendungsfall?
  • Welche Teile des Projekts kann unser internes Team jetzt bearbeiten?
  • Welche Art von ROI suchen wir?
  • Wissen wir, welchen Bereich wir dringend benötigen als andere?
  • Brauchen wir wirklich erst Visualisierungen, bevor wir ML ausprobieren?

Wenn Sie möchten, dass ein Experte Ihnen hilft, herauszufinden, wo Sie anfangen sollen und was Sie in Bezug auf Daten, Personal, Tools und Budget benötigen, können wir Ihnen helfen. Viele unserer Projekte beinhalten datenbezogene Initiativen, zumal wir jetzt ein Python Center of Excellence in Mexiko-Stadt haben.

Mit über 20 Jahren Erfahrung kann Ihnen das Data-Team von Aptude dabei helfen, herauszufinden, welche Funktionen Sie benötigen, eine Projekt-Roadmap zu entwickeln und Ihr Projekt mit erfahrenen Teammitgliedern zu besetzen. Unser Prozess beginnt mit einem Gespräch und einer NDA, sodass Sie sicher sein können, dass Ihre Informationen sicher sind, auch wenn Sie sich entscheiden, nicht mit uns zusammenzuarbeiten.

Kontaktieren Sie uns, um das Gespräch zu beginnen.

Fordern Sie noch heute ein Data Science-Info-Kit an.

Sind Sie nicht bereit, uns anzurufen oder ein Meeting mit unserem Team zu buchen? Das ist okay! Wir haben ein praktisches Info-Kit zusammengestellt, damit Sie ein besseres Gefühl für unsere datenbezogenen Erfahrungen, Fähigkeiten und erfolgreichen Projekte bekommen.

Füllen Sie das Formular aus, um Ihr KOSTENLOSES Data Science Info Kit anzufordern.