Data Lake
Was ist ein Data Lake? Ein Data Lake erfasst, speichert und verarbeitet große Mengen von Daten in ihren ursprünglichen Formaten.


Ein Data Lake ist ein zentraler Datenspeicher. Dank der skalierbaren Architektur können riesige Mengen an Daten aus beliebigen Quellsystemen aufgenommen, verarbeitet und gespeichert werden – ohne jeglichen Informations- oder Qualitätsverlust. Es kann sich dabei um strukturierte, semistrukturierte und unstrukturierte Daten handeln.
Die Daten Lakes können on-premise, in der Cloud (z. B. Amazon Web Services – AWS, Microsoft Azure oder Google Cloud) oder in einer Kombination aus beiden betrieben werden. Ihnen liegt ein sogenanntes Schema-on-Read-Prinzip zugrunde. Das bedeutet, dass es kein definiertes Schema gibt, in das die Daten vor dem Speichern gebracht werden müssen. Die Strukturierung und die Umformatierung der Daten erfolgt erst später, wenn diese für Datenanalysen, Machine Learning Modelle und andere Business Intelligence (BI) Anwendungen verwendet werden.
Es gilt jedoch zu beachten, dass sich bei mangelnder Verwaltung so manch „klarer Bergsee“ in einen sog. Datensumpf (Data Swamp) verwandeln kann. Das heißt, sobald es an angemessenen Datenqualitäts- und Data-Governance-Maßnahmen mangelt, kann sich die Auffindbarkeit einzelner Datensätze als nahezu unmöglich herausstellen.
Vorteile eines Data Lakes
Die wichtigsten Vorteile eines Data Lakes für Unternehmen sind:
- Flexible und skalierbare Datenspeicherung
- Erhaltung der Datenqualität und -integrität
- Möglichkeit, verschiedene Datenformate zu speichern
- Vereinfachte Integration von Analyse- und BI-Tools
- Reduzierung von Datensilos
- Verbesserte datenbasierte Entscheidungsfähigkeit
Data Lake oder Data Warehouse?
Sowohl ein Data Lake als auch ein Data Warehouse dient der Speicherung von Daten. Daher werden die beiden Ansätze gerne mal miteinander verwechselt. Die Tools konkurrieren jedoch nicht miteinander, sondern kommen einander eher ergänzend zum Einsatz. Sind z.B. Rohdaten in einem Data Lake gespeichert und werden zur Beantwortung einer geschäftlichen Frage benötigt, können sie extrahiert, bereinigt, umgewandelt und in einem Data Warehouse für eine anschließende Analyse verwendet werden.
Lesen Sie in unserem Blogbeitrag Datawarehouse vs Data Lake mehr über die Gemeinsamkeiten und Unterschiede.
Ist ein Data Lake sinnvoll?
Ein Data Lake ist ein zentraler Speicher für riesige Mengen verschiedener Arten und Quellen von Daten. Er löst die Probleme von Datensilos auf und bietet eine effiziente und skalierbare Speicherlösung, die oft in Kombination mit Analyse-Anwendungen und Business Intelligence genutzt wird. Die Fähigkeit, Daten in ihrem Rohformat zu speichern, zu transformieren und zu analysieren, eröffnet neue Geschäftsmöglichkeiten und ermöglicht eine reibungslose digitale Transformation im Unternehmen. Dies ist der entscheidende Vorteil eines Data Lake.
Weitere Artikel entdecken

Data Warehouse
Ein Data Warehouse (DWH) ist eine zentrale Datenbank die strukturierte Daten aus unterschiedlichen Quellen (z.B. ERP, CRM, Datenbanken, externe Systeme) sammelt, transformiert und aggregiert. Es kann als eine Art konsistenter Zwischenspeicher verstanden werden, der die Grundlage für Business Intelligence (BI), Analysen und Reporting bildet. Im Gegensatz zu operativen Systemen und Datenbanken sind DWHs insbesondere für schnelle und effiziente Abfragen und Analysen von Daten optimiert.

Datenarchitektur
Was ist Datenarchitektur und wofür ist sie wichtig? In erfolgreichen Unternehmen ist effektive Datenarbeit essentiell für langfristiges Wachstum.

Data Lakehouse
Ein Data Lakehouse ist eine neuartige, offene Datenverwaltungsarchitektur, die die Vorteile eines Data Lakes mit den eines Data Warehouses vereint. Es besitzt die Flexibilität, Kosteneffizienz und Skalierbarkeit eines Data Lakes in Kombination mit den Datenmanagement-Funktionalitäten eines Data Warehouses.Im Data Lakehouse werden Daten in ihrem nativen Format (Roh-Daten) gespeichert, um diese anschließend mit Hilfe von strukturierten Metadaten anzureichern. Im Gegensatz zum Data Lake werden hier relevante Datensätze strukturell – wie in einem Data Warehouse – aufgearbeitet. So kann anschließend Business Intelligence (BI), Reporting, Analytics und maschinelles Lernen (ML) auf einer einzigen Plattform ermöglicht werden.