Data Lake Schriftzug auf Wasser-Hintergrund.

Was ist ein Data Lake?

Ein Data Lake erfasst, speichert und verarbeitet große Mengen von Daten in ihren ursprünglichen Formaten. Diese Form der Datenhaltung bietet ein hohes Maß an Flexibilität bei der Weiterverarbeitung von Daten und bildet so die Grundlage für Analytics, Machine Learning und BI-Technologien.

Data Lake Architecture

Ein Data Lake ist ein zentraler Datenspeicher. Dank der skalierbaren Architektur können riesige Mengen an Daten aus beliebigen Quellsystemen aufgenommen, verarbeitet und gespeichert werden – ohne jeglichen Informations- oder Qualitätsverlust. Es kann sich dabei um strukturierte, semistrukturierte und unstrukturierte Daten handeln:

Data Lake als Datenspeicher dargestellt. Strukturierte- , semistrukturierte- und unstrukturierte Daten laufen hinein

Strukturierte Daten

Speicherung im vordefinierten, meist tabellarischen Format, wie z.B.:

  • Datenbanktabellen
  • Excel-Dateien
  • CSV-Files

Semistrukturierte Daten

Informationen die in einer ähnlichen, aber nicht zwingend gleichen Struktur vorliegen, wie z. B.:

  • XML- und JSON Dateien
  • Logdateien
  • Webseiten

Unstrukturierte Daten

Speicherung im nativen Format, wie z. B.:

  • Bilder
  • Texte
  • Video- und Audiodateien

Die Daten Lakes können on-premise, in der Cloud (z. B. Amazon Web Services – AWS, Microsoft Azure oder Google Cloud) oder in einer Kombination aus beiden betrieben werden. Ihnen liegt ein sogenanntes Schema-on-Read-Prinzip zugrunde. Das bedeutet, dass es kein definiertes Schema gibt, in das die Daten vor dem Speichern gebracht werden müssen. Die Strukturierung und die Umformatierung der Daten erfolgt erst später, wenn diese für Datenanalysen, Machine Learning Modelle und andere Business Intelligence (BI) Anwendungen verwendet werden.

Es gilt jedoch zu beachten, dass sich bei mangelnder Verwaltung so manch „klarer Bergsee“ in einen sog. Datensumpf (Data Swamp) verwandeln kann. Das heißt, sobald es an angemessenen Datenqualitäts- und Data-Governance-Maßnahmen mangelt, kann sich die Auffindbarkeit einzelner Datensätze als nahezu unmöglich herausstellen.

Vorteile eines Data Lakes

Im Folgenden zeigen wir Ihnen die wesentlichen Vorteile, die ein Data Lake für Unternehmen mit sich bringt:

Data Lake oder Data Warehouse?

Sowohl ein Data Lake als auch ein Data Warehouse dient der Speicherung von Daten. Daher werden die beiden Ansätze gerne mal miteinander verwechselt. Die Tools konkurrieren jedoch nicht miteinander, sondern kommen einander eher ergänzend zum Einsatz. Sind z.B. Rohdaten in einem Data Lake gespeichert und werden zur Beantwortung einer geschäftlichen Frage benötigt, können sie extrahiert, bereinigt, umgewandelt und in einem Data Warehouse für eine anschließende Analyse verwendet werden.

Lesen Sie in unserem Blogbeitrag Datawarehouse vs Data Lake mehr über die Gemeinsamkeiten oder Unterschiede.

Ist ein Data Lake sinnvoll?

Ein Data Lake ist ein zentraler Speicher für riesige Mengen verschiedener Arten und Quellen von Daten. Er löst die Probleme von Datensilos auf und bietet eine effiziente und skalierbare Speicherlösung, die oft in Kombination mit Analyseanwendungen und Business Intelligence genutzt wird. Die Fähigkeit, Daten in ihrem Rohformat zu speichern, zu transformieren und zu analysieren, eröffnet neue Geschäftsmöglichkeiten und ermöglicht eine reibungslose digitale Transformation im Unternehmen. Dies ist der entscheidende Vorteil eines Data Lake.