Data Lake vs Data Warehouse eine Gegenüberstellung der Begrifflichkeiten

Data Lake vs Data Warehouse

Data Lake und Data Warehouse (DWH) sind verschiedene Ansätze zur Datenspeicherung. Während in einem Lake unstrukturierte (Roh-) Daten gespeichert werden, ist ein DWH mit strukturierten und verarbeiteten Daten befüllt. In unserem Artikel Data Lake vs Data Warehouse informieren wir Sie umfänglich zu den Unterschieden der beiden Technologien.

Data Lake oder Data Warehouse?

Das Data Warehouse (DWH) ist ein digitales Speichersystem, das riesige Mengen von strukturierten und formatierten Daten aus diversen Quellen miteinander verbindet und harmonisiert.

Bei einem Data Lake hingegen werden die Daten zwar ebenfalls gespeichert, jedoch in Ihrer ursprünglichen, unbearbeiteten Form (Rohdaten). Sie sind weder strukturiert, noch formatiert.

Data Lake vs Data Warehouse

Unterschiede Data Lake und DWH

Im Folgenden zeigen wir Ihnen eine tabellarische Gegenüberstellung von Data Lake und Data Warehouse. Zu den wichtigsten Unterschieden gehören z. B. die Datenstruktur, die jeweiligen Anwender:innen, Skalierbarkeit und Nutzung.

Feature Data Lake Data Warehouse
Datentypen Strukturiert,
semi-strukturiert,
unstrukturiert
Meist strukturiert
Flexibilität Hoch  Gering
Skalierbarkeit Fast unbegrenzt Begrenzt
Kosten Generell geringer Höher
Performance Anwendungsfall abhängig Hoch – für komplexe Abfragen
Schema Schema-on-Read
(Zeitpunkt der Analyse)
Schema-on-Write
(Vordefiniert)
Nutzung Datenexploration,
ML, Big Data
Geschäftsberichte,
BI-Anwendungen
User Datenwissenschaftler,
Datenentwickler (z. B. mit Python),
Business-Analysten
(mit SQL für kuratierte Daten)
Business-Analysten mit SQL

Sie benötigen mehr Informationen zu den einzelnen Anwendungen? Auf unseren Seiten finden Sie alle relevanten Details.

➡  Zur Seite Data Warehouse
➡  Alles rund um Data Lake

DWH oder Lake – was ist besser?

Data Lakes und Data Warehouses haben essenzielle Unterschiede. Für welche Art der Datenspeicherung Sie sich entscheiden sollten, ist abhängig von verschiedenen Faktoren wie z. B. der Datenstruktur und den Benutzeranforderungen. Oft ist eine Kombination aus beiden die beste Lösung, um das gesamte Spektrum der Datenspeicher-Anforderungen abzudecken.

Alternativ wird auch auf die „fusionierte“ Lösung zurückgegriffen: dem Data Lakehouse.