Boxhandschuhe als Symbol für Entscheidung zwischen Data Lake und Data Warehouse

Data Lake vs. Data Warehouse

Welche Lösung ist die richtige?

Geht es um die Speicherung großer Datenmengen, kommt man um die Begriffe Data Lake und Data Warehouse kaum herum. Vielen Unternehmen stellt sich früher oder später die Frage, welche der beiden Lösungen für welchen Anwendungsfall geeignet ist. In diesem Beitrag widme ich mich mit Erkenntnissen aus aktuellen Projekten in Kombination mit Erfahrungen und Versprechungen der Vergangenheit dem Thema Data Lake vs. Data Warehouse.

Dabei führt eigentlich schon der Titel in die Irre: „vs“ – wieso eigentlich „versus“, also entweder – oder? Das Thema „Data Warehouse“ ist und bleibt aktuell. Tatsächlich nehme ich bei unseren Kund*innen oft genau diese Vorstellung „entweder – oder“ wahr. In weiteren Gesprächen stellen wir zusammen fest, ob (und wie) ein integrierter Ansatz nicht viel sinnvoller ist, bzw. wie die beiden Ansätze sich ergänzen.

Zuerst kommt das Fachliche, dann die Technologie!

Ich wehre mich an dieser frühen Stelle ausdrücklich, beide Ansätze jetzt schon mit Technologien zu verbinden. Denn: die Entscheidung für das eine oder das andere sollte stets fachlich und nicht technisch getroffen werden! Stattdessen werde ich mich im Folgenden etwas detaillierter mit Data Lake und Data Warehouse auseinandersetzen, um später auch das eine oder andere zu möglichen Umsetzungen zu schreiben.

Inhalt

Das Verständnis um den Mehrwert von Informationen macht den Unterschied
Data Warehouse und Data Lake im Vergleich
„Data Warehouse vs. Data Lake” vs. „Data Warehouse UND Data Lake”
Data Governance im Data Lake
Fazit: Kombination beider Ansätze als mögliche Lösung

Gemeinsamkeit: Nutzung von Informationen

Gemeinsam haben Data Lake und Data Warehouse, dass in ihnen die technische, aber auch fachliche Basis für nachvollziehbare, (qualitäts-)gesicherte Informationen gelegt wird. Auf dieser lässt sich in unterschiedlicher Intensität und Qualität analysieren.

Das Verständnis um den Mehrwert von Informationen macht den Unterschied

Unternehmen weisen ein unterschiedliches Verständnis davon auf, welche Mehrwerte Informationen potenziell bieten. In Abhängigkeit dessen variieren die Anforderungen an analytische Fähigkeiten und damit entsteht auch die Notwendigkeit in der Bereitstellung unterschiedlicher Technologien.

Unternehmen, die wenig Mehrwerte in der Nutzung von Informationen sehen, werden ihre Aktivitäten in diesem Bereich auf die reine Bereitstellung der Daten zur historischen Betrachtung beschränken. Andere Unternehmen, die vielleicht sogar Informationen als Teil ihres Geschäftsmodells sehen, werden Daten sammeln, deren Wert derzeit möglicherweise noch fraglich ist und später mithilfe AI-gestützter Algorithmen Methoden finden, um den Inhalt zu verstehen und Mehrwerte zu generieren. Die höchste Stufe erreichen Unternehmen, die Informationen als zentralen Baustein all ihrer Aktivitäten verstehen und diese damit ergänzen: Sei es in der Produktion durch Ausschussreduktion, im Controlling durch vorausschauendes Cashflow Management, im Vertrieb durch gezielte Kundenansprache, oder oder oder…

Aus diesen Überlegungen ergeben sich die Anforderungen an die analytische Plattform: Data Warehouse, Data Lake? Womöglich beides oder besser noch eine Planungsapplikation mit OLAP? Die Möglichkeiten sind groß und der Bedarf nach der passenden Architektur ebenfalls.

Data Lake & Data Warehousing
zur Speicherung von Big Data

Was genau ist ein Data Lake? Was ein Data Warehouse? Auf unseren Kompetenzseiten geben wir einen Überblick über grundlegende Begriffe.

Data Warehouse & Data Lake im Vergleich

Data Warehouse

Das Data Warehouse – klassisch, aber nicht veraltet!

Der klassische Ansatz eines Data Warehouse besteht in der Bereitstellung eines „Single Point of Truth“. Sowohl technische als auch fachliche Gründe führten zur Entstehung von Methoden, die alle ihre Berechtigung und jede für sich Vor- oder Nachteile haben: ob Inmon oder Kimball, ob Star- oder Snowflake-Schema oder gar Data Vault.

Allen Methoden ist gemein, dass Daten aus unterschiedlichen Vorsystemen zum Zwecke der Analyse über mehrere Schichten hinweg in ein finales gemeinsames Schema gepresst werden. Der Anspruch: aus diesem Schema langfristig immer korrekte und nachvollziehbare Daten erhalten. Anbei eine schematische Darstellung inklusive aller in der Data Warehouse-Architektur üblichen Schichten / Stages. In echten Kundenprojekten werden sich Architekturen finden, die auf die eine oder andere Schicht verzichten. Dieses Schema wird fachlich vorgegeben und erfüllt hervorragend den Zweck eines einheitlichen Datenpools, um Nachvollziehbarkeit sicherzustellen.

Es ist kaum vorstellbar, dass Unternehmen ohne diesen Datenpool auskommen, und doch finden sich in unseren Projekten viele Kunden, die bisher darauf verzichteten. Stattdessen werden bei Bedarf Extrakte aus den operativen Systemen gezogen und irgendwie mit den erwartbaren Problemen in Excel gemergt: inkonsistent, aufwendig, nicht nachvollziehbar oder schlicht: unbrauchbar und falsch.

Data Lake

Data Lake, Big Data und die 3 (5, 7, 9, ..) „V“s – die Entwicklung des Data Lake

Das Thema Data Lake wurde in den 2010er aktuell und wurde damals vor allem in Kombination mit den 3 (bei einigen Herstellern auch gerne mehr) „V“ von Big Data zusammengebracht.

Die „V"s von Big Data

V – Velocity (Geschwindigkeit)
V – Volume (Umfang / Datenmenge)
V – Variety (Vielfalt)
Weitere V für Variability, Veracity, Value, and Visibility (einige Hersteller waren sehr kreativ)

Außerdem wurde, gemäß der Sicht auf damals vorhandene Technologien, davon ausgegangen, dass ein Data Lake nicht mit klassischer Data Warehouse-Technologie umgesetzt werden könne. Anstatt relationaler Datenbanken kam also meist Hadoop oder wenn, differenzierter, sogenannte NoSQL (Not Only SQL)-Technologie zum Einsatz.

Heute ist das Verständnis noch differenzierter und man geht auch hier von den fachlichen Anforderungen aus: Unter einem Data Lake wird die Möglichkeit verstanden, Daten, deren Nutzen und Nutzung (noch) nicht bestimmt ist, im Rohformat vorzuhalten. Typischerweise erfolgt die Analyse aufgrund der Rohform der Daten dann durch Spezialisten, den Data Scientists.

Die Mächtigkeit eines Data Lake zeigt sich gerade durch die Kombination aus großen Datenmengen und modernen, AI-gestützten Analysemethoden, mit denen aus vielen Datenpunkten (teil-) automatisiert relevante Information extrahiert und Zusammenhänge erkannt werden.

„Data Warehouse vs. Data Lake” vs. „Data Warehouse UND Data Lake”

Die verschiedenen Aspekte von Data Governance.

Wenn davon ausgegangen wird, dass der Nutzen eines Data Lake vor allem darin besteht, Rohdaten zur späteren Analyse vorzuhalten, sollte die Schichten-Architektur eines Data Warehouse genauer betrachtet werden. Schon seit Jahren wurden Daten in einer der Schichten, je nach Ansatz im „ODS –Operational Data Store“ oder „Stage“, für analytische Sonderfälle vorgehalten. Also genau das, was mit einem Data Lake auch erreicht werden will! Der Unterschied liegt darin, dass in der Schicht zwar Rohdaten, aber nur die, die im Data Warehouse von Nöten sind, gehalten werden und dass sich auf Daten beschränkt wird, die in die Struktur eines Relational Database Management Systems (RDBMS) passen.

Warum also nicht beide Ansätze kombinieren, wenn der Bedarf besteht: Ausbau um zusätzliche Daten (Menge & Format!) einerseits und analytische Fähigkeiten andererseits.

Data Governance im Data Lake

An dieser Stelle sei darauf hingewiesen, dass es nach meiner Einschätzung mindestens einer weiteren Aktivität bedarf, damit der Data Lake langfristig erfolgreich wird: Data Governance.

Während im Data Warehouse, bedingt durch die Architektur, oftmals der Datenbewirtschaftungsprozess und das Datenmodell klar definiert sind – wir erinnern uns: alles beginnt mit dem Datenmodell – werden im Data Lake möglicherweise sämtliche Daten des Unternehmens bevorratet. Es ist unabdingbar, diese Daten zu katalogisieren, einen Dateneigentümer („Data Steward“) zu benennen und ebenfalls ein Qualitäts- und Schutzkonzept für diese Daten zu implementieren.

Damit soll ausdrücklich nicht gesagt werden, dass darauf in einem Data Warehouse verzichten werden sollte! Die Erfahrung hat allerdings gezeigt, dass in Data Warehouse-Projekten aus den o. g. Gründen oft darauf verzichtet wird, solange dies nicht regulatorisch vorgeschrieben ist.

Fazit: Kombination beider Ansätze als mögliche Lösung

Data Warehouse und Data Lake ergänzen sich perfekt. Die Schichtenmodelle sind so unterschiedlich nicht!

Je nach absehbaren Anforderungen sollte bei der Auswahl der Technologie hinsichtlich Menge und Vielfalt eine gewisse Skalierbarkeit berücksichtigt werden, um einerseits für den Moment „nicht mit Kanonen auf Spatzen zu schießen“, andererseits nicht in Projekte zu investieren, die die notwendige Skalierung nicht zulassen. Der Ansatz eines „Data Lake Workshops“ hat sich dabei bewährt: umfangreiche Analyse der Ist-Situation, Integration aller Stakeholder und sorgfältige Planung einer Architektur und dann die Ableitung eines Vorgehens und einer Technologie.

Ergänzend sei an dieser Stelle erwähnt, dass im aktuell top-aktuellen Thema „Data Fabric“ viele Aspekte des Data Warehouse- / Data Lake-Konzeptes aufgenommen und ergänzt wurden. Insbesondere die Notwendigkeit eines Datenkataloges, der Möglichkeit der kombinierten Datenanalyse auf Daten unterschiedlicher Quellen on-the-fly und in Echtzeit, werden konsequent weitergedacht. Mehr zu diesem Thema in einem separaten Blogbeitrag.

Über den Autor: Marc Bastien

Marc Bastien ist als Analytics Architect bei der TIMETOACT sowohl mit architekturellen Fragestellungen als auch mit deren Umsetzung beschäftigt. In mehr als 25 Jahren beruflicher Tätigkeit ist er stets dem Thema Analytics treu geblieben, zuerst beim Anwender, dann bei Anbietern und schließlich als Berater. Fachliche analytische Kundensituationen und die resultierenden Lösungen reizen ihn besonders. Sein Motto: „Steht doch alles in den Daten, muss man doch nur nutzen!“.

Marc Bastien

Chief Architect Data Analytics & AI ATVANTAGE GmbH

Kontakt

Unsere Kompetenzen im Bereich Business Intelligence:

Referenz 29.03.21

vdek führt neue Data-Warehouse-Lösung ein

Die TIMETOACT GROUP unterstützt den Verband der Ersatzkassen e. V. bei der Umstellung einer Systemumgebung auf neueste IBM-Technologie.

Technologie

IBM Cloud Pak for Data

Das Cloud Pak for Data fungiert als zentrale, modulare Plattform für analytischen Anwendungsfälle. Es integriert Funktionen für die physikalische und virtuelle Integration von Daten in einen zentralen Datenpool – einen Data Lake oder ein Data Warehouse, einen umfassenden Datenkatalog und zahlreicher Möglichkeiten der (AI-) Analyse bis zur operativen Nutzung derselben.

Blog 20.05.22

In 6 Schritten zur passenden Data Analytics-Lösung

Um Innovation im Unternehmen voranzutreiben, braucht es eine state-of-the-art Data Analytics-Lösung. Oftmals ist hier eine Modernisierung von Nöten. Erfahren Sie in sechs Schritten, wie Sie die für Sie passende Lösung finden!

Technologie

IBM Netezza Performance Server

Die IBM bietet Datenbanktechnologie für spezifische Zwecke auch in Form von Appliance Lösungen an. Im Data Warehouse Umfeld bekannt ist vor allem die Netezza Technologie, später unter dem Namen „IBM PureData for Analytics“ vermarktet.

Technologie

IBM Cloud Pak for Data Accelerator

Zum schnellen Einstieg in bestimmte Use Cases, konkret für bestimmte Geschäftsbereiche oder Branchen, bietet IBM auf Basis der Lösung „Cloud Pak for Data“

Kompass als Symbolbild für einen Single-Point-of-Truth

Blog 17.03.22

Vorteile und Umsetzung eines Single-Point-of-Truths

Wer keine Struktur in seinen Informationswust bringt, dem bleiben Mehrwerte durch Big Data verschlossen. Für informierte, daten-gestützte Entscheidungen bedarf es eines Single-Point-of-Truths.

Technologie Übersicht

Beratung und Lösungen rund um AWS Services

Als führender AWS Select Partner stehen wir Ihnen mit der umfangreichen Suite von AWS Services mit Rat und Tat zur Seite. Von der Strategieentwicklung über die Migration bis hin zur Optimierung.

Service

Operationalisierung von Data Science (MLOps)

Daten und Künstliche Intelligenz (KI) bzw. Artificial Intelligence (AI) können fast jeden Geschäftsprozesses basierend auf Fakten unterstützen.

Headerbild zu Cloud Pak for Data – Test-Drive

Technologie

IBM Cloud Pak for Data – Test-Drive

Wir wollen durch die Bereitstellung unserer umfassenden Demo- und Kundendatenplattform diesen Kunden eine Möglichkeit bieten pragmatisch einen Eindruck der Technologie mit ihren Daten zu bekommen.

Teaserbild zum Blogbeitrag: "Welches Low-Code-Tool ist das richtige?"

Blog 12.05.23

Welches Low-Code-Tool ist das richtige für mein Unternehmen?

Wichtige Auswahlkriterien ✅ Vergleich zwischen Anbietern wie Microsoft, Mendix, HCL und SAP ✅ Wir erleichtern Ihnen im Blog die Entscheidung!

Referenz 29.10.21

Standardisiertes Datenmanagement schafft Basis für Reporting

TIMETOACT implementiert für TRUMPF Photonic Components ein übergeordnetes Datenmodell in einem Data Warehouse und sorgt mit Talend für die notwendige Datenintegrationsanbindung. Mit diesem standardisierten Datenmanagement erhält TRUMPF künftig Reportings auf Basis verlässlicher Daten und kann das Modell auch auf andere Fachabteilungen übertragen.

Referenz 25.10.22

Interaktives Onlineportal identifiziert passende Mitarbeiter

TIMETOACT digitalisiert für KI.TEST mehrere Testverfahren zur Bestimmung der beruflichen Intelligenz und Persönlichkeit.

Blog 14.07.23

Amazon EC2: Instanz und Preismodell richtig wählen

Die Amazon Elastic Compute Cloud (EC2) bietet Usern Hunderte von Instanz-Typen zu unterschiedlichen Preismodellen. Wir helfen Ihnen, die richtige Entscheidung zu treffen!

Technologie

IBM SPSS Modeler

IBM SPSS Modeler ist ein Werkzeug, mit dessen Hilfe Aufgabenstellungen beispielsweise aus dem Bereich Data Science und Data Mining über eine grafische Benutzeroberfläche modelliert und ausgeführt werden können.

Technologie

IBM DataStage

Der IBM DataStage ist eine zentrale Plattform für unternehmensweite Informationsintegration. Mit IBM Information Server können Geschäftsinformationen aus unterschiedlichsten Quellen extrahiert, konsolidiert und zusammengeführt werden.

Technologie

IBM Cloud Pak for Application

Mit dem IBM Cloud Pak for Application existiert ein solides Fundament, um „Cloud-Native“ Applikationen zu entwickeln, zu deployen und zu modernisieren. Da agiles Arbeiten für einen schnelleren Release-Zyklus unerlässlich ist, kommen unter anderem vorgefertigte DevOps Prozesse zum Einsatz.

Headerbild zu IBM Cloud Pak for Automation

Technologie

Cloud Pak for Business Automation

Bei der Automatisierung manueller Schritte auf einer einheitlichen Plattform mit standardisierten Schnittstellen hilft Ihnen das „IBM Cloud Pak for Business Automation“.

Technologie

IBM Db2

Die Datenbank IBM Db2 ist neben dem klassischen Einsatz im operativen Bereich seit vielen Jahren auch als führende Data Warehouse Datenbank im Markt etabliert.

Technologie Übersicht

IBM Watsonx BI Assistant

watsonx BI Assistant – Ihr AI-gestützter Business-Analyst. Relevante Erkenntnisse. Sofort nutzbare Empfehlungen. Für fundierte Entscheidungen.

Technologie Übersicht

IBM watsonx.ai

Das Enterprise-Studio für AI-Entwicklung: watsonx.ai. AI-Modelle effizient entwickeln, trainieren und operationalisieren

Data Lake vs. Data Warehouse

Inhalt

Gemeinsamkeit: Nutzung von Informationen

Das Verständnis um den Mehrwert von Informationen macht den Unterschied

Data Lake & Data Warehousing zur Speicherung von Big Data

Data Warehouse & Data Lake im Vergleich

Das Data Warehouse – klassisch, aber nicht veraltet!

Data Lake, Big Data und die 3 (5, 7, 9, ..) „V“s – die Entwicklung des Data Lake

Die „V"s von Big Data

„Data Warehouse vs. Data Lake” vs. „Data Warehouse UND Data Lake”

Data Governance im Data Lake

Fazit: Kombination beider Ansätze als mögliche Lösung

Über den Autor: Marc Bastien

Unsere Kompetenzen im Bereich Business Intelligence:

Erfahren Sie mehr

vdek führt neue Data-Warehouse-Lösung ein

IBM Cloud Pak for Data

In 6 Schritten zur passenden Data Analytics-Lösung

IBM Netezza Performance Server

IBM Cloud Pak for Data Accelerator

Vorteile und Umsetzung eines Single-Point-of-Truths

Beratung und Lösungen rund um AWS Services

Operationalisierung von Data Science (MLOps)

IBM Cloud Pak for Data – Test-Drive

Welches Low-Code-Tool ist das richtige für mein Unternehmen?

Standardisiertes Datenmanagement schafft Basis für Reporting

Interaktives Onlineportal identifiziert passende Mitarbeiter

Amazon EC2: Instanz und Preismodell richtig wählen

IBM SPSS Modeler

IBM DataStage

IBM Cloud Pak for Application

Cloud Pak for Business Automation

IBM Db2

IBM Watsonx BI Assistant

IBM watsonx.ai

Data Lake & Data Warehousing
zur Speicherung von Big Data