Jupyter Notebooks und ETL Prozesse

In diesem Blogbeitrag möchten wir uns mit den möglichen Tools beschäftigen, die für Data Science zum Einsatz kommen. Wir bei OpenAdvice (mittlerweile Teil der TIMETOACT) bevorzugen den Einsatz von Jupyter Notebooks in Kombination mit einer Python Version. Welche Vorteile solche Notebooks haben und wie sie mit ihnen arbeiten können, werden wir in diesem Beitrag aufzeigen.

Über Jupyter Notebooks

Jupyter (eine Mischung aus den drei Programmiersprachen Julia, Python & R) ist ein Open Source Projekt, um das Arbeiten mit diversen Programmiersprachen in einer Umgebung möglichst simpel und anschaulich zu gestalten. Ein riesiger Vorteil ist die Darstellung. Wo andere GUIs (graphische Benutzeroberflächen) viele Möglichkeiten, insbesondere Debugger, liefern und oft erschlagend umfangreich sind, glänzt Jupyter mit Übersichtlichkeit ohne Abstriche in der Funktionalität. Den Grundstock bilden sogenannte Zellen. Hier gibt es die Möglichkeit zwischen Code-Zellen (zum Programmieren) und Markdown-Zellen zu wählen. Man kann dementsprechend seinen Code mit Texten, Bildern und z.B. auch .gif Datein kombinieren. Erzeugte Plots, Karten oder Grafiken werden ebenfalls direkt im Notebook dargestellt. Das leichte Exportieren in verschiedene Formate (.pdf, .html, .py, .tex,…) kreiert so ein vollständiges Dokument. So ist es möglich seine Erkenntnisse direkt auszuformulieren und mit dem Code und Grafiken zusammen zu einer Analyse im PDF Format zu exportieren. Alle Beitrage aus dieser Reihe sind und werden aus demonstrationszwecken ebenfalls ausschließlich mit Jupyter Notebooks erstellt. Gerade im Bereich Data Science, wo es u.a. darum geht mit Daten zu jonglieren, sie zu untersuchen, zu visualisieren und die daraus gezogenen Kenntnisse auszuformulieren, liefern Jupyter Notebooks die perfekte Basis alle Aufgabe mit einem (kostenlosen) Tool zu bewältigen. Die einzelnen Stationen eines typischen Projekts wollen wir kurz anschneiden und erklären.

ETL - Extract Transform Load

Nachdem man sich mit der Materie des Projekt vertraut gemacht hat, ist es essenziell die zugehörigen Daten zu sammeln, diese aufzubereiten und anschließend zur Weiterverarbeitung zu sichern. Dieses Vorgehen nennt man auch ETL-Prozess.

Ein typischer ETL Prozess könnte so aussehen:

Einlesen von Daten

Wir wollen einige Möglichkeiten präsentieren, wie man verschiedene Datenquellen mit Python einlesen kann. Zur Datensicherung und -aufbereitung bietet sich das Package Pandas an. Damit werden eingelesene Daten in DataFrames (Tabellen) gespeichert. Ein mal eingelesen kann man diese beliebig weiterverarbeiten. Das macht das Aufbereiten sehr viel handlicher. Neben der Möglichkeit lokal mit Jupyter Notebooks zu arbeiten, gibt es auch in IBM Cognos Analytics die Möglichkeit mit Notebooks zu arbeiten. Die in IBM Cognos Analytics erstellen Datenmodule, Data Sources und auch hochgeladenen Datein können leicht eingelesen werden. Hierfür gibt es einen integrierten Data Connector (CADataConnector). Auch diese eingelesenen Daten werden in einem DataFrame gespeichert.

Datenverarbeitung

Nachdem wir nun Daten eingelesen haben, können wir mit ihnen arbeiten, sie aufbereiten und auch damit rechnen. Die Pandas library bietet hierfür eine Vielzahl von Möglichkeiten. Wie man Daten in ein Notebook einliest haben wir bereits gesehen. Einige der oben aufgeführten Transformationen wollen wir ihnen vorführen. Viele dieser Verarbeitungsschritte sind sogenannte One-liner, das heißt, sie können in nur einer Zeile Code umgesetzt werden. Wir wollen annehmen, dass wir unsere Daten in einem DataFrame namens “df_Beispiel” eingelesen haben.

Datensicherung

Je nach Anforderung können die Daten direkt in eine Datenbank geschrieben werden, oder lokal in Form einer Datei gesichert werden.

Natürlich ist ein ETL Prozess weitaus komplexer und umfangreicher und je nach Projektziel müssen auch weitere Transformationen passieren. Mit diesem Beitrag sollten sie einen kurzen Einblick erhalten wie ein ETL Prozess aussehen könnte. Im nächsten Beitrag dieser Serie freuen wir uns, ihnen verschiedene Arten von Visualisierungen zu zeigen, um die bearbeiteten Daten zielgerecht präsentieren zu können.

Technologie

IBM Decision Optimization

Mathematische Algorithmen ermöglichen ein schnelles und effizientes Verbessern von teilweise gegenläufigen Vorgaben. Als integraler Bestandteil der IBM Data Science Plattform „Cloud Pak for Data“ bzw. „IBM Watson Studio” wurde die Entscheidungsoptimierung entscheidend erweitert und in den Data Science Prozess eingebettet.

Technologie

IBM SPSS Modeler

IBM SPSS Modeler ist ein Werkzeug, mit dessen Hilfe Aufgabenstellungen beispielsweise aus dem Bereich Data Science und Data Mining über eine grafische Benutzeroberfläche modelliert und ausgeführt werden können.

Blog 04.01.22

Microsoft Viva – was bietet die neue Plattform?

Das neue Microsoft 365 Tool für eine verbesserte Employee Experience. Lesen Sie im Blogbeitrag von Ralph Siepmann, was genau sich hinter Microsoft Viva verbirgt.

Technologie

IBM Watson Studio

IBM Watson Studio ist eine integrierte Lösung für die Implementierung einer Data Science Landschaft. Sie hilft Unternehmen, den Prozess von der explorativen Analyse bis zur Implementierung und Operationalisierung der Analyseprozesse zu strukturieren und zu vereinfachen.

Referenz

Digitalisierte Prozesse steigern Effizienz

TIMETOACT & X-INTEGRATE begleiten Energieversorger e-regio auf dem Weg zur Digitalisierung. DIe Beratungsleistungen in dem Projekt umfassten unter anderem die Bereiche Content Management, Archivierung, Collaboration und Automatisierung .

Service

IT Service Management Beratung: Prozesse mit IT unterstützen

IT sollte kunden- und serviceorientiert sein. Wir helfen bei der Umsetzung eines effektiven und effizienten IT Service Managements.

Kompetenz 11.02.25

IT Asset Management: Mit Program Design Prozesse optimieren

Unser IT Asset Management Program Design schafft Struktur und Transparenz. Wir bewerten den Reifegrad, entwickeln eine Roadmap, setzen Governance auf und unterstützen bei ISO 19770.

Blog 29.06.23

AWS Cloud: So optimieren Sie Ihre Kosten mit IBM Turbonomic!

Wir geben Ihnen einen Überblick über die verschiedenen Methoden des AWS-Cloud-Kostenmanagements.

Blog 31.07.23

Azure Cloud: Kosten mit IBM Turbonomic optimieren!

Im Blog erfahren Sie, wie Sie Ihre Microsoft Azure Kosten senken und dabei die bestmögliche Performance sichern. Und: wie IBM Turbonomic dabei unterstützen kann.

Blog

Top 10 CSS Tipps & Tricks in 2020

Um die Programmiersprache CSS kommt wohl kein Webentwickler herum. Wir haben für euch zehn Tipps & Tricks zusammengefasst, die ihr in 2020 kennen solltet.

Blog

9 Tipps & Tricks für Angular

Angular ist unter Webentwicklern ein beliebtes Framework für das Programmieren von Web-, Desktop- und mobilen Anwendungen. In unserer Anleitung haben wir neun Tipps & Tricks zusammengestellt, welche Angular-Einsteigern und Profis die Webentwicklung garantiert erleichtert.

Blog 07.07.23

Amazon EC2: Performance richtig messen und optimieren!

Im Blog zeigen wir Ansätze zum Messen und Verwalten der Leistung von EC2-Instanzen. Zudem erfahren Sie, wie Sie mit IBM Turbonomic die Performance der darauf betriebenen Anwendungen optimieren.

Blog 10.09.21

Neue Features für die HCL Webmail-Lösung Verse 2.2

HCL bietet mit dem Produkt Verse eine intelligente, sichere und leicht zu navigierende Unternehmens-E-Mail-Lösung auf Basis des HCL Domino Servers. HCL Verse gibt es als browserbasierte Lösung oder auch direkt als eigene Anwendung für mobile Geräte. Für die browserbasierte Lösung (aka. „verse on premise“) hat HCL nun die Version 2.2 mit vielen Neuerungen ausgeliefert.

Boxhandschuhe als Symbol für Entscheidung zwischen Data Lake und Data Warehouse

Blog 15.02.22

Data Lake vs Data Warehouse: Welche Lösung ist die Richtige?

Geht es um die Speicherung großer Datenmengen, kommt man um die Begriffe Data Lake und Data Warehouse kaum herum. Vielen Unternehmen stellt sich früher oder später die Frage, welche der beiden Lösungen für welchen Anwendungsfall geeignet ist.

Blog 16.08.23

Microsoft Azure-Ressourcen automatisch skalieren

Im Blog stellen wir Ihnen Autoscale in Azure vor und zeigen, warum es sich lohnt, diese mit der automatischen Skalierung mit IBM Turbonomics zu kombinieren.

Blog

Das erwartet Sie beim Software Compliance Audit

Worauf müssen Sie sich einstellen, wenn bei Ihnen ein Audit ansteht? Das beantworten wir im Blog.

Teaserbild Unternehmensprozesse mit Low-Code digitalisieren

Blog 04.04.23

Unternehmensprozesse digitalisieren – am besten mit Low-Code

Auch heute geht das Digitalisieren von Unternehmensprozessen eher schleppend voran. Low-Code Plattformen von Anbietern wie Mendix können hier Abhilfe leisten.

Fragezeichen als Symbolbild für Unklarheiten im Bereich Softwarelizenzen

Blog 22.04.22

Kleine Einführung ins Thema Softwarelizenzen

In unserem Blogbeitrag bringen wir Licht ins Dunkel und geben einen Überblick zu den wichtigsten Begrifflichkeiten und Konzepten, die Sie im Softwarelizenz-Umfeld kennen sollten.

Blog 16.12.24

Wie IBM FileNet und WatsonX.AI den Arbeitsalltag verändern

Digitaler Assistent für Unternehmen: Wie IBM FileNet und WatsonX.AI den Arbeitsalltag verändern

Blog 15.07.21

Microsoft Teams Webinare - das neue Meeting-Format

Neben Online-Meetings und Live-Events jetzt auch Microsoft Teams Webinar. Was ist der Unterschied? Braucht der Anwender das neue Format? Lesen Sie den Blogbeitrag von Ralph Siepmann und Jan Gröne.

Jupyter Notebooks und ETL Prozesse

Über Jupyter Notebooks

ETL - Extract Transform Load

Einlesen von Daten

Datenverarbeitung

Datensicherung

Erfahren Sie mehr

IBM Decision Optimization

IBM SPSS Modeler

Microsoft Viva – was bietet die neue Plattform?

IBM Watson Studio

Digitalisierte Prozesse steigern Effizienz

IT Service Management Beratung: Prozesse mit IT unterstützen

IT Asset Management: Mit Program Design Prozesse optimieren

AWS Cloud: So optimieren Sie Ihre Kosten mit IBM Turbonomic!

Azure Cloud: Kosten mit IBM Turbonomic optimieren!

Top 10 CSS Tipps & Tricks in 2020

9 Tipps & Tricks für Angular

Amazon EC2: Performance richtig messen und optimieren!

Neue Features für die HCL Webmail-Lösung Verse 2.2

Data Lake vs Data Warehouse: Welche Lösung ist die Richtige?

Microsoft Azure-Ressourcen automatisch skalieren

Das erwartet Sie beim Software Compliance Audit

Unternehmensprozesse digitalisieren – am besten mit Low-Code

Kleine Einführung ins Thema Softwarelizenzen

Wie IBM FileNet und WatsonX.AI den Arbeitsalltag verändern

Microsoft Teams Webinare - das neue Meeting-Format