Oft gestellte Fragen
Wie helfen Data Pipelines dem Unternehmen?
In Unternehmen fallen meist große Datenmengen an. Je größer das Datenvolumen,
desto langsamer und ineffizienter ist deren Verarbeitung. Data Pipelines sorgen
dafür, die Verarbeitung von Daten klar zu strukturieren und effektiv umzusetzen.
Acosom unterstützt dabei, mit dem Einsatz von Data Pipelines das Potenzial von
Daten besser auszuschöpfen.
Welche Arten von Data Pipelines gibt es?
Bei Data Pipelines wird zwischen ETL und ELT unterschieden. Bei der klassischen
Methode ETL (Extract, Transform, Load) werden die Daten extrahiert,
transformiert und anschließend geladen bzw. übertragen. Bei der Transformation
gehen jedoch Daten verloren. Deshalb lädt man bei ELT zunächst die Daten,
speichert sie und transformiert sie erst dann.
Data Pipelines Prozesse: ETL vs. ELT
Data Pipelines unterscheiden sich in ihren Prozessschritten und
Verarbeitungsarten. Extract, Transform, Load (ETL) ist die klassische Methode:
Daten werden zunächst extrahiert, anschließend vorbereitet und dann in ein
anderes System geladen. „Transform“ beinhaltet die Konsolidierung von Daten und
das Bereinigen der Daten von solchen mit niedriger Qualität. „Load“ bezeichnet
die Bereitstellung der Daten mittels Container oder API. Diese Zwischenschritte
können jedoch unterschiedlich aufeinander aufgebaut werden. Beim ELT-Prozess (
Extract, Load, Transfer) werden die Daten zunächst geladen und erst anschließend
aufbereitet – also genau andersherum, als es bei ETL der Fall ist. Durch die
umgekehrte Reihenfolge bei ELT gehen auf diese Weise keine Daten verloren. Das
ist beispielsweise sinnvoll, um Machine-Learning-Modelle möglichst exakt zu
trainieren. Im Bereich Big Data und Data Lakes ist der ELT-Ansatz ebenfalls
geeignet.
Welche Rolle spielt Data Engineering bei Data Pipelines?
Data Pipelines sind neben Data Warehouse und Data Engineer Hauptbestandteil des
Data Engineerings. Data Engineering fasst eine Reihe von Maßnahmen zusammen, die
Schnittstellen und Mechanismen für einen kontinuierlichen und zuverlässigen
Informationsfluss und -zugriff schaffen. Data Engineers sind dafür zuständig,
die Dateninfrastruktur in Unternehmen einzurichten und zu betreiben. In Data
Warehouses sammeln, speichern und formatieren Unternehmen extrahierte Daten aus
bestimmten Systemen. Das Verschieben dieser Daten – zum Beispiel von Anwendungen
in ein Data Warehouse oder eine Datenbank – geschieht über Data Pipelines.