ETL-Prozess

Zentralisierung verteilter Daten in eine kohärente und einheitliche Struktur

Anfrage senden

Mit der zunehmenden Digitalisierung wächst die Zahl der IT-Systeme und der darin gespeicherten Daten. Manchmal speichern verschiedene Systeme ähnliche oder sogar dieselben Informationen. Wenn es darum geht, Daten aus verschiedenen Quellen zu einem Ganzen zu kombinieren, können aufgrund der unterschiedlichen Struktur oder Form der Speicherung verschiedene Probleme auftreten  

Der ETL-Prozess soll dazu beitragen, die Daten zu zentralisieren, indem sie konsistenter gemacht werden, z. B. durch das Entfernen von Duplikaten, die Einführung eines einheitlichen Datensatzes für zurückgerufene Produkte oder die Aufteilung einer Adresse aus einem Feld in mehrere Merkmale.

Unverbindliche Beratung

Olgierd Mrozik

[email protected]

+48 58 732 27 37

Was ist der ETL-Prozess?

ETL-Prozess (Extrahieren, Transformieren, Laden) - der Prozess der Umwandlung unstrukturierter oder verstreuter Daten in eine einheitliche Struktur, die konsistente und homogene Daten erzeugt. Dies ermöglicht es, die Qualität und Vollständigkeit der Daten schnell zu überprüfen, sie zu analysieren oder einen Klassifizierungsstandard einzuführen. Dieser Prozess ist angezeigt, wenn Daten aus verschiedenen Quellen in einer einzigen Struktur kombiniert werden, z. B. für ein PIM/MDM- oder Business Intelligence-System.

Der Prozess besteht aus drei Teilen: Extraktion aus verschiedenen Quellen und Strukturen, Umwandlung in ein einziges Datenmodell und Laden in die Zielsite.

Schritte im ETL-Prozess

Ikona tabelki

Extraktion - Abruf von Daten aus allen identifizierten Quellen. Dabei kann es sich um Daten aus verschiedenen Systemen handeln, die in unterschiedlicher Form übermittelt werden, z. B. als Flat Files, über APIs oder direkt aus einer Datenbank. Manchmal handelt es sich um Informationen, die außerhalb der Systeme gespeichert sind, z. B. in Excel  

Vor dem Herunterladen ist es sinnvoll, eine Datenquellenanalyse durchzuführen, bei der wir die erforderlichen Informationen von den Unternehmenseigentümern einholen und die Eignung beurteilen. 

Transformation - besteht aus der Verarbeitung der extrahierten Daten, d.h. Konsolidierung, Bereinigung und Korrektur von Fehlern, Berechnungen, Änderungen der Datentypen, Ausfüllen von leeren Werten, Umgruppierung oder Zusammenführung von Merkmalen, unter anderem. Das Ergebnis der Umwandlung ist eine Information, die für die weitere Verwendung aufbereitet wird.

In dem beispielhaften Transformationsprozess ist es möglich, aus einer flachen Produktstruktur, die aus Kategorien, Produkten und deren Varianten besteht, eine Baumstruktur zu erzeugen  

Datenladen  - der letzte Schritt im ETL-Prozess, bei dem die bereinigten und standardisierten Daten in den Zielspeicher übertragen werden. Vom ETL-Tool zur Datenbank oder von der Zwischenumgebung zur Zielumgebung.

ETL vs. ELT

ELT Prozess (Extract, Load, Transform) - ein modifizierter ETL-Prozess, bei dem die Schritte des Ladens und Transformierens der Daten in der Reihenfolge vertauscht werden. Die Daten werden sofort in das Zielsystem geladen, wo sie umgewandelt und neu strukturiert werden. Dadurch entfällt die Speicherung und Verarbeitung von Daten an verschiedenen Orten.

Durchführung des ETL/ELT Prozesses

Ein Schlüsselelement der Implementierung ist das Werkzeug für den ETL/ELT Prozess. Die Wahl des Tools und der Art des ETL/ELTProzesses hängt vom Ziel ab. Der Grund dafür sind die Kosten, das Fachwissen und das technologische Umfeld.

Wenn das Zielsystem Tableau sein soll, dann wäre Tableau Prep die beste Wahl. Bei der Microsoft-Technologie wird es sich um SSIS (SQL Server Integration Services) handeln.

Wenn das Ziel für eine einheitliche Datenstruktur ein PIM oder MDM-System ist, ist es am besten, es als Werkzeug für den ETL/ELT Prozess zu verwenden. Zum Beispiel kann die Pimcore-Plattform auf diese Weise genutzt werden. Der Vorteil ist die enorme Flexibilität bei der Umsetzung, da alle Optionen, die die Programmiersprache bietet, möglich sind. Die Kehrseite der Medaille ist das Fehlen einer grafischen Oberfläche, auf der die Datenumwandlungen in der Regel ausgewählt werden.

 

Was ist Pimcore?

Pimcore ist eine Open-Source Plattform, die sich stark von anderen PIM-Systemen und E-Commerce Plattformen unterscheidet. Dies verdankt es seinen Ursprüngen als PIM/MDM-System für das Produktdatenmanagement. Daher verfügt es über eine sehr flexible Architektur, die es ermöglicht, es beliebig zu strukturieren oder einen bestehenden Standard wie das ETIM Klassifikationssystem zu nutzen  

Ein weiteres Beispiel ist die Verwendung als ETL/ELT-Tool, bei dem die Daten verschiedenen Transformationen unterzogen werden, bevor sie ihre endgültige Struktur erreichen.

Mit einer solchen umfassenden Plattform können alle Anforderungen erfüllt werden, ohne dass alles von Grund auf neu geschrieben werden muss. Es überrascht nicht, dass sich die hohe Kundenzufriedenheit in Auszeichnungen des Gartner Research Institute für E-Commerce und andere Kategorien widerspiegelt. Erfahren Sie mehr über die Pimcore-Plattform.

Jedna platforma dla PIM/MDM, CMS/DXP i ecommerce

Kostenlose Beratung für Ihr Unternehmen.

Martin Broda

[email protected] 

+48 723 395 567

Siehe auch

Produkt-Konfigurator von Schiebetürsystemen für die Firma Laguna

mehr
mehr zum Projekt