Proces ETL - centralizacja rozproszonych danych do spójnej i jednolitej struktury

 

Skontaktuj się z nami

Wraz z postępującą cyfryzacją rośnie liczba systemów informatycznych i danych jakie przechowują. Zdarza się, że różne systemy przechowują podobne lub nawet takie same informacje. Kiedy pojawia się potrzeba połączenia danych z różnych źródeł w całość, mogą pojawić się różne problemy związane z różną strukturą lub formą zapisu. 

Proces ETL ma za zadanie wspomóc centralizację danych uspójniająć je np. usuwając duplikaty, wprowadzając jednolity zapis wycofanych produktów, rozdzielając adres z jednego pola na kilka cech.

Bezpłatna konsultacja

Olgierd Mrozik

[email protected]

+48 58 732 27 37

 

 

 

 

Czym jest proces ETL?

Proces ETL (z ang. Extract, Transform, Load) - proces przekształcania nieustrukturyzowanych lub rozproszonych danych, w jednolitą strukturę dającą spójne i jednorodne dane. Dzięki temu możliwa jest szybka weryfikacja jakości i kompletności danych, analiza tych danych lub wprowadzenie standardu klasyfikacji. Proces ten jest wskazany kiedy dane z różnich źródeł są łączone w jedną strukturę np. na potrzeby systemu PIM/MDM lub Business Intelligence.

Proces składa się z trzech części: ekstrakcji z różnych źródeł i struktur, transformacji w jeden model danych i załadowania go do miejsca docelowego.

Etapy w procesie ETL

Ikona tabelki

Ekstrakcja - pobranie danych ze wszystkich zidentyfikowanych źródeł. Mogą to być dane z różnych systemów wysyłane w różnej formie np: jako pliki płaskie, przez API, bezpośrednio z bazy danych. Czasem będą to informacje przechowywane poza systemami np. w Excelu. 

Przed pobraniem warto zrobić analizę źródeł danych, podczas której uzyskamy potrzebne informacje od właścicieli biznesowych i dokonamy oceny przydatności. 

Transformacja - polega na przetworzeniu wyekstraktowanych danych, czyli m.in. konsolidacja, oczyszczenie i poprawa błędów, kalkulacje, zmiany typów danych, uzupełnienie pustych wartości, rozgrupowanie lub łączenie cech. Wynikiem transformacji mają być informacje przygotowane do dalszego wykorzystania.

W przykładowym procesie transformacji z płaskiej struktury produktów jest możliwe utworzenie struktury drzewiastej, która składa się z kategorii, produktów i ich wariantów. 

Ładowanie danych - ostatni etap w procesie ETL, w którym oczyszczone i ujednolicone dane są przesyłane do docelowego miejsca przechowywania. Z narzędzia ETL do bazy lub ze środowiska pośredniego na docelowe.

 

ETL vs. ELT

Proces ELT (z ang. Extract, Load, Transform) - zmodyfikowany proces ETL, w którym etapy ładowania danych i transformacji są zamienione kolejnością. Dane są ładowane od razu do systemu docelowego, tam następują transformacje i zmiana struktury. Eliminuje to przechowywanie i przetwarzanie danych w wielu miejscach.

Wdrożenie procesu ETL / ELT

Kluczowym elementem wdrożenia jest narzędzie do procesu ETL / ELT. Wybór narzędzia i rodzaju procesu ETL / ELT zależy od miejsca docelowego. Dzieje się tak ze względu na koszty, posiadane kompetencje i otoczenie technologiczne.

Jeśli systemem docelowym byłby Tableau, to najlepszym wyborem będzie Tableau Prep. W przypadku technologii Microsoftu będzie to SSIS (SQL Server Integration Services).

Kiedy celem jednolitej struktury danych jest system PIM lub MDM najlepiej jego wykorzystać jako narzędzie do procesu ETL / ELT. Przykładowo platforma Pimcore może być wykorzystana w ten sposób. Korzyścią jest ogromna elastyczność w transofrmacji, bo są możliwe wszystkie opcje jakie daje język programowania. Drugą stroną medalu jest brak graficznego interfejsu, w którym zazwyczaj wybiera się transformacje danych.

 

Czym jest Pimcore?

Pimcore to platforma open-source, która mocno różni się od innych systemów PIM i platform e-commerce. Zawdzięcza to swoim początkom jako system PIM/MDM służący do zarządzania danymi produktów. Dzięki temu ma bardzo elastyczną architekturę, pozwalającą nadać dowolną strukturę lub skorzystać z już istniejącej w ramach standardu np. systemu klasyfikacji ETIM

Innym przykładem jest zastosowanie jako narzędzie ETL/ELT, w którym dane przechodzą różne transformacje, zanim trafią do docelowej struktury.

Tak kompleksowa platforma pozwala na zaspokojenie wszystkich potrzeb bez pisania wszystkiego od początku. Nie dziwi więc duże zadowolenie klientów, mające swoje odzwierciedlenie w wyróżnieniach Instytutu badawczego Gartnera dla e-commerce i innych kategoriachDowiedz się więcej o platformie Pimcore.

Jedna platforma dla PIM/MDM, CMS/DXP i ecommerce

Bezpłatna konsultacja dla Twojej firmy.

Martin Broda

[email protected] 

+48 723 395 567

Zobacz też

Program doboru produktów jako narzędzie generowania leadów B2B

więcej
więcej o projekcie

Konfigurator rozkroju systemów drzwi przesuwnych dla firmy Laguna

więcej
więcej o projekcie

Nowy Polbruk - serwis www dla lidera

więcej
więcej o projekcie

Nowoczesny kanał komunikacji w Internecie dla Asilo.pl

więcej
więcej o projekcie