Pierwsze kroki z jakością danych kleju AWS dla rurociągów ETL

Opublikowane ponownie przez Plato

Obserwuje: 0

Obecnie setki tysięcy klientów korzysta z jezior danych do analiz i uczenia maszynowego. Jednak inżynierowie danych muszą oczyścić i przygotować te dane, zanim będzie można ich użyć. Bazowe dane muszą być dokładne i aktualne, aby klient mógł podejmować pewne decyzje biznesowe. W przeciwnym razie konsumenci danych tracą zaufanie do danych i podejmują nieoptymalne lub błędne decyzje. Częstym zadaniem inżynierów danych jest ocena, czy dane są dokładne i aktualne, czy nie. Obecnie istnieją różne narzędzia do jakości danych. Jednak popularne narzędzia do zapewniania jakości danych zwykle wymagają ręcznych procesów monitorowania jakości danych.

AWS Glue Data Quality to funkcja podglądu Klej AWS która mierzy i monitoruje jakość danych Usługa Amazon Simple Storage (Amazon S3) oraz w zadaniach wyodrębniania, przekształcania i ładowania AWS Glue (ETL). Jest to funkcja otwartego podglądu, więc jest już włączona na Twoim koncie w dostępne regiony. Możesz łatwo zdefiniować i zmierzyć kontrole jakości danych w konsoli AWS Glue Studio bez pisania kodów. Upraszcza zarządzanie jakością danych.

Ten post jest częścią 2 z serii czterech postów wyjaśniających, jak działa AWS Glue Data Quality. Sprawdź poprzedni wpis z tej serii:

W tym poście pokazujemy, jak utworzyć zadanie AWS Glue, które mierzy i monitoruje jakość danych w potoku danych. Pokazujemy również, jak podjąć działania w oparciu o wyniki jakości danych.

Omówienie rozwiązania

Rozważmy przykładowy przypadek użycia, w którym inżynier danych musi zbudować potok danych w celu pozyskania danych ze strefy surowej do strefy nadzorowanej w jeziorze danych. Jednym z Twoich kluczowych obowiązków jako inżyniera danych — obok wyodrębniania, przekształcania i ładowania danych — jest sprawdzanie jakości danych. Zidentyfikowanie problemów z jakością danych z wyprzedzeniem pomaga zapobiegać umieszczaniu złych danych w nadzorowanej strefie i uniknąć uciążliwych incydentów związanych z uszkodzeniem danych.

W tym poście dowiesz się, jak łatwo skonfigurować wbudowany i zwyczaj sprawdzanie poprawności danych w zadaniu AWS Glue, aby zapobiec uszkodzeniu przez złe dane dalszych danych o wysokiej jakości.

Zbiór danych użyty w tym poście jest generowany syntetycznie; Poniższy zrzut ekranu pokazuje przykład danych.

Skonfiguruj zasoby za pomocą AWS CloudFormation

Ten post zawiera m.in Tworzenie chmury AWS szablon do szybkiej konfiguracji. Możesz go przejrzeć i dostosować do swoich potrzeb.

Szablon CloudFormation generuje następujące zasoby:

Zasobnik Amazon Simple Storage Service (Amazon S3) (gluedataqualitystudio-*).
Następujące prefiksy i obiekty w zasobniku S3:
- datalake/raw/customer/customer.csv
- datalake/curated/customer/
- scripts/
- sparkHistoryLogs/
- temporary/
AWS Zarządzanie tożsamością i dostępem (IAM) użytkowników, ról i zasad. rola IAM (GlueDataQualityStudio-*) ma uprawnienia do odczytu i zapisu z zasobnika S3.
AWS Lambda funkcje i zasady IAM wymagane przez te funkcje do tworzenia i usuwania tego stosu.

Aby utworzyć zasoby, wykonaj następujące czynności:

Zaloguj się do Konsola AWS CloudFormation us-east-1 Region.
Dodaj Uruchom stos:
Wybierz Przyjmuję do wiadomości, że AWS CloudFormation może tworzyć zasoby IAM.
Dodaj Utwórz stos i poczekaj na zakończenie etapu tworzenia stosu.

Zaimplementuj rozwiązanie

Aby rozpocząć konfigurowanie rozwiązania, wykonaj następujące kroki:

Na Konsola AWS Glue Studiowybierz Oferty pracy w okienku nawigacji.
Wybierz Wizualne z pustym płótnem i wybierz Stwórz.
Wybierz szczegóły pracy kartę, aby skonfigurować zadanie.
W razie zamówieenia projektu Imię, wchodzić GlueDataQualityStudio.
W razie zamówieenia projektu Rola uprawnień, wybierz rolę zaczynającą się od GlueDataQualityStudio-*.
W razie zamówieenia projektu Wersja klejuwybierz Klej 3.0.
W razie zamówieenia projektu Zakładka pracywybierz Wyłącz. Pozwala to na wielokrotne uruchamianie tego zadania z tym samym wejściowym zestawem danych.
W razie zamówieenia projektu Liczba ponownych prób, wchodzić 0.
W Zaawansowane właściwości sekcji, podaj wiadro S3 utworzone przez szablon CloudFormation (począwszy od gluedataqualitystudio-*).
Dodaj Zapisz.
Po zapisaniu pracy wybierz Wizualny zakładka i na Źródło menu, wybierz Amazon S3.
Na Właściwości źródła danych - S3 tab, dla Typ źródła S3, Wybierz Lokalizacja S3.
Dodaj Przeglądaj S3 i przejdź do prefiksu /datalake/raw/customer/ w zasobniku S3 zaczynającym się od gluedataqualitystudio-* .
Dodaj Wywnioskować schemat.
Na Działania menu, wybierz Oceń jakość danych.
Wybierz Oceń jakość danych węzeł.

Na Przekształcać możesz teraz rozpocząć budowanie reguł jakości danych. Pierwszą regułą, którą tworzysz, jest sprawdzenie, czy Customer_ID jest unikalny i nie ma wartości null przy użyciu metody isPrimaryKey reguła.
Na Typy reguł zakładka Konstruktor reguł DQDL, Szukaj isprimarykey i wybierz znak plus.
Na schemat zakładka Konstruktor reguł DQDL, wybierz znak plus obok Customer_ID.
Usuń w edytorze reguł id.

Następna reguła, którą dodamy, sprawdza, czy First_Name wartość kolumny jest obecna dla wszystkich wierszy.
Możesz również wprowadzić reguły jakości danych bezpośrednio w edytorze reguł. Dodaj przecinek (,) i wprowadź IsComplete "First_Name", po pierwszej regule.

Następnie dodajesz regułę niestandardową, aby sprawdzić, czy nie istnieje żaden wiersz bez niej Telephone or Email.
Wprowadź następującą regułę niestandardową w edytorze reguł:
```
CustomSql "select count(*) from primary where Telephone is null and Email is null" = 0
```
Funkcja Oceń jakość danych umożliwia zarządzanie wynikami zadania na podstawie wyników jakości zadania.
W przypadku tego posta wybierz Niepowodzenie zadania, gdy jakość danych zawiedzie i wybierz Niepowodzenie zadania bez ładowania celu dane działania. w Ustawienie wyjścia jakości danych Sekcja, wybierz Przeglądaj S3 i przejdź do prefiksu dqresults w zasobniku S3 zaczynającym się od gluedataqualitystudio-*.
Na cel menu, wybierz Amazon S3.
Wybierz Cel danych – wiadro S3 węzeł.
Na Właściwości celu danych - S3 tab, dla utworzonywybierz Parkiet, A na Rodzaj kompresjiwybierz Żwawy.
W razie zamówieenia projektu Lokalizacja docelowa S3wybierz Przeglądaj S3 i przejdź do prefiksu /datalake/curated/customer/ w zasobniku S3 zaczynającym się od gluedataqualitystudio-*.
Dodaj Zapisz, A następnie wybierz run.
Szczegóły uruchomienia zadania można wyświetlić na karcie Uruchomienia. W naszym przykładzie zadanie kończy się niepowodzeniem z komunikatem o błędzie „AssertionError: Zadanie nie powiodło się z powodu niepowodzenia reguł DQ dla węzła: ”.
Wynik jakości danych można przejrzeć na karcie Jakość danych. W naszym przykładzie niestandardowa weryfikacja jakości danych nie powiodła się, ponieważ jeden z wierszy w zbiorze danych nie zawierał Telephone or Email wartość.Wyniki oceny jakości danych są również zapisywane w zasobniku S3 w formacie JSON na podstawie parametru lokalizacji wyniku jakości danych węzła.
Nawigować do dqresults przedrostek pod początkiem wiadra S3 gluedataqualitystudio-*. Zobaczysz, że wynik jakości danych jest podzielony według daty.

Poniżej przedstawiono dane wyjściowe pliku JSON. Możesz użyć tego pliku wyjściowego do tworzenia niestandardowych pulpitów nawigacyjnych wizualizacji jakości danych.

Możesz także monitorować Oceń jakość danych węzeł przez Amazon Cloud Watch metryki i ustawiaj alarmy, aby wysyłać powiadomienia o wynikach jakości danych. Aby dowiedzieć się więcej o konfigurowaniu alarmów CloudWatch, zobacz Korzystanie z alarmów Amazon CloudWatch.

Sprzątać

Aby uniknąć naliczania przyszłych opłat oraz wyczyścić nieużywane role i zasady, usuń utworzone przez siebie zasoby:

usunąć GlueDataQualityStudio praca, którą utworzyłeś w ramach tego posta.
W konsoli AWS CloudFormation usuń plik GlueDataQualityStudio stos.

Wnioski

AWS Glue Data Quality oferuje łatwy sposób mierzenia i monitorowania jakości danych w potoku ETL. W tym poście nauczyłeś się, jak podejmować niezbędne działania na podstawie wyników jakości danych, co pomaga zachować wysokie standardy danych i podejmować pewne decyzje biznesowe.

Aby dowiedzieć się więcej o jakości danych AWS Glue, zapoznaj się z dokumentacją:

O autorach

Deenbandhu Prasad jest starszym specjalistą ds. analityki w AWS, specjalizującym się w usługach big data. Z pasją pomaga klientom budować nowoczesną architekturę danych w AWS Cloud. Pomagał klientom różnej wielkości wdrażać rozwiązania do zarządzania danymi, hurtowni danych i jezior danych.

Yannisa Mentekidisa jest starszym inżynierem rozwoju oprogramowania w zespole AWS Glue.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/

Znak czasu: 16 grudnia 2022 r.

Znak czasu: Września 13, 2023

Rozpoczęcie pracy z AWS Glue Data Quality for ETL Pipelines

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Skonfiguruj zasoby za pomocą AWS CloudFormation

Zaimplementuj rozwiązanie

Sprzątać

Wnioski

O autorach

Więcej z Duże zbiory danych AWS!

Zbuduj kompleksowy, bezserwerowy potok przesyłania strumieniowego za pomocą Apache Kafka na platformie Amazon MSK przy użyciu języka Python | Usługi internetowe Amazona

Użyj Apache Iceberg w jeziorze danych, aby obsługiwać przyrostowe przetwarzanie danych

Zespół AWS Specialist Insights używa Amazon QuickSight do dostarczania wglądu operacyjnego w całej AWS Worldwide Specialist Organization

Najlepsze praktyki wdrażania analiz w czasie zbliżonym do rzeczywistego przy użyciu Amazon Redshift Streaming Ingestion z Amazon MSK | Usługi internetowe Amazona

Amazon EMR Serverless obsługuje większe rozmiary procesów roboczych w celu obsługi obciążeń wymagających większej mocy obliczeniowej i pamięci

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto