Firmy każdego dnia zbierają coraz więcej danych, aby sterować procesami, takimi jak podejmowanie decyzji, raportowanie i uczenie maszynowe (ML). Przed czyszczeniem i przekształcaniem danych musisz określić, czy nadają się do użytku. Nieprawidłowe, brakujące lub zniekształcone dane mogą mieć duży wpływ na dalsze analizy i procesy ML. Wykonywanie kontroli jakości danych pomaga zidentyfikować problemy na wcześniejszym etapie przepływu pracy, dzięki czemu można je szybciej rozwiązać. Ponadto wykonywanie tych sprawdzeń przy użyciu architektury opartej na zdarzeniach pomaga ograniczyć liczbę ręcznych punktów styku i skalować wraz ze wzrostem ilości danych.
DataBrew kleju AWS to wizualne narzędzie do przygotowywania danych, które ułatwia znajdowanie statystyk jakości danych, takich jak zduplikowane wartości, brakujące wartości i wartości odstające w danych. Możesz także skonfigurować reguły jakości danych w DataBrew, aby przeprowadzać kontrole warunkowe w oparciu o Twoje unikalne potrzeby biznesowe. Na przykład producent może potrzebować upewnić się, że nie ma zduplikowanych wartości konkretnie w a Part ID
lub świadczeniodawca może sprawdzić te wartości w SSN
kolumny mają określoną długość. Po utworzeniu i zweryfikowaniu tych reguł za pomocą DataBrew możesz użyć Most zdarzeń Amazona, Funkcje kroków AWS, AWS Lambda, Usługa prostego powiadomienia Amazon (Amazon SNS), aby utworzyć zautomatyzowany przepływ pracy i wysłać powiadomienie, gdy reguła nie przejdzie kontroli poprawności.
W tym poście przeprowadzimy Cię przez cały przepływ pracy i sposób wdrożenia tego rozwiązania. Ten post zawiera samouczek krok po kroku, a AWS Serverless Model aplikacji (AWS SAM) i przykładowy kod, którego możesz użyć do wdrożenia aplikacji we własnym środowisku AWS.
Omówienie rozwiązania
Rozwiązanie w tym poście łączy bezserwerowy Usługi AWS służące do budowania całkowicie zautomatyzowanego, kompleksowego potoku zdarzeń sterowanego zdarzeniami w celu walidacji jakości danych. Poniższy diagram ilustruje naszą architekturę rozwiązania.
Przepływ pracy rozwiązania zawiera następujące kroki:
- Kiedy przesyłasz nowe dane do swojego Usługa Amazon Simple Storage (Amazon S3), zdarzenia są wysyłane do EventBridge.
- Reguła EventBridge wyzwala automat stanu Step Functions do uruchomienia.
- Automat stanowy uruchamia zadanie profilu DataBrew, skonfigurowane za pomocą zestawu reguł i reguł dotyczących jakości danych. Jeśli zastanawiasz się nad utworzeniem podobnego rozwiązania, lokalizacja wyjściowa zadania profilu DataBrew i zasobniki danych źródłowych S3 powinny być niepowtarzalne. Zapobiega to cyklicznym uruchamianiu zadań. Wdrażamy nasze zasoby z Tworzenie chmury AWS szablon, który tworzy unikalne wiaderka S3.
- Funkcja Lambda odczytuje wyniki jakości danych z Amazon S3 i zwraca odpowiedź logiczną do maszyny stanów. Funkcja zwraca
false
jeśli jedna lub więcej reguł w zestawie reguł zawiedzie i zwrócitrue
jeśli wszystkie zasady się powiedzą. - Jeśli odpowiedź logiczna to
false
, automat stanowy wysyła powiadomienie e-mail z Amazon SNS, a automat stanowy kończy się nafailed
status. Jeśli odpowiedź logiczna totrue
, maszyna stanu kończy się nasucceed
status. Możesz również rozszerzyć rozwiązanie w tym kroku, aby uruchamiać inne zadania w przypadku powodzenia lub niepowodzenia. Na przykład, jeśli wszystkie reguły się powiedzie, możesz wysłać wiadomość EventBridge, aby wyzwolić kolejne zadanie transformacji w DataBrew.
W tym poście użyjesz AWS CloudFormation do wdrożenia w pełni działającej wersji demonstracyjnej rozwiązania do sprawdzania jakości danych opartego na zdarzeniach. Testujesz rozwiązanie, przesyłając prawidłowy plik z wartościami rozdzielanymi przecinkami (CSV) do Amazon S3, a następnie nieprawidłowy plik CSV.
Kroki są następujące:
- Uruchom stos CloudFormation, aby wdrożyć zasoby rozwiązania.
- Przetestuj rozwiązanie:
- Prześlij prawidłowy plik CSV do Amazon S3 i obserwuj, jak walidacja jakości danych i automat stanu Step Functions powiodły się.
- Prześlij nieprawidłowy plik CSV do Amazon S3 i obserwuj walidację jakości danych oraz awarię automatu stanu funkcji Step Functions i otrzymaj powiadomienie e-mail z Amazon SNS.
Cały przykładowy kod można znaleźć w Repozytorium GitHub.
Wymagania wstępne
W tej instrukcji należy spełnić następujące wymagania wstępne:
Wdrażaj zasoby rozwiązania za pomocą AWS CloudFormation
Używasz stosu CloudFormation do wdrażania zasobów potrzebnych do rozwiązania do sprawdzania jakości danych opartego na zdarzeniach. Stos zawiera przykładowy zestaw danych i zestaw reguł w DataBrew.
- Zaloguj się na swoje konto AWS, a następnie wybierz Uruchom stos:
- Na Szybkie tworzenie stosu strona dla EmailAddress, wprowadź prawidłowy adres e-mail dla powiadomień e-mail Amazon SNS.
- Pozostałe opcje pozostaw ustawione na wartości domyślne.
- Zaznacz pola wyboru potwierdzenia.
- Dodaj Utwórz stos.
Dotarcie do stosu CloudFormation zajmuje około 5 minut CREATE_COMPLETE
stan.
- Sprawdź skrzynkę odbiorczą podanego adresu e-mail i zaakceptuj subskrypcję SNS.
Musisz przejrzeć i zaakceptować potwierdzenie subskrypcji, aby zademonstrować funkcję powiadomień e-mail na końcu przewodnika.
Na Wyjścia zakładki stosu, można znaleźć adresy URL do przeglądania zasobów DataBrew i Step Functions utworzonych przez szablon. Zwróć także uwagę na ukończone polecenia AWS CLI, których używasz w późniejszych krokach.
Jeśli wybierzesz AWSGlueDataBrewRuleset
link wartości, powinieneś zobaczyć stronę szczegółów zestawu reguł, jak na poniższym zrzucie ekranu. W tym przewodniku tworzymy zestaw reguł jakości danych z trzema regułami, które sprawdzają brakujące wartości, wartości odstające i długość ciągu.
Przetestuj rozwiązanie
W poniższych krokach użyjesz interfejsu AWS CLI do przesłania poprawnych i niepoprawnych wersji pliku CSV w celu przetestowania rozwiązania do sprawdzania jakości danych opartego na zdarzeniach.
- Otwórz terminal lub wiersz poleceń i użyj interfejsu AWS CLI, aby pobrać przykładowe dane. Użyj polecenia z danych wyjściowych stosu CloudFormation z nazwą klucza
CommandToDownloadTestData
: - Użyj ponownie interfejsu AWS CLI, aby przesłać niezmieniony plik CSV do zasobnika S3. Wymień ciąg z nazwą swojego zasobnika lub skopiuj i wklej polecenie dostarczone z danych wyjściowych szablonu CloudFormation:
- W konsoli Step Functions zlokalizuj maszynę stanów utworzoną przez szablon CloudFormation.
Możesz znaleźć adres URL w danych wyjściowych CloudFormation, o których wspomniano wcześniej.
- Na Egzekucje powinieneś zobaczyć nowe uruchomienie automatu stanów.
- Wybierz adres URL przebiegu, aby wyświetlić wykres automatu stanów i monitorować jego postęp.
Poniższy obraz przedstawia przepływ pracy naszej maszyny stanowej.
Aby zademonstrować awarię reguły jakości danych, wprowadź co najmniej jedną edycję w votes.csv
plik.
- Otwórz plik w preferowanym edytorze tekstu lub narzędziu arkusza kalkulacyjnego i usuń tylko jedną komórkę.
Na poniższych zrzutach ekranu używam edytora GNU nano w systemie Linux. Do usunięcia komórki możesz także użyć edytora arkuszy kalkulacyjnych. Powoduje to niepowodzenie reguły „Sprawdź wszystkie kolumny pod kątem brakujących wartości”.
Poniższy zrzut ekranu przedstawia plik CSV przed modyfikacją.
Poniższy zrzut ekranu przedstawia zmieniony plik CSV.
- Zapisz edytowane
votes.csv
plik i wróć do wiersza poleceń lub terminala. - Użyj interfejsu AWS CLI, aby jeszcze raz przesłać plik do zasobnika S3. Używasz tego samego polecenia co poprzednio:
- W konsoli Step Functions przejdź do najnowszego uruchomienia automatu stanów, aby go monitorować.
Weryfikacja jakości danych kończy się niepowodzeniem, powodując powiadomienie e-mail SNS i niepowodzenie uruchomienia ogólnego automatu stanów.
Poniższy obraz przedstawia przepływ pracy maszyny stanów, w których wystąpiła awaria.
Poniższy zrzut ekranu przedstawia przykład wiadomości e-mail SNS.
- Możesz zbadać awarię reguły w konsoli DataBrew, wybierając
AWSGlueDataBrewProfileResults
wartość w danych wyjściowych stosu CloudFormation.
Sprzątać
Aby uniknąć ponoszenia przyszłych opłat, usuń zasoby. W konsoli AWS CloudFormation usuń stos o nazwie AWSBigDataBlogDataBrewDQSample
.
Wnioski
W tym poście dowiedziałeś się, jak tworzyć zautomatyzowane, sterowane zdarzeniami potoki walidacji jakości danych. Dzięki DataBrew możesz zdefiniować reguły jakości danych, progi i zestawy reguł dla wymagań biznesowych i technicznych. Step Functions, EventBridge i Amazon SNS umożliwiają budowanie złożonych potoków z konfigurowalną obsługą błędów i alertami dostosowanymi do Twoich potrzeb.
Możesz dowiedzieć się więcej o tym rozwiązaniu i kodzie źródłowym odwiedzając stronę Repozytorium GitHub. Aby dowiedzieć się więcej o regułach jakości danych DataBrew, odwiedź AWS Glue DataBrew umożliwia teraz klientom tworzenie reguł jakości danych w celu zdefiniowania i weryfikacji ich wymagań biznesowych lub odwołaj się do Sprawdzanie jakości danych w AWS Glue DataBrew.
O autorach
Laith Al-Saadoon jest głównym architektem prototypowania w zespole Envision Engineering. Buduje prototypy i rozwiązania wykorzystujące sztuczną inteligencję, uczenie maszynowe, IoT i przetwarzanie brzegowe, analitykę strumieniową, robotykę i obliczenia przestrzenne, aby rozwiązywać rzeczywiste problemy klientów. W wolnym czasie Laith lubi zajęcia na świeżym powietrzu, takie jak fotografowanie, loty dronem, wędrówki piesze i paintball.
Gordona Burgessa jest starszym menedżerem produktu w AWS Glue DataBrew. Jego pasją jest pomaganie klientom w odkrywaniu informacji na podstawie ich danych i koncentruje się na budowaniu doświadczeń użytkowników i bogatej funkcjonalności produktów analitycznych. Poza pracą Gordon lubi czytać, kawę i budować komputery.
- '
- &
- 100
- 107
- 7
- O nas
- Konto
- zajęcia
- adres
- AI
- Wszystkie kategorie
- Amazonka
- analityka
- Zastosowanie
- architektura
- zautomatyzowane
- AWS
- budować
- Budowanie
- biznes
- Opłaty
- Wykrywanie urządzeń szpiegujących
- Sprzątanie
- kod
- Kawa
- Kolumna
- kompleks
- komputery
- computing
- Konsola
- Klientów
- dane
- jakość danych
- dzień
- odkryj
- truteń
- krawędź
- przetwarzanie krawędziowe
- redaktor
- kończy się
- Inżynieria
- Środowisko
- wydarzenia
- przykład
- Doświadczenia
- Brak
- szybciej
- Cecha
- dopasować
- Loty
- znaleziono
- Darmowy
- funkcjonować
- Funkcje
- przyszłość
- Rozwój
- Prowadzenie
- opieki zdrowotnej
- pomaga
- turystyka
- W jaki sposób
- How To
- HTTPS
- zidentyfikować
- obraz
- wdrożenia
- spostrzeżenia
- badać
- Internet przedmiotów
- problemy
- IT
- Praca
- Klawisz
- duży
- firmy
- UCZYĆ SIĘ
- dowiedziałem
- nauka
- Linia
- LINK
- linux
- lokalizacja
- uczenie maszynowe
- Producent
- ML
- jeszcze
- nano
- potrzebne
- powiadomienie
- Opcje
- zamówienie
- Inne
- Na wolnym powietrzu
- fotografia
- Główny
- Produkt
- Produkty
- Profil
- prototypowanie
- dostawca
- jakość
- Czytający
- zmniejszyć
- obsługi produkcji rolnej, która zastąpiła
- wymagania
- Zasoby
- odpowiedź
- Efekt
- powraca
- przeglądu
- robotyka
- reguły
- run
- Skala
- Bezserwerowe
- Usługi
- zestaw
- podobny
- Prosty
- So
- Rozwiązania
- ROZWIĄZANIA
- Przestrzenne
- przetwarzanie przestrzenne
- swoiście
- Arkusz kalkulacyjny
- Stan
- statystyka
- Rynek
- przechowywanie
- Streaming
- subskrypcja
- sukces
- Techniczny
- terminal
- test
- Źródło
- Przez
- czas
- narzędzie
- Transformacja
- transformatorowy
- Tutorial
- wartość
- Zobacz i wysłuchaj
- Praca
- workflow