Astăzi, sute de mii de clienți folosesc lacurile de date pentru analiză și învățare automată. Cu toate acestea, inginerii de date trebuie să curețe și să pregătească aceste date înainte de a putea fi utilizate. Datele de bază trebuie să fie exacte și recente pentru ca clientul să ia decizii de afaceri încrezătoare. În caz contrar, consumatorii de date își pierd încrederea în date și iau decizii suboptime sau incorecte. Este o sarcină comună pentru inginerii de date să evalueze dacă datele sunt exacte și recente sau nu. Astăzi există diverse instrumente de calitate a datelor. Cu toate acestea, instrumentele comune de calitate a datelor necesită de obicei procese manuale pentru a monitoriza calitatea datelor.
AWS Glue Data Quality este o caracteristică de previzualizare a AWS Adeziv care măsoară și monitorizează calitatea datelor Serviciul Amazon de stocare simplă (Amazon S3) data lakes și în AWS Glue extrageți, transformați și încărcați joburi (ETL). Aceasta este o funcție de previzualizare deschisă, așa că este deja activată în contul dvs. în regiunile disponibile. Puteți defini și măsura cu ușurință verificările calității datelor în consola AWS Glue Studio fără a scrie coduri. Vă simplifică experiența de gestionare a calității datelor.
Această postare este partea 2 a unei serii de patru postări pentru a explica cum funcționează AWS Glue Data Quality. Consultați postarea anterioară din această serie:
În această postare, arătăm cum să creați o lucrare AWS Glue care măsoară și monitorizează calitatea datelor unei conducte de date. De asemenea, vă arătăm cum să luați măsuri pe baza rezultatelor calității datelor.
Prezentare generală a soluțiilor
Să luăm în considerare un exemplu de caz de utilizare în care un inginer de date trebuie să construiască o conductă de date pentru a ingera datele dintr-o zonă brută într-o zonă curată dintr-un lac de date. În calitate de inginer de date, una dintre responsabilitățile tale cheie, împreună cu extragerea, transformarea și încărcarea datelor, este validarea calității datelor. Identificarea în avans a problemelor legate de calitatea datelor vă ajută să preveniți plasarea datelor proaste în zona curată și să evitați incidentele grele de corupție a datelor.
În această postare, veți învăța cum să configurați ușor construit-in și personalizat verificări de validare a datelor în jobul dvs. AWS Glue pentru a preveni coruperea datelor proaste a datelor de înaltă calitate din aval.
Setul de date utilizat pentru această postare este generat sintetic; următoarea captură de ecran arată un exemplu de date.
Configurați resurse cu AWS CloudFormation
Această postare include un Formarea AWS Cloud șablon pentru o configurare rapidă. Îl puteți revizui și personaliza în funcție de nevoile dvs.
Șablonul CloudFormation generează următoarele resurse:
- O găleată Amazon Simple Storage Service (Amazon S3) (
gluedataqualitystudio-*
). - Următoarele prefixe și obiecte din compartimentul S3:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- Gestionarea identității și accesului AWS (IAM) utilizatori, roluri și politici. Rolul IAM (
GlueDataQualityStudio-*
) are permisiunea de a citi și scrie din bucket-ul S3. - AWS Lambdas funcțiile și politicile IAM cerute de acele funcții pentru a crea și șterge această stivă.
Pentru a vă crea resursele, parcurgeți următorii pași:
- Conectați-vă la Consola AWS CloudFormation în
us-east-1
Regiune. - Alege Lansați Stack:
- Selectați Recunosc că AWS CloudFormation ar putea crea resurse IAM.
- Alege Creați stivă și așteptați finalizarea pasului de creare a stivei.
Implementează soluția
Pentru a începe configurarea soluției, parcurgeți următorii pași:
- Pe Consola AWS Glue Studio, alege Locuri de munca în panoul de navigare.
- Selectați Vizual cu o pânză goală Și alegeți Crea.
- Alege detalii job pentru a configura jobul.
- Pentru Nume si Prenume, introduce
GlueDataQualityStudio
. - Pentru Rolul IAM, alegeți rolul începând cu
GlueDataQualityStudio-*
. - Pentru Varianta cu lipici, alege Adeziv 3.0.
- Pentru Marcaj de locuri de muncă, alege Dezactivați. Acest lucru vă permite să rulați această lucrare de mai multe ori cu același set de date de intrare.
- Pentru Numărul de reîncercări, introduce
0
. - În Proprietăți avansate secțiunea, furnizați compartimentul S3 creat de șablonul CloudFormation (începând cu
gluedataqualitystudio-*
). - Alege Economisiți.
- După ce lucrarea este salvată, alegeți Vizual fila și pe Sursă meniu, alegeți Amazon S3.
- Pe Proprietățile sursei de date - S3 filă, pentru tip sursă S3, Selectați Locația S3.
- Alege Răsfoiți S3 și navigați la prefix
/datalake/raw/customer/
în găleata S3 începând cugluedataqualitystudio-*
. - Alege Deduceți schema.
- Pe Acțiune meniu, alegeți Evaluați calitatea datelor.
- Alege Evaluați calitatea datelor nodul.
Pe Transforma fila, puteți începe acum să construiți reguli de calitate a datelor. Prima regulă pe care o creați este să verificați dacăCustomer_ID
este unică și nu nulă folosindisPrimaryKey
regulă. - Pe Tipuri de reguli din tabelul Generator de reguli DQDL, caută
isprimarykey
și alegeți semnul plus. - Pe Schemă din tabelul Generator de reguli DQDL, alegeți semnul plus de lângă
Customer_ID
. - În editorul de reguli, ștergeți
id
.
Următoarea regulă adăugăm verificări căFirst_Name
valoarea coloanei este prezentă pentru toate rândurile. - De asemenea, puteți introduce regulile de calitate a datelor direct în editorul de reguli. Adăugați o virgulă (,) și introduceți
IsComplete "First_Name",
după prima regulă.
Apoi, adăugați o regulă personalizată pentru a valida că nu există niciun rând fărăTelephone
orEmail
. - Introduceți următoarea regulă personalizată în editorul de reguli:
Caracteristica Evaluează calitatea datelor oferă acțiuni pentru a gestiona rezultatul unui job pe baza rezultatelor calității jobului. - Pentru această postare, selectați Eșuează operația când calitatea datelor eșuează Și alegeți Lucrarea eșuată fără a încărca ținta de date actiuni. În Setare de ieșire a calității datelor secțiune, pentru a alege Răsfoiți S3 și navigați la prefix
dqresults
în găleata S3 începând cugluedataqualitystudio-*
. - Pe Ţintă meniu, alegeți Amazon S3.
- Alege Țintă de date – găleată S3 nodul.
- Pe Proprietăți țintă pentru date - S3 filă, pentru Format, alege parchet, Și pentru Tip de compresie, alege Vioi.
- Pentru Locație țintă S3, alege Răsfoiți S3 și navigați la prefix
/datalake/curated/customer/
în găleata S3 începând cugluedataqualitystudio-*
. - Alege Economisiți, Apoi alegeți Alerga.
Puteți vizualiza detaliile executării lucrării în fila Execuții. În exemplul nostru, jobul eșuează cu mesajul de eroare „AssertionError: Jobul a eșuat din cauza eșuării regulilor DQ pentru nod: .”
Puteți examina rezultatul calității datelor în fila Calitatea datelor. În exemplul nostru, validarea calității datelor personalizate a eșuat deoarece unul dintre rândurile din setul de date nu aveaTelephone
orEmail
valoare.Rezultatele de evaluare a calității datelor sunt, de asemenea, scrise în compartimentul S3 în format JSON, pe baza parametrului de locație a rezultatului calității datelor al nodului. - Navigheaza catre
dqresults
prefix sub pornirea găleții S3gluedataqualitystudio-*
. Veți vedea că rezultatul calității datelor este împărțit în funcție de dată.
Următorul este rezultatul fișierului JSON. Puteți utiliza acest fișier de ieșire pentru a crea tablouri de bord personalizate de vizualizare a calității datelor.
De asemenea, puteți monitoriza Evaluați calitatea datelor nod prin Amazon CloudWatch metrici și setați alarme pentru a trimite notificări despre rezultatele calității datelor. Pentru a afla mai multe despre cum să configurați alarmele CloudWatch, consultați Utilizarea alarmelor Amazon CloudWatch.
A curăța
Pentru a evita costurile viitoare și pentru a curăța rolurile și politicile neutilizate, ștergeți resursele pe care le-ați creat:
- Ștergeți
GlueDataQualityStudio
job pe care l-ai creat ca parte a acestei postări. - Pe consola AWS CloudFormation, ștergeți
GlueDataQualityStudio
grămadă.
Concluzie
AWS Glue Data Quality oferă o modalitate ușoară de a măsura și monitoriza calitatea datelor din conducta dvs. ETL. În această postare, ați învățat cum să luați acțiunile necesare pe baza rezultatelor calității datelor, ceea ce vă ajută să mențineți standarde ridicate de date și să luați decizii de afaceri încrezătoare.
Pentru a afla mai multe despre calitatea datelor AWS Glue, consultați documentația:
Despre Autori
Deenbandhu Prasad este Senior Analytics Specialist la AWS, specializat în servicii de date mari. Este pasionat de a ajuta clienții să construiască arhitectură de date modernă pe AWS Cloud. El a ajutat clienții de toate dimensiunile să implementeze soluții de management al datelor, depozit de date și lac de date.
Yannis Mentekidis este inginer senior de dezvoltare software în echipa AWS Glue.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- Despre Noi
- acces
- Cont
- precis
- recunoaște
- Acțiune
- acțiuni
- După
- TOATE
- permite
- deja
- Amazon
- Google Analytics
- și
- arhitectură
- AWS
- Formarea AWS Cloud
- AWS Adeziv
- Rău
- date proaste
- bazat
- deoarece
- înainte
- Mare
- Datele mari
- construi
- Clădire
- afaceri
- caz
- taxe
- verifica
- Verificări
- Alege
- Cloud
- Coloană
- Comun
- Completă
- încrezător
- Lua în considerare
- Consoleze
- Consumatorii
- Corupţie
- crea
- a creat
- creaţie
- curator
- personalizat
- client
- clienţii care
- personaliza
- de date
- Lacul de date
- management de date
- Data
- Deciziile
- detalii
- Dezvoltare
- direct
- documentaţie
- cu ușurință
- editor
- inginer
- inginerii
- Intrați
- eroare
- Eter (ETH)
- evalua
- exemplu
- există
- experienţă
- Explica
- extrage
- A eșuat
- eșuează
- Caracteristică
- Fișier
- First
- următor
- format
- din
- funcții
- viitor
- generată
- generează
- obtinerea
- a ajutat
- ajutor
- ajută
- Înalt
- de înaltă calitate
- Cum
- Cum Pentru a
- Totuși
- HTML
- HTTPS
- sute
- identificarea
- Identitate
- punerea în aplicare a
- in
- include
- intrare
- probleme de
- IT
- Loc de munca
- Locuri de munca
- JSON
- Cheie
- lac
- AFLAȚI
- învățat
- învăţare
- încărca
- încărcare
- locaţie
- pierde
- maşină
- masina de învățare
- menține
- face
- administra
- administrare
- de conducere
- manual
- măsura
- măsuri
- Meniu
- mesaj
- Metrici
- ar putea
- Modern
- monitor
- monitoare
- mai mult
- multiplu
- Navigaţi
- Navigare
- necesar
- nevoilor
- următor
- nod
- notificări
- obiecte
- promoții
- ONE
- deschide
- in caz contrar
- pâine
- parametru
- parte
- pasionat
- permisiune
- conducte
- plasare
- Plato
- Informații despre date Platon
- PlatoData
- la care se adauga
- Politicile
- Post
- Pregăti
- prezenta
- împiedica
- Anunţ
- precedent
- primar
- procese
- proprietăţi
- furniza
- furnizează
- calitate
- Rapid
- Crud
- Citeste
- recent
- regiune
- necesita
- necesar
- Resurse
- rezultat
- REZULTATE
- revizuiască
- Rol
- rolurile
- RÂND
- Regula
- norme
- Alerga
- acelaşi
- Caută
- Secțiune
- serie
- serviciu
- Servicii
- set
- instalare
- configurarea
- Arăta
- Emisiuni
- semna
- simplu
- dimensiuni
- So
- Software
- de dezvoltare de software
- soluţie
- soluţii
- Sursă
- specialist
- specializata
- stivui
- standarde
- Începe
- început
- Pornire
- Pas
- paşi
- depozitare
- studio
- Costum
- sintetic
- Lua
- Ţintă
- Sarcină
- echipă
- șablon
- mii
- Prin
- ori
- la
- astăzi
- Unelte
- Transforma
- transformare
- Încredere
- în
- care stau la baza
- unic
- nefolosit
- utilizare
- carcasa de utilizare
- utilizatorii
- obișnuit
- VALIDA
- validare
- valoare
- diverse
- Vizualizare
- vizualizare
- aștepta
- dacă
- care
- voi
- fără
- fabrică
- scrie
- scris
- scris
- Ta
- zephyrnet