AWS Adeziv este un serviciu de integrare a datelor fără server, care simplifică descoperirea, pregătirea și combinarea datelor pentru analiză, învățarea automată (ML) și dezvoltarea de aplicații. Puteți utiliza AWS Glue pentru a crea, rula și monitoriza integrarea datelor și conductele ETL (extrage, transforma și încărca) și pentru a vă cataloga activele în mai multe magazine de date.
Sute de mii de clienți folosesc lacurile de date pentru analiză și învățare automată pentru a lua decizii de afaceri bazate pe date. Consumatorii de date își pierd încrederea în date dacă acestea nu sunt exacte și recente, ceea ce face ca calitatea datelor să fie esențială pentru luarea deciziilor optime și corecte.
Evaluarea acurateței și prospețimii datelor este o sarcină comună pentru ingineri. În prezent, există diverse instrumente disponibile pentru a evalua calitatea datelor. Cu toate acestea, aceste instrumente necesită adesea procese manuale de descoperire a datelor și expertiză în ingineria și codificarea datelor.
Suntem încântați să anunțăm lansarea de previzualizare publică a AWS Glue Data Quality. Puteți accesa această funcție astăzi fără a solicita niciun acces suplimentar în regiunile disponibile. AWS Glue Data Quality este o nouă funcție de previzualizare a AWS Glue, care măsoară și monitorizează calitatea datelor lacurilor de date bazate pe Amazon S3 și în joburile AWS Glue ETL. Nu necesită nicio experiență în inginerie sau codificare a datelor. Vă simplifică experiența de monitorizare și evaluare a calității datelor dvs.
Aceasta este partea 1 a unei serii de postări din patru părți pentru a explica cum funcționează AWS Glue Data Quality. Consultați următoarele postări din serie:
În această postare, vom trece peste simplitatea utilizării caracteristicii AWS Glue Data Quality prin:
- Începeți recomandări de calitate a datelor și rulări pe datele dvs. în AWS Glue Data Catalog.
- Crearea unei alarme Amazon CloudWatch pentru primirea de notificări atunci când rezultatele calității datelor sunt sub un anumit prag.
- Analizarea rezultatelor rulării AWS Glue Data Quality prin Amazon Athena.
Configurați resurse cu AWS CloudFormation
Scriptul CloudFormation furnizat creează următoarele resurse pentru dvs.:
- Rolul IAM necesar pentru a rula rulări AWS Glue Data Quality
- O găleată Amazon Simple Storage Service (Amazon S3) pentru a stoca setul de date NYC Taxi
- O găleată S3 pentru a stoca și analiza rezultatele rulărilor AWS Glue Data Quality
- O bază de date AWS Glue și un tabel creat din setul de date NYC Taxi
paşi:
- Deschideți consola AWS CloudFormation.
- Alege Creați stivă apoi selectați Cu resurse noi (standard).
- Pentru Sursa șablonului, alege Încărcați un fișier șablonși furnizați fișierul șablon atașat mai sus. Atunci alege Pagina Următoare →.
- Pentru Numele stivei, DataQualityDatabase, și DataQualityTable, lăsați implicit. Pentru DataQualityS3BucketName, introduceți numele compartimentului dvs. S3. Atunci alege Pagina Următoare →.
- Pe ecranul final, asigurați-vă că recunoașteți că această stivă va crea resurse IAM pentru dvs. și alegeți Trimite mesaj.
- Odată ce stiva este creată cu succes, navigați la găleata S3 creată de stivă și încărcați fișierul galben_tripdata_2022-01.parchet fișier.
Începeți o rulare AWS Glue Data Quality pe datele dvs. în AWS Glue Data Catalog
În această primă secțiune, vom genera recomandări privind regulile de calitate a datelor de la serviciul AWS Glue Data Quality. Folosind aceste recomandări, vom rula apoi o sarcină de calitate a datelor pe baza setului nostru de date pentru a obține o analiză a datelor noastre.
Pentru a începe, parcurgeți următorii pași:
- Deschideți consola AWS Glue.
- Alege Mese în Catalog de date.
- selectaţi DataQualityTable tabel creat prin stiva CloudFormation.
- selectaţi Calitatea datelor tab.
- Alege Recomanda un set de reguli.
- Pe Recomandați reguli de calitate a datelor pagina, verificați Salvați regulile recomandate ca set de reguli. Acest lucru ne va permite să salvăm automat regulile recomandate într-un set de reguli, pentru a fi utilizate în următorii pași.
- Pentru Rolul IAM, alegeți rolul IAM care a fost creat din stiva CloudFormation.
- Pentru Configuratii suplimentare - optional, lăsați numărul implicit de lucrători și timeout.
- Alege Recomanda un set de reguli. Aceasta va începe o rulare de recomandare privind calitatea datelor, cu numărul de lucrători dat.
- Așteptați ca setul de reguli să fie finalizat.
- Odată finalizat, navigați înapoi la Seturi de reguli fila. Ar trebui să vedeți o recomandare rulată cu succes și un set de reguli creat.
Înțelegeți recomandările AWS Glue Data Quality
Recomandările AWS Glue Data Quality sunt sugestii generate de serviciul AWS Glue Data Quality și se bazează pe forma datelor dvs. Aceste recomandări iau în considerare automat aspecte precum RowCounts, Mean, Standard Deviation etc. ale datelor dvs. și generează un set de reguli pe care să le utilizați ca punct de plecare.
Setul de date folosit aici a fost setul de date NYC Taxi. Pe baza acestora, a coloanelor din acest set de date și a valorilor acelor coloane, AWS Glue Data Quality recomandă un set de reguli. În total, serviciul de recomandare a luat automat în considerare toate coloanele setului de date și a recomandat 55 de reguli.
Unele dintre aceste reguli sunt:
- „RowCount between <> and <> ” → Așteptați-vă un număr de rânduri pe baza datelor pe care le-a văzut
- „ColumnValues „VendorID” în [ ] → Așteptați-vă ca coloana „VendorID” să fie într-un anumit set de valori
- IsComplete „VendorID” → Așteptați-vă ca „VendorID” să fie o valoare non-nulă
Cum folosesc regulile recomandate pentru calitatea datelor AWS Glue?
- De la Seturi de reguli secțiunea, ar trebui să vedeți setul de reguli generat. Selectați setul de reguli generat și alegeți Evaluați setul de reguli.
- Dacă nu ați bifat caseta pentru Salvați regulile recomandate ca set de reguli când ați rulat recomandarea, puteți în continuare să faceți clic pe executarea sarcinii de recomandare și să copiați regulile pentru a crea un nou set de reguli
- Pentru Acțiuni de calitate a datelor în Proprietățile calității datelor, Selectați Publicați valorile pe Amazon CloudWatch. Dacă această casetă nu este bifată, rularea calității datelor nu va publica valorile în Amazon CloudWatch.
- Pentru Rolul IAM, Selectați GlueDataQualityBlogRole creat în stiva AWS CloudFormation.
- Pentru Numărul de muncitori solicitat în Proprietăți avansate, lăsați implicit.
- Pentru Locația rezultatelor calității datelor, selectați valoarea GlueDataQualityResultsS3Bucket locație care a fost creată prin stiva AWS CloudFormation
- Alege Evaluați setul de reguli.
- Odată ce începe alergarea, puteți vedea starea alergării pe Rezultate de calitate a datelor tab.
- După ce rularea ajunge la o etapă de succes, selectați executarea sarcinii de calitate a datelor finalizată și vizualizați rezultatele calității datelor afișate în Rulează rezultatele.
Serviciul nostru de recomandare a sugerat să aplicăm 55 de reguli, pe baza valorilor coloanelor și a datelor din setul nostru de date NYC Taxi. Apoi am convertit colecția de 55 de reguli într-un RuleSet. Apoi, am rulat o sarcină de evaluare a calității datelor, folosind RuleSet-ul nostru, în raport cu setul de date. În rezultatele noastre de mai sus, vedem starea fiecăruia în RuleSet.
De asemenea, puteți utiliza API-urile AWS Glue Data Quality pentru a efectua acești pași.
Primiți notificări Amazon SNS pentru rulările cu privire la calitatea mea eșuată a datelor prin alarmele Amazon CloudWatch
Fiecare evaluare AWS Glue Data Quality executată din Catalogul de date emite o pereche de valori numite lipici.date.reguli.de.calitatea.promis (indicând un număr de reguli care au trecut) și lipici.date.reguli.de.calitatea.eșuat (indicând numărul de reguli nereușite) per runda de calitate a datelor. Această măsurătoare emisă poate fi utilizată pentru a crea alarme pentru a alerta utilizatorii dacă o anumită calitate a datelor scade sub un prag.
Pentru a începe să configurați o alarmă care ar trimite un e-mail printr-o notificare Amazon SNS, urmați pașii de mai jos:
- Deschideți consola Amazon CloudWatch.
- Alege Toate valorile în Metrici. Veți vedea un spațiu de nume suplimentar sub Spații de nume personalizate cu denumirea Lipici Calitatea datelor.
Notă: Când începeți o rulare AWS Glue Data Quality, asigurați-vă că Publicați valorile pe Amazon CloudWatch caseta de selectare este activată, după cum se arată mai jos. În caz contrar, valorile pentru acea rulare nu vor fi publicate pe Amazon CloudWatch.
- Sub Lipici Calitatea datelor spațiu de nume, ar trebui să puteți vedea valorile emise pe tabel, pe set de reguli. În scopul blogului nostru, vom folosi lipici.date.reguli.de.calitatea.eșuat regulă și alarmă, dacă această valoare depășește 1 (indicând că, dacă vedem un număr de evaluări ale regulilor eșuate mai mare de 1, am dori să fim anunțați).
- Pentru a crea alarma, alegeți Toate alarmele sub Alarme.
- Alege Creați alarma.
- Alege Selectați valoarea.
- selectaţi lipici.date.reguli.de.calitatea.eșuat metrica corespunzătoare tabelului pe care l-ați creat, apoi alegeți Selectați valoarea.
- Sub Specificați metrica și condițiile fila, sub Metrici secțiune:
- Pentru Statistic, Selectați Sumă.
- Pentru Perioadă, Selectați 1 minute.
- Sub Condiţii secțiune:
- Pentru Tip prag, alege Static.
- Pentru Ori de câte ori glue.data.quality.rules.failed este..., Selectați Mai mare/Egal.
- Pentru decât…, introduceți 1 ca valoare de prag.
- extinde Configurații suplimentare derulant și selectați Tratați datele lipsă ca fiind bune
Aceste selecții implică faptul că, dacă lipici.date.reguli.de.calitatea.eșuat metric emite o valoare mai mare sau egală cu 1, vom declanșa o alarmă. Cu toate acestea, dacă nu există date, le vom trata ca fiind acceptabile.
- Alege Pagina Următoare →.
- On Configurați acțiuni:
- Pentru Declanșarea stării de alarmă secțiune, selectați În alarmă .
- Pentru Trimiteți o notificare la următorul subiect SNS, alege Creați un subiect nou pentru a trimite o notificare printr-un nou subiect SNS.
- Pentru Punctele finale de e-mail care vor primi notificarea..., introduceți adresa dvs. de e-mail. Alege Pagina Următoare →.
- Pentru Numele alarmei, introduceți myFirstDQAlarm, apoi alegeți Pagina Următoare →.
- În cele din urmă, ar trebui să vedeți un rezumat al tuturor selecțiilor de pe Previzualizează și creează ecran. Alege Creați alarma în partea de jos.
- Acum ar trebui să puteți vedea alarma creată din tabloul de bord cu alarme Amazon CloudWatch.
Pentru a demonstra alarmele AWS Glue Data Quality, vom trece peste un scenariu real în care am fost ingerate date corupte și cum am putea folosi serviciul AWS Glue Data Quality pentru a primi notificări cu privire la acest lucru, folosind alarma pe care o avem. creat în pașii anteriori. În acest scop, vom folosi fișierul furnizat taxi_galben_malformat.parchet care conține date care au fost modificate intenționat.
- Navigați la locația S3 DataQualityS3BucketName menționat în șablonul CloudFormation furnizat la începutul articolului de blog.
- Încărcați malformat_yellow_tripdata.parquet fișier în această locație. Acest lucru ne va ajuta să simulăm un flux în care avem un fișier cu o calitate slabă a datelor care intră în lacurile noastre de date prin procesele noastre ETL.
- Navigați la consola AWS Glue Data Catalog, selectați demo_nyc_taxi_data_input care a fost creat prin șablonul AWS CloudFormation furnizat și apoi navigați la Calitatea datelor tab.
- Selectați setul de reguli pe care l-am creat în prima secțiune. Apoi selectați Evaluați setul de reguli.
- De la Ecranul de evaluare a calității datelor:
- Bifați caseta la Publicați valorile pe Amazon CloudWatch. Această casetă de selectare este necesară pentru a vă asigura că valorile de eșec sunt transmise către Amazon CloudWatch.
- Selectați rolul IAM creat prin șablonul AWS CloudFormation.
- Opțional, selectați o locație S3 pentru a publica rezultatele AWS Glue Data Quality.
- Selectați Evaluați setul de reguli.
- Navigați către Rezultatele calității datelor fila. Ar trebui să vedeți acum două rulări, una de la pașii anteriori ai acestui blog și una pe care am declanșat-o în prezent. Așteptați finalizarea executării curente.
- După cum vedeți, avem un rezultat eșuat al rulării AWS Glue Data Quality, cu doar 52 dintre cele 55 de reguli originale care au fost adoptate. Aceste eșecuri sunt atribuite noului fișier pe care l-am încărcat pe S3.
- Navigați la consola Amazon CloudWatch și selectați alarma pe care am creat-o la începutul acestei secțiuni.
- După cum puteți vedea, am configurat alarma să se declanșeze de fiecare dată când lipici.date.reguli.de.calitatea.eșuat metrica depășește un prag de 1. După rularea AWS Glue Data Quality de mai sus, vedem 3 reguli eșuate, ceea ce a declanșat alarma. În plus, ar fi trebuit să primiți și un e-mail care detaliază declanșarea alarmei.
Am demonstrat astfel un exemplu în care datele de intrare malformate, care intră în lacurile noastre de date pot fi identificate prin regulile AWS Glue Data Quality și pot fi create mecanisme de alertă ulterioare pentru a notifica persoanele corespunzătoare.
Analizați rezultatele rulării AWS Glue Data Quality prin Amazon Athena
În scenariile în care aveți mai multe rezultate ale rulării AWS Glue Data Quality pe un set de date, pe o perioadă de timp, este posibil să doriți să urmăriți tendințele calității setului de date pe o perioadă de timp. Pentru a realiza acest lucru, putem exporta rezultatele executării noastre AWS Glue Data Quality în S3 și putem folosi Amazon Athena pentru a rula interogări analitice pe rularea exportată. Rezultatele pot fi apoi utilizate în continuare în Amazon QuickSight pentru a construi tablouri de bord care să aibă o reprezentare grafică a tendințelor dvs. de calitate a datelor.
În a treia parte a acestei postări, vom vedea pașii necesari pentru a începe să urmăriți datele privind calitatea setului dvs. de date:
- Pentru rulajele noastre de calitate a datelor pe care le-am configurat în secțiunile anterioare, am setat Locația rezultatelor calității datelor parametru la locația compartimentului specificată de stiva AWS CloudFormation.
- După fiecare rulare cu succes, ar trebui să vedeți un singur fișier JSONL exportat în locația S3 selectată, corespunzător acelei rulări.
- Deschideți consola Amazon Athena.
- În editorul de interogări, rulați următoarea instrucțiune CREATE TABLE (înlocuiți cu o valoare relevantă și secțiunea cu
GlueDataQualityResultsS3Bucket
valoarea din șablonul AWS CloudFormation furnizat): - Odată creat tabelul de mai sus, ar trebui să puteți rula interogări pentru a analiza rezultatele calității datelor.
De exemplu, luați în considerare următoarea interogare care îmi arată că AWS Glue Data Quality rulează eșuat pe tabelul meu demo_nyc_taxi_data_input
într-o fereastră de timp:
Ieșirea interogării de mai sus îmi arată detalii despre toate rulările cu „rezultat” = „Eșuat” care s-au rulat pe tabelul meu NYC Taxi dataset ( „tablename” = „demo_nyc_taxi_data_input”). Ieșirea îmi oferă și informații despre motivul eșecului ( failurereason
) și valorile cu care a fost evaluat ( evaluatedmetrics
).
După cum puteți vedea, putem obține informații detaliate despre rulările noastre AWS Glue Data Quality, prin intermediul rezultatelor rulării încărcate în S3, să efectuăm analize mai detaliate și să construim tablouri de bord pe deasupra datelor.
A curăța
- Navigați la consola Amazon Athena și ștergeți tabelul creat pentru analiza calității datelor.
- Navigați la consola Amazon CloudWatch și ștergeți alarmele create.
- Dacă ați implementat exemplul de stivă CloudFormation, ștergeți stiva CloudFormation prin consola AWS CloudFormation. Va trebui sa goliți găleata S3 înainte de a șterge găleata.
- Dacă ați activat rulările AWS Glue Data Quality pentru ieșirea către S3, goliți și acele compartimente.
Concluzie
În această postare, am vorbit despre ușurința și viteza încorporării regulilor de calitate a datelor folosind caracteristica AWS Glue Data Quality, în tabelele AWS Glue Data Catalog. De asemenea, am vorbit despre cum să rulați recomandări și să evaluați calitatea datelor în raport cu tabelele dvs. Am discutat apoi despre analiza rezultatelor calității datelor prin Amazon Athena și despre procesul de configurare a alarmelor prin Amazon CloudWatch pentru a notifica utilizatorii cu privire la calitatea eșuată a datelor.
Pentru a explora API-urile AWS Glue Data Quality, aruncați o privire la Documentația AWS Glue Data Quality API
Pentru a afla mai multe despre AWS Glue Data Quality, consultați Ghid pentru dezvoltatori AWS Glue Data Quality
Despre autori
Aniket Jiddigoudar este arhitect Big Data în echipa AWS Glue.
Joseph Barlan este inginer front-end la AWS Glue. Are peste 5 ani de experiență în a ajuta echipele să construiască componente reutilizabile UI și este pasionat de sistemele de design frontal. În timpul liber, îi place să deseneze în creion și să se uite la emisiuni tv.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-from-the-aws-glue-data-catalog/
- 000
- 1
- 10
- 100
- 11
- 420
- a
- Capabil
- Despre Noi
- mai sus
- acceptabil
- acces
- Cont
- precizie
- precis
- Obține
- recunoaște
- peste
- acțiuni
- Suplimentar
- adresa
- avansat
- După
- împotriva
- alarmă
- Alerta
- TOATE
- Amazon
- Amazon Atena
- Amazon QuickSight
- analiză
- Analitic
- Google Analytics
- analiza
- analiza
- și
- anunța
- Apache
- api
- API-uri
- aplicație
- Dezvoltare de Aplicații
- adecvat
- aspecte
- Bunuri
- în mod automat
- disponibil
- AWS
- Formarea AWS Cloud
- AWS Adeziv
- înapoi
- bazat
- înainte
- Început
- fiind
- de mai jos
- între
- Mare
- Datele mari
- Blog
- De jos
- Cutie
- construi
- afaceri
- transporta
- catalog
- sigur
- verifica
- Alege
- clasificare
- Codificare
- colectare
- Coloană
- Coloane
- combina
- venire
- Comun
- Completă
- Terminat
- componente
- Condiții
- Lua în considerare
- considerare
- Consoleze
- Consumatorii
- conține
- convertit
- Corespunzător
- stricat
- ar putea
- crea
- a creat
- creează
- Curent
- În prezent
- clienţii care
- tablou de bord
- de date
- Pe bază de date
- Baza de date
- Deciziile
- Mod implicit
- demonstra
- demonstrat
- dislocate
- Amenajări
- sisteme de proiectare
- detaliat
- detalii
- Dezvoltator
- Dezvoltare
- deviere
- descoperi
- descoperire
- discutat
- desen
- fiecare
- editor
- inginer
- Inginerie
- inginerii
- asigura
- Intrați
- esenţial
- etc
- Eter (ETH)
- evalua
- evaluat
- evaluare
- evaluări
- exemplu
- aștepta
- experienţă
- expertiză
- Explica
- exporturile
- extern
- extrage
- A eșuat
- Eșec
- Falls
- Caracteristică
- Fișier
- final
- Incendiu
- aprindere
- First
- debit
- urma
- următor
- format
- din
- Frontend
- mai mult
- genera
- generată
- obține
- obtinerea
- dat
- oferă
- Go
- Merge
- merge
- mai mare
- ajutor
- ajutor
- aici
- Stup
- Cum
- Cum Pentru a
- Totuși
- HTML
- HTTPS
- identificat
- in
- Intrare
- care încorporează
- informații
- integrare
- IT
- Locuri de munca
- JSON
- lansa
- AFLAȚI
- învăţare
- Părăsi
- încărca
- locaţie
- Uite
- pierde
- maşină
- masina de învățare
- face
- FACE
- Efectuarea
- manual
- măsuri
- metric
- Metrici
- ar putea
- dispărut
- ML
- monitor
- Monitorizarea
- monitoare
- mai mult
- multiplu
- nume
- Navigaţi
- Nevoie
- Nou
- următor
- notificare
- notificări
- număr
- NYC
- ONE
- optimă
- comandă
- original
- in caz contrar
- parametru
- parte
- special
- Trecut
- Care trece
- pasionat
- efectua
- perioadă
- Plato
- Informații despre date Platon
- PlatoData
- mulţumit
- Punct
- sărac
- Post
- postări
- Pregăti
- Anunţ
- precedent
- proces
- procese
- furniza
- prevăzut
- public
- publica
- publicat
- scop
- calitate
- aTINGE
- lumea reală
- motiv
- a primi
- recent
- Recomandare
- Recomandări
- recomandat
- recomandă
- repara
- înlocui
- reprezentare
- necesita
- necesar
- Resurse
- rezultat
- REZULTATE
- reutilizabile
- Rol
- RÂND
- Regula
- norme
- Alerga
- Economisiți
- scenarii
- Ecran
- Secțiune
- secțiuni
- selectate
- serie
- serverless
- serviciu
- set
- instalare
- Modela
- să
- indicat
- Emisiuni
- simplu
- simplitate
- singur
- specific
- specificată
- viteză
- stivui
- Etapă
- standard
- Începe
- început
- Pornire
- Stat
- Declarație
- Stare
- paşi
- Încă
- depozitare
- stoca
- stocate
- magazine
- ulterior
- de succes
- Reușit
- REZUMAT
- furnizat
- sisteme
- tabel
- Lua
- Sarcină
- echipă
- echipe
- șablon
- Al treilea
- mii
- prag
- Prin
- timp
- timestamp-ul
- la
- astăzi
- Unelte
- top
- subiect
- Total
- urmări
- Urmărire
- Transforma
- trata
- Tendinţe
- declanşa
- a declanșat
- Încredere
- tv
- ui
- în
- încărcat
- us
- utilizare
- utilizatorii
- folosi
- valoare
- Valori
- diverse
- de
- Vizualizare
- aștepta
- vizionarea
- care
- voi
- în
- fără
- muncitorii
- fabrică
- ar
- ani
- Ta
- zephyrnet