Danes več sto tisoč strank uporablja podatkovna jezera za analitiko in strojno učenje. Vendar pa morajo podatkovni inženirji te podatke očistiti in pripraviti, preden jih lahko uporabijo. Osnovni podatki morajo biti točni in najnovejši, da lahko stranka sprejema samozavestne poslovne odločitve. V nasprotnem primeru uporabniki podatkov izgubijo zaupanje v podatke in sprejemajo neoptimalne ali napačne odločitve. Običajna naloga podatkovnih inženirjev je, da ocenijo, ali so podatki točni in novejši ali ne. Danes obstajajo različna orodja za kakovost podatkov. Vendar običajna orodja za kakovost podatkov običajno zahtevajo ročne postopke za spremljanje kakovosti podatkov.
AWS Glue Data Quality je funkcija predogleda za AWS lepilo ki meri in spremlja kakovost podatkov Preprosta storitev shranjevanja Amazon (Amazon S3) podatkovnih jezerih in v AWS Glue opravilih pridobivanja, preoblikovanja in nalaganja (ETL). To je funkcija odprtega predogleda, zato je že omogočena v vašem računu v razpoložljive regije. Preverjanja kakovosti podatkov lahko preprosto definirate in izmerite v konzoli AWS Glue Studio brez pisanja kod. Poenostavlja vašo izkušnjo upravljanja kakovosti podatkov.
Ta objava je 2. del serije štirih objav, ki pojasnjuje, kako deluje AWS Glue Data Quality. Oglejte si prejšnjo objavo v tej seriji:
V tej objavi prikazujemo, kako ustvariti opravilo AWS Glue, ki meri in spremlja kakovost podatkov v podatkovnem cevovodu. Pokažemo tudi, kako ukrepati na podlagi rezultatov kakovosti podatkov.
Pregled rešitev
Oglejmo si primer primera uporabe, v katerem mora podatkovni inženir zgraditi podatkovni cevovod za vnos podatkov iz neobdelanega območja v kurirano območje v podatkovnem jezeru. Kot podatkovni inženir je ena od vaših ključnih odgovornosti – poleg pridobivanja, preoblikovanja in nalaganja podatkov – preverjanje kakovosti podatkov. Vnaprejšnje odkrivanje težav s kakovostjo podatkov vam pomaga preprečiti umestitev slabih podatkov v kurirano območje in se izogniti težavnim poškodbam podatkov.
V tej objavi se boste naučili, kako enostavno nastaviti vgrajeno in po meri preverjanje veljavnosti podatkov v vašem opravilu AWS Glue, da prepreči, da bi slabi podatki poškodovali visokokakovostne podatke na nižji stopnji.
Nabor podatkov, uporabljen za to objavo, je sintetično ustvarjen; naslednji posnetek zaslona prikazuje primer podatkov.
Nastavite vire z AWS CloudFormation
Ta objava vključuje Oblikovanje oblaka AWS predlogo za hitro nastavitev. Lahko ga pregledate in prilagodite svojim potrebam.
Predloga CloudFormation ustvari naslednje vire:
- Vedro storitve Amazon Simple Storage Service (Amazon S3) (
gluedataqualitystudio-*
). - Naslednje predpone in predmeti v vedru S3:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- AWS upravljanje identitete in dostopa (IAM) uporabniki, vloge in pravilniki. Vloga IAM (
GlueDataQualityStudio-*
) ima dovoljenje za branje in pisanje iz vedra S3. - AWS Lambda funkcij in pravilnikov IAM, ki jih te funkcije zahtevajo za ustvarjanje in brisanje tega sklada.
Če želite ustvariti vire, izvedite naslednje korake:
- Prijavite se v Konzola AWS CloudFormation v
us-east-1
Regija. - Izberite Izstrelite sklad:
- Izberite Priznavam, da lahko AWS CloudFormation ustvari vire IAM.
- Izberite Ustvari sklad in počakajte, da se zaključi korak ustvarjanja sklada.
Izvedite rešitev
Če želite začeti konfigurirati svojo rešitev, dokončajte naslednje korake:
- o Konzola AWS Glue Studio, izberite Delovna mesta v podoknu za krmarjenje.
- Izberite Vizualno s praznim platnom In izberite ustvarjanje.
- Izberite podrobnosti zaposlitve zavihek za konfiguracijo opravila.
- za Ime, vnesite
GlueDataQualityStudio
. - za Vloga IAM, izberite vlogo, ki se začne z
GlueDataQualityStudio-*
. - za Različica z lepilom, izberite Lepilo 3.0.
- za Zaznamek zaposlitve, izberite Onemogoči. To vam omogoča, da to opravilo izvedete večkrat z istim vhodnim naborom podatkov.
- za Število ponovnih poskusov, vnesite
0
. - v Napredne lastnosti podajte vedro S3, ustvarjeno s predlogo CloudFormation (začenši z
gluedataqualitystudio-*
). - Izberite Shrani.
- Ko je opravilo shranjeno, izberite Vizualni zavihek in na vir izberite meni Amazon S3.
- o Lastnosti vira podatkov - S3 zavihek, za Vrsta vira S3tako, da izberete S3 lokacija.
- Izberite Prebrskaj S3 in se pomaknite do predpone
/datalake/raw/customer/
v vedru S3, ki se začne zgluedataqualitystudio-*
. - Izberite Sklepaj shemo.
- o Ukrep izberite meni Ocenite kakovost podatkov.
- Izberite Ocenite kakovost podatkov vozlišče.
o Transform lahko zdaj začnete graditi pravila za kakovost podatkov. Prvo pravilo, ki ga ustvarite, je, da preverite, aliCustomer_ID
je edinstveno in ni ničelno z uporaboisPrimaryKey
pravilo. - o Vrste pravil jeziček Graditelj pravil DQDL, Išči
isprimarykey
in izberite znak plus. - o Shema jeziček Graditelj pravil DQDL, izberite znak plus zraven
Customer_ID
. - V urejevalniku pravil izbriši
id
.
Naslednje pravilo, ki ga dodamo, preverja, ali jeFirst_Name
vrednost stolpca je prisotna za vse vrstice. - Pravila za kakovost podatkov lahko vnesete tudi neposredno v urejevalnik pravil. Dodajte vejico (,) in vnesite
IsComplete "First_Name",
po prvem pravilu.
Nato dodate pravilo po meri, da potrdite, da brez njega ne obstaja nobena vrsticaTelephone
orEmail
. - V urejevalnik pravil vnesite naslednje pravilo po meri:
Funkcija Oceni kakovost podatkov zagotavlja dejanja za upravljanje rezultatov opravila na podlagi rezultatov kakovosti opravil. - Za to objavo izberite Neuspešno delo, ko je kakovost podatkov slabša In izberite Neuspešno opravilo brez nalaganja cilja datum dejanja. V Nastavitev kakovosti izpisa podatkov oddelek, izberite Prebrskaj S3 in se pomaknite do predpone
dqresults
v vedru S3, ki se začne zgluedataqualitystudio-*
. - o ciljna izberite meni Amazon S3.
- Izberite Podatkovni cilj – vedro S3 vozlišče.
- o Lastnosti podatkovnih ciljev - S3 zavihek, za oblikovana, izberite ParketIn za Vrsta stiskanja, izberite Snappy.
- za S3 Ciljna lokacija, izberite Prebrskaj S3 in se pomaknite do predpone
/datalake/curated/customer/
v vedru S3, ki se začne zgluedataqualitystudio-*
. - Izberite Shrani, nato izberite Run.
Podrobnosti o izvajanju opravila si lahko ogledate na zavihku Poteki. V našem primeru opravilo ne uspe s sporočilom o napaki »AssertionError: opravilo ni uspelo zaradi neuspešnih pravil DQ za vozlišče: .”
Rezultat kakovosti podatkov si lahko ogledate na zavihku Kakovost podatkov. V našem primeru preverjanje kakovosti podatkov po meri ni uspelo, ker je imela ena od vrstic v naboru podatkov štTelephone
orEmail
vrednost.Rezultati ocene kakovosti podatkov so prav tako zapisani v vedro S3 v formatu JSON na podlagi parametra lokacije rezultata kakovosti podatkov vozlišča. - Pomaknite se na
dqresults
predpono pod vedro S3, ki se začnegluedataqualitystudio-*
. Videli boste, da je rezultat kakovosti podatkov razdeljen po datumu.
Sledi izhod datoteke JSON. Ta izhod datoteke lahko uporabite za izdelavo nadzornih plošč za vizualizacijo kakovosti podatkov po meri.
Lahko tudi spremljate Ocenite kakovost podatkov vozlišče skozi amazoncloudwatch metrike in nastavite alarme za pošiljanje obvestil o rezultatih kakovosti podatkov. Če želite izvedeti več o tem, kako nastaviti alarme CloudWatch, glejte Uporaba alarmov Amazon CloudWatch.
Čiščenje
Da se izognete prihodnjim stroškom in počistite neuporabljene vloge in pravilnike, izbrišite vire, ki ste jih ustvarili:
- Izbriši
GlueDataQualityStudio
delo, ki ste ga ustvarili v okviru te objave. - Na konzoli AWS CloudFormation izbrišite
GlueDataQualityStudio
kup.
zaključek
AWS Glue Data Quality ponuja preprost način za merjenje in spremljanje kakovosti podatkov vašega cevovoda ETL. V tej objavi ste se naučili, kako izvesti potrebna dejanja na podlagi rezultatov kakovosti podatkov, kar vam pomaga ohranjati visoke standarde podatkov in sprejemati samozavestne poslovne odločitve.
Če želite izvedeti več o kakovosti podatkov AWS Glue, si oglejte dokumentacijo:
O avtorjih
Deenbandhu Prasad je višji strokovnjak za analitiko pri AWS, specializiran za storitve velikih podatkov. Strastno želi pomagati strankam zgraditi sodobno podatkovno arhitekturo v oblaku AWS. Strankam vseh velikosti je pomagal uvesti rešitve za upravljanje podatkov, skladišče podatkov in podatkovno jezero.
Yannis Mentekidis je višji inženir za razvoj programske opreme v skupini AWS Glue.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- O meni
- dostop
- Račun
- natančna
- potrditi
- Ukrep
- dejavnosti
- po
- vsi
- omogoča
- že
- Amazon
- analitika
- in
- Arhitektura
- AWS
- Oblikovanje oblaka AWS
- AWS lepilo
- Slab
- slabi podatki
- temeljijo
- ker
- pred
- Big
- Big Podatki
- izgradnjo
- Building
- poslovni
- primeru
- Stroški
- preveriti
- Pregledi
- Izberite
- Cloud
- Stolpec
- Skupno
- dokončanje
- Prepričani
- Razmislite
- Konzole
- Potrošniki
- Korupcija
- ustvarjajo
- ustvaril
- Oblikovanje
- kurirano
- po meri
- stranka
- Stranke, ki so
- prilagodite
- datum
- Data jezero
- Upravljanje podatkov
- Datum
- odločitve
- Podrobnosti
- Razvoj
- neposredno
- Dokumentacija
- enostavno
- urednik
- E-naslov
- inženir
- Inženirji
- Vnesite
- Napaka
- Eter (ETH)
- oceniti
- Primer
- obstaja
- izkušnje
- Pojasnite
- ekstrakt
- ni uspelo
- ne uspe
- Feature
- file
- prva
- po
- format
- iz
- funkcije
- Prihodnost
- ustvarila
- ustvarja
- pridobivanje
- pomagal
- pomoč
- Pomaga
- visoka
- visoka kvaliteta
- Kako
- Kako
- Vendar
- HTML
- HTTPS
- Stotine
- identifikacijo
- identiteta
- izvajati
- in
- vključuje
- vhod
- Vprašanja
- IT
- Job
- Delovna mesta
- json
- Ključne
- Jezero
- UČITE
- naučili
- učenje
- obremenitev
- nalaganje
- kraj aktivnosti
- izgubiti
- stroj
- strojno učenje
- vzdrževati
- Znamka
- upravljanje
- upravljanje
- upravljanje
- Navodilo
- merjenje
- ukrepe
- Meni
- Sporočilo
- Meritve
- morda
- sodobna
- monitor
- monitorji
- več
- več
- Krmarjenje
- ostalo
- potrebno
- potrebe
- Naslednja
- Vozel
- Obvestila
- predmeti
- Ponudbe
- ONE
- odprite
- drugače
- podokno
- parameter
- del
- strastno
- Dovoljenje
- plinovod
- dajanje
- platon
- Platonova podatkovna inteligenca
- PlatoData
- plus
- politike
- Prispevek
- Pripravimo
- predstaviti
- preprečiti
- predogled
- prejšnja
- primarni
- Procesi
- Lastnosti
- zagotavljajo
- zagotavlja
- kakovost
- Hitro
- Surovi
- Preberi
- nedavno
- okolica
- zahteva
- obvezna
- viri
- povzroči
- Rezultati
- pregleda
- vloga
- vloge
- ROW
- Pravilo
- pravila
- Run
- Enako
- Iskalnik
- Oddelek
- Serija
- Storitev
- Storitve
- nastavite
- nastavitev
- nastavitev
- Prikaži
- Razstave
- podpisati
- Enostavno
- velikosti
- So
- Software
- Razvoj programske opreme
- Rešitev
- rešitve
- vir
- specialist
- specializacijo
- sveženj
- standardi
- Začetek
- začel
- Začetek
- Korak
- Koraki
- shranjevanje
- studio
- Suit
- sintetično
- Bodite
- ciljna
- Naloga
- skupina
- Predloga
- O
- tisoče
- skozi
- krat
- do
- danes
- orodja
- Transform
- preoblikovanje
- Zaupajte
- pod
- osnovni
- edinstven
- neuporabljeno
- uporaba
- primeru uporabe
- Uporabniki
- navadno
- POTRDI
- potrjevanje
- vrednost
- različnih
- Poglej
- vizualizacija
- Počakaj
- ali
- ki
- bo
- brez
- deluje
- pisati
- pisanje
- pisni
- Vaša rutina za
- zefirnet