Podjetja vsak dan zbirajo vedno več podatkov za vodenje procesov, kot so odločanje, poročanje in strojno učenje (ML). Pred čiščenjem in preoblikovanjem podatkov morate ugotoviti, ali so primerni za uporabo. Nepravilni, manjkajoči ali napačno oblikovani podatki imajo lahko velik vpliv na nadaljnjo analitiko in procese ML. Izvajanje preverjanj kakovosti podatkov pomaga prepoznati težave prej v vašem delovnem toku, da jih lahko hitreje rešite. Poleg tega vam izvajanje teh preverjanj z uporabo arhitekture, ki temelji na dogodkih, pomaga zmanjšati ročne dotične točke in povečati obseg z naraščajočimi količinami podatkov.
AWS lepilo DataBrew je vizualno orodje za pripravo podatkov, ki olajša iskanje statističnih podatkov o kakovosti podatkov, kot so podvojene vrednosti, manjkajoče vrednosti in odstopanja v vaših podatkih. Prav tako lahko nastavite pravila kakovosti podatkov v DataBrew za izvajanje pogojnih pregledov na podlagi vaših edinstvenih poslovnih potreb. Na primer, proizvajalec bo morda moral zagotoviti, da ni podvojenih vrednosti posebej v a Part ID
ali pa lahko ponudnik zdravstvenih storitev preveri te vrednosti v SSN
stolpec ima določeno dolžino. Ko ustvarite in potrdite ta pravila z DataBrew, lahko uporabite Amazon EventBridge, Korak funkcije AWS, AWS Lambdain Amazon Simple notification Service (Amazon SNS), da ustvarite avtomatiziran potek dela in pošljete obvestilo, ko pravilo ne prestane potrditvenega preverjanja.
V tej objavi vas vodimo skozi potek dela od konca do konca in kako uvesti to rešitev. Ta objava vključuje vadnico po korakih, an AWS Model brez strežnika (AWS SAM) predlogo in primer kode, ki jo lahko uporabite za uvedbo aplikacije v lastnem okolju AWS.
Pregled rešitev
Rešitev v tej objavi združuje brez strežnika Storitve AWS za izgradnjo popolnoma avtomatiziranega cevovoda, ki temelji na dogodkih od konca do konca, za preverjanje kakovosti podatkov. Naslednji diagram ponazarja našo arhitekturo rešitve.
Potek dela rešitve vsebuje naslednje korake:
- Ko naložite nove podatke v svoj Preprosta storitev shranjevanja Amazon (Amazon S3) vedro, dogodki se pošljejo v EventBridge.
- Pravilo EventBridge sproži zagon stroja stanja Step Functions.
- Stroj stanja zažene opravilo profila DataBrew, konfigurirano z naborom pravil kakovosti podatkov in pravili. Če razmišljate o gradnji podobne rešitve, morata biti izhodna lokacija opravila profila DataBrew in vedra S3 izvornih podatkov edinstvena. To preprečuje rekurzivno izvajanje opravil. Svoje vire uporabljamo z an Oblikovanje oblaka AWS predlogo, ki ustvari edinstvena vedra S3.
- Funkcija Lambda prebere rezultate kakovosti podatkov iz Amazon S3 in vrne logični odgovor v stanje stroja. Funkcija se vrne
false
če eno ali več pravil v naboru pravil ne uspe, in se vrnetrue
če vsa pravila uspejo. - Če je logični odgovor
false
, državni stroj pošlje e-poštno obvestilo z Amazon SNS in državni avtomat se konča z afailed
stanje. Če je logični odgovortrue
, se državni stroj konča z asucceed
stanje. Rešitev v tem koraku lahko razširite tudi na izvajanje drugih nalog ob uspehu ali neuspehu. Na primer, če so vsa pravila uspešna, lahko pošljete sporočilo EventBridge, da sprožite drugo transformacijsko opravilo v DataBrew.
V tej objavi uporabljate AWS CloudFormation za uvedbo popolnoma delujoče predstavitve rešitve za preverjanje kakovosti podatkov, ki temelji na dogodkih. Rešitev preizkusite tako, da v Amazon S3 naložite veljavno datoteko z vrednostmi, ločenimi z vejicami (CSV), ki ji sledi neveljavna datoteka CSV.
Koraki so naslednji:
- Zaženite sklad CloudFormation za uvedbo virov rešitve.
- Preizkusite rešitev:
- Naložite veljavno datoteko CSV v Amazon S3 in opazujte, kako je preverjanje kakovosti podatkov in stanje stroja Step Functions uspešno.
- Naložite neveljavno datoteko CSV v Amazon S3 in opazujte napako preverjanja kakovosti podatkov in stanje stroja stopenjskih funkcij ter prejmite e-poštno obvestilo Amazon SNS.
Vso vzorčno kodo lahko najdete v GitHub repozitorij.
Predpogoji
Za ta korak morate imeti naslednje predpogoje:
Razmestite vire rešitve z uporabo AWS CloudFormation
Sklad CloudFormation uporabljate za uvajanje virov, potrebnih za rešitev za preverjanje kakovosti podatkov, ki temelji na dogodkih. Sklad vključuje primer nabora podatkov in nabora pravil v DataBrew.
- Prijavite se v svoj račun AWS in nato izberite Izstrelite sklad:
- o Hitro ustvarjanje sklada stran, za Email naslov, vnesite veljaven e-poštni naslov za e-poštna obvestila Amazon SNS.
- Preostale možnosti pustite nastavljene na privzete.
- Izberite potrditvena polja za potrditev.
- Izberite Ustvari sklad.
Sklad CloudFormation dosežete v približno 5 minutah CREATE_COMPLETE
Status.
- Preverite mapo »Prejeto« e-poštnega naslova, ki ste ga navedli, in sprejmite naročnino na SNS.
Pregledati in sprejeti morate potrditev naročnine, da na koncu predstavitve prikažete funkcijo obveščanja po e-pošti.
o Izhodi na zavihku sklada lahko najdete URL-je za brskanje po virih DataBrew in Step Functions, ki jih je ustvarila predloga. Upoštevajte tudi dokončane ukaze AWS CLI, ki jih uporabite v kasnejših korakih.
Če izberete AWSGlueDataBrewRuleset
vrednost povezave, bi morali videti stran s podrobnostmi o naboru pravil, kot je na naslednjem posnetku zaslona. V tem uvodu ustvarimo nabor pravil o kakovosti podatkov s tremi pravili, ki preverjajo manjkajoče vrednosti, izstopajoče vrednosti in dolžino niza.
Preizkusite raztopino
V naslednjih korakih uporabite AWS CLI za nalaganje pravilnih in nepravilnih različic datoteke CSV, da preizkusite rešitev za preverjanje kakovosti podatkov, ki temelji na dogodkih.
- Odprite poziv terminala ali ukazne vrstice in uporabite AWS CLI za prenos vzorčnih podatkov. Uporabite ukaz iz izhoda sklada CloudFormation z imenom ključa
CommandToDownloadTestData
: - Ponovno uporabite AWS CLI, da naložite nespremenjeno datoteko CSV v vedro S3. Zamenjajte vrvico z vašim imenom vedra ali kopirajte in prilepite ukaz, ki ste ga prejeli iz izpisa predloge CloudFormation:
- Na konzoli Step Functions poiščite avtomat stanja, ki ga je ustvarila predloga CloudFormation.
URL lahko najdete v rezultatih CloudFormation, omenjenih prej.
- o Izvršitve bi morali videti nov zagon državnega stroja.
- Izberite URL zagona, da si ogledate graf stanja stroja in spremljate njegov napredek.
Naslednja slika prikazuje potek dela našega avtomata stanja.
Če želite prikazati neuspeh pravila o kakovosti podatkov, naredite vsaj eno urejanje v votes.csv
Datoteka.
- Odprite datoteko v želenem urejevalniku besedila ali orodju za preglednice in izbrišite samo eno celico.
Na naslednjih posnetkih zaslona uporabljam urejevalnik GNU nano v sistemu Linux. Za brisanje celice lahko uporabite tudi urejevalnik preglednic. To povzroči, da pravilo »Preveri vse stolpce za manjkajoče vrednosti« ne uspe.
Naslednji posnetek zaslona prikazuje datoteko CSV pred spremembo.
Naslednji posnetek zaslona prikazuje spremenjeno datoteko CSV.
- Shranite urejeno
votes.csv
datoteko in se vrnite v ukazni poziv ali terminal. - Uporabite AWS CLI, da še enkrat naložite datoteko v vedro S3. Uporabite isti ukaz kot prej:
- Na konzoli Step Functions se pomaknite do zadnjega zagona stroja stanja, da ga nadzirate.
Preverjanje kakovosti podatkov ne uspe, kar sproži e-poštno obvestilo SNS in neuspeh celotnega delovanja avtomata stanja.
Naslednja slika prikazuje potek dela okvarjenega avtomata stanja.
Naslednji posnetek zaslona prikazuje primer e-pošte SNS.
- Napako pravila lahko raziščete na konzoli DataBrew tako, da izberete
AWSGlueDataBrewProfileResults
vrednost v izhodih sklada CloudFormation.
Čiščenje
Da se izognete prihodnjim stroškom, izbrišite vire. Na konzoli AWS CloudFormation izbrišite imenovani sklad AWSBigDataBlogDataBrewDQSample
.
zaključek
V tej objavi ste se naučili, kako zgraditi avtomatizirane cevovode za preverjanje kakovosti podatkov, ki temeljijo na dogodkih. Z DataBrew lahko določite pravila o kakovosti podatkov, pragove in nabore pravil za vaše poslovne in tehnične zahteve. Step Functions, EventBridge in Amazon SNS vam omogočajo gradnjo zapletenih cevovodov s prilagodljivim obravnavanjem napak in opozarjanjem, prilagojenim vašim potrebam.
Več o tej rešitvi in izvorni kodi lahko izveste tako, da obiščete GitHub repozitorij. Če želite izvedeti več o pravilih kakovosti podatkov DataBrew, obiščite AWS Glue DataBrew zdaj omogoča strankam, da ustvarijo pravila o kakovosti podatkov, da definirajo in potrdijo svoje poslovne zahteve ali se sklicujte na Preverjanje kakovosti podatkov v AWS Glue DataBrew.
O avtorjih
Laith Al-Saadoon je glavni arhitekt prototipov v ekipi Envision Engineering. Gradi prototipe in rešitve z uporabo umetne inteligence, strojnega učenja, interneta stvari in robnega računalništva, pretočne analitike, robotike in prostorskega računalništva za reševanje težav strank v resničnem svetu. V prostem času Laith uživa v dejavnostih na prostem, kot so fotografiranje, leti z droni, pohodništvo in paintball.
Gordon Burgess je višji produktni vodja pri AWS Glue DataBrew. Strastno želi pomagati strankam pri odkrivanju vpogledov v njihove podatke in se osredotoča na ustvarjanje uporabniške izkušnje in bogate funkcionalnosti za analitične izdelke. Poleg službe Gordon uživa v branju, kavi in sestavljanju računalnikov.
- '
- &
- 100
- 107
- 7
- O meni
- Račun
- dejavnosti
- Naslov
- AI
- vsi
- Amazon
- analitika
- uporaba
- Arhitektura
- Avtomatizirano
- AWS
- izgradnjo
- Building
- poslovni
- Stroški
- Pregledi
- čiščenje
- Koda
- Kava
- Stolpec
- kompleksna
- računalniki
- računalništvo
- Konzole
- Stranke, ki so
- datum
- kakovosti podatkov
- dan
- odkriti
- True
- Edge
- robno računalništvo
- urednik
- E-naslov
- konča
- Inženiring
- okolje
- dogodki
- Primer
- Doživetja
- Napaka
- hitreje
- Feature
- fit
- Letalo
- je pokazala,
- brezplačno
- funkcija
- funkcije
- Prihodnost
- Pridelovanje
- Ravnanje
- zdravstveno varstvo
- Pomaga
- pohodništvo
- Kako
- Kako
- HTTPS
- identificirati
- slika
- izvajati
- vpogledi
- razišče
- Internet stvari
- Vprašanja
- IT
- Job
- Ključne
- velika
- Zadnji
- UČITE
- naučili
- učenje
- vrstica
- LINK
- linux
- kraj aktivnosti
- strojno učenje
- Proizvajalec
- ML
- več
- nano
- potrebna
- Obvestilo
- možnosti
- Da
- Ostalo
- Na prostem
- fotografija
- , ravnateljica
- Izdelek
- Izdelki
- profil
- prototipov
- Ponudnik
- kakovost
- reading
- zmanjša
- zamenjajte
- Zahteve
- viri
- Odgovor
- Rezultati
- vrne
- pregleda
- robotika
- pravila
- Run
- Lestvica
- Brez strežnika
- Storitve
- nastavite
- Podoben
- Enostavno
- So
- rešitve
- SOLVE
- prostorsko
- prostorsko računanje
- posebej
- Spreadsheet
- Država
- Statistika
- Status
- shranjevanje
- pretakanje
- naročnina
- uspeh
- tehnični
- terminal
- Test
- Vir
- skozi
- čas
- orodje
- Preoblikovanje
- preoblikovanje
- Navodila
- vrednost
- Poglej
- delo
- potek dela