Ettevõtted koguvad iga päev üha rohkem andmeid, et juhtida selliseid protsesse nagu otsustamine, aruandlus ja masinõpe (ML). Enne andmete puhastamist ja muutmist peate kindlaks tegema, kas need sobivad kasutamiseks. Valed, puuduvad või valesti vormindatud andmed võivad avaldada suurt mõju järgnevatele analüüsidele ja ML-protsessidele. Andmekvaliteedi kontrollimine aitab tuvastada probleeme töövoo alguses, et saaksite need kiiremini lahendada. Lisaks aitab nende kontrollimiste tegemine sündmusepõhise arhitektuuri abil vähendada käsitsi puutepunkte ja mastaapi suureneva andmehulga korral.
AWS Glue DataBrew on visuaalne andmete ettevalmistamise tööriist, mille abil on lihtne leida andmete kvaliteedistatistikat (nt dubleerivad väärtused, puuduvad väärtused ja kõrvalekalded). Samuti saate DataBrewis seadistada andmekvaliteedi reeglid, et teha tingimuslikke kontrolle, mis põhinevad teie ainulaadsetel ärivajadustel. Näiteks võib tootjal olla vaja tagada, et konkreetselt a-s ei oleks dubleerivaid väärtusi Part ID
veerus või tervishoiuteenuse osutaja võib neid väärtusi veerus kontrollida SSN
veerud on teatud pikkusega. Pärast nende reeglite loomist ja kinnitamist DataBrewiga saate kasutada Amazon EventBridge, AWS-i astmefunktsioonid, AWS Lambdaja Amazoni lihtne teavitusteenus (Amazon SNS), et luua automaatne töövoog ja saata teatis, kui reegel ei läbi valideerimiskontrolli.
Selles postituses tutvustame teile täielikku töövoogu ja seda, kuidas seda lahendust rakendada. See postitus sisaldab samm-sammult õpetust, an AWS-i serverita rakendusmudel (AWS SAM) malli ja näidiskoodi, mida saate kasutada rakenduse juurutamiseks oma AWS-i keskkonnas.
Lahenduse ülevaade
Selle postituse lahendus kombineerib serverita AWS-teenused, et luua andmete kvaliteedi kontrollimiseks täielikult automatiseeritud, otspunktist lõpuni sündmustepõhine torujuhe. Järgmine diagramm illustreerib meie lahenduse arhitektuuri.
Lahenduse töövoog sisaldab järgmisi samme.
- Kui laadite oma Amazoni lihtne salvestusteenus (Amazon S3) ämber, sündmused saadetakse EventBridge'i.
- EventBridge'i reegel käivitab sammufunktsioonide olekumasina käivitumise.
- Olekumasin käivitab DataBrew profiilitöö, mis on konfigureeritud andmekvaliteedi reeglistiku ja reeglitega. Kui kaalute sarnase lahenduse loomist, peaksid DataBrew profiili töö väljundi asukoht ja lähteandmete S3 ämbrid olema ainulaadsed. See hoiab ära rekursiivse töökäimise. Me kasutame oma ressursse koos AWS CloudFormation mall, mis loob ainulaadsed S3 ämbrid.
- Lambda funktsioon loeb Amazon S3 andmekvaliteedi tulemusi ja tagastab olekumasinasse Boole'i vastuse. Funktsioon tagastab
false
kui üks või mitu reeglit reeglistikus ebaõnnestuvad, ja tagastabtrue
kui kõik reeglid õnnestuvad. - Kui Boole'i vastus on
false
, saadab olekumasin Amazon SNS-iga meiliteate ja olekumasin lõpeb afailed
olek. Kui Boole'i vastus ontrue
, olekumasin lõpeb tähega asucceed
olek. Selles etapis saate lahendust laiendada ka muude toimingute tegemiseks edu või ebaõnnestumise korral. Näiteks kui kõik reeglid õnnestuvad, võite saata EventBridge'i sõnumi, et käivitada DataBrew's uus teisendustöö.
Selles postituses kasutate AWS CloudFormationi sündmustepõhise andmekvaliteedi valideerimise lahenduse täielikult toimiva demo juurutamiseks. Testite lahendust, laadides Amazon S3-sse üles kehtiva komadega eraldatud väärtuste (CSV) faili, millele järgneb kehtetu CSV-fail.
Sammud on järgmised:
- Lahendusressursside juurutamiseks käivitage CloudFormationi virn.
- Testige lahendust:
- Laadige Amazon S3-sse üles kehtiv CSV-fail ja jälgige andmekvaliteedi valideerimist ja sammufunktsioonide olekumasinat.
- Laadige Amazon S3-sse üles kehtetu CSV-fail ja jälgige andmete kvaliteedi kontrollimise ja sammufunktsioonide olekumasina tõrkeid ning saage Amazon SNS-ilt meiliteatis.
Kogu näidiskoodi leiate aadressilt GitHubi hoidla.
Eeldused
Selle ülevaate jaoks peaksid teil olema järgmised eeltingimused.
Juurutage lahendusressursid AWS CloudFormationi abil
Sündmuspõhise andmekvaliteedi valideerimise lahenduse jaoks vajalike ressursside juurutamiseks kasutate CloudFormationi pinu. Virn sisaldab DataBrew'i näidisandmestikku ja reeglistikku.
- Logige sisse oma AWS-i kontole ja seejärel valige Käivitage Stack:
- Kohta Kiire virna loomine leht, jaoks E-posti aadress, sisestage Amazon SNS-i meiliteatiste jaoks kehtiv e-posti aadress.
- Jätke ülejäänud valikud vaikeseadetele.
- Märkige kinnituse märkeruudud.
- Vali Loo virn.
CloudFormationi virna jõudmiseks kulub umbes 5 minutit CREATE_COMPLETE
status.
- Kontrollige sisestatud e-posti aadressi postkasti ja nõustuge SNS-i tellimusega.
Peate tellimuskinnituse üle vaatama ja sellega nõustuma, et tutvustada juhendi lõpus e-posti teavitusfunktsiooni.
Kohta Väljundid virna vahekaardilt leiate URL-id, et sirvida malli loodud DataBrew ja Step Functionsi ressursse. Pange tähele ka täidetud AWS-i CLI-käske, mida kasutate hilisemates etappides.
Kui valite AWSGlueDataBrewRuleset
väärtuse link, peaksite nägema reeglistiku üksikasjade lehte, nagu järgmisel ekraanipildil. Selles ülevaates loome kolme reegliga andmekvaliteedi reeglistiku, mis kontrollivad puuduvad väärtused, kõrvalekalded ja stringi pikkus.
Testige lahendust
Järgmistes sammudes kasutate AWS-i CLI-d, et laadida üles CSV-faili õiged ja valed versioonid, et testida sündmustepõhise andmekvaliteedi valideerimise lahendust.
- Avage terminali või käsurea viip ja kasutage näidisandmete allalaadimiseks AWS-i CLI-d. Kasutage võtme nimega käsku CloudFormationi virna väljundist
CommandToDownloadTestData
: - Kasutage muutmata CSV-faili oma S3 ämbrisse üleslaadimiseks uuesti AWS-i CLI-d. Vahetage string välja oma ämbri nimega või kopeerige ja kleepige CloudFormationi malli väljundist teile antud käsk:
- Otsige sammufunktsioonide konsoolil üles CloudFormationi malliga loodud olekumasin.
URL-i leiate varem mainitud CloudFormationi väljunditest.
- Kohta Hukkamised vahekaardil peaksite nägema olekumasina uut käitamist.
- Valige käitamise URL, et vaadata olekumasina graafikut ja jälgida selle edenemist.
Järgmine pilt näitab meie olekumasina töövoogu.
Andmekvaliteedireegli tõrke demonstreerimiseks teete vähemalt ühe muudatuse votes.csv
faili.
- Avage fail eelistatud tekstiredaktoris või arvutustabelitööriistas ja kustutage ainult üks lahter.
Järgmistel ekraanipiltidel kasutan Linuxis GNU nano redaktorit. Lahtri kustutamiseks saate kasutada ka arvutustabeliredaktorit. See põhjustab reegli „Kontrolli, kas kõik veerud puuduvad väärtused” ebaõnnestub.
Järgmine ekraanipilt näitab CSV-faili enne muutmist.
Järgmine ekraanipilt näitab muudetud CSV-faili.
- Salvestage muudetud
votes.csv
faili ja naaske käsureale või terminali. - Kasutage faili veel kord oma S3 ämbrisse üleslaadimiseks AWS-i CLI-d. Kasutate sama käsku nagu varem:
- Liikuge sammufunktsioonide konsoolil selle jälgimiseks uusima olekumasina käitamise juurde.
Andmekvaliteedi kinnitamine nurjub, käivitades SNS-i meiliteatise ja tõrke olekumasina üldises töös.
Järgmine pilt näitab ebaõnnestunud olekumasina töövoogu.
Järgmisel ekraanipildil on SNS-meili näide.
- Saate uurida reegli tõrget DataBrew konsoolil, valides
AWSGlueDataBrewProfileResults
väärtus CloudFormationi virna väljundites.
Koristage
Edaspidiste tasude vältimiseks kustutage ressursid. Kustutage AWS CloudFormationi konsoolil nimega virn AWSBigDataBlogDataBrewDQSample
.
Järeldus
Sellest postitusest õppisite, kuidas luua automatiseeritud sündmustepõhiseid andmekvaliteedi valideerimise torujuhtmeid. DataBrew'ga saate määrata oma äritegevuse ja tehniliste nõuete jaoks andmekvaliteedi reeglid, läved ja reeglistikud. Step Functions, EventBridge ja Amazon SNS võimaldavad teil luua keerulisi torujuhtmeid koos kohandatava veakäsitluse ja hoiatustega, mis on kohandatud teie vajadustele.
Selle lahenduse ja lähtekoodi kohta saate lisateavet külastades GitHubi hoidla. DataBrew andmete kvaliteedireeglite kohta lisateabe saamiseks külastage veebisaiti AWS Glue DataBrew võimaldab nüüd klientidel luua andmekvaliteedireegleid, et määratleda ja kinnitada oma ärinõudeid või viidata Andmekvaliteedi kinnitamine rakenduses AWS Glue DataBrew.
Autoritest
Laith Al-Saadoon on Envision Engineering meeskonna peamine prototüüpimise arhitekt. Ta loob prototüüpe ja lahendusi, kasutades tehisintellekti, masinõpet, asjade interneti ja servade andmetöötlust, voogesitusanalüütikat, robootikat ja ruumilist andmetöötlust, et lahendada tegelikke klientide probleeme. Vabal ajal naudib Laith väljas tegevusi, nagu fotograafia, droonilennud, matkamine ja paintballi mängimine.
Gordon Burgess on AWS Glue DataBrew vanem tootejuht. Ta soovib kirglikult aidata klientidel oma andmetest teadmisi leida ning keskendub kasutajakogemuste loomisele ja analüüsitoodete rikkalikule funktsionaalsusele. Väljaspool tööd naudib Gordon lugemist, kohvitamist ja arvutite ehitamist.
- '
- &
- 100
- 107
- 7
- MEIST
- konto
- tegevus
- aadress
- AI
- Materjal: BPA ja flataatide vaba plastik
- Amazon
- analytics
- taotlus
- arhitektuur
- Automatiseeritud
- AWS
- ehitama
- Ehitus
- äri
- koormuste
- Kontroll
- puhastamine
- kood
- Kohv
- Veerg
- keeruline
- arvutid
- arvutustehnika
- konsool
- Kliendid
- andmed
- andmete kvaliteedi
- päev
- avastama
- undamine
- serv
- servaarvutus
- toimetaja
- lõppeb
- Inseneriteadus
- keskkond
- sündmused
- näide
- Kogemused
- ebaedu
- kiiremini
- tunnusjoon
- sobima
- Piletid
- avastatud
- tasuta
- funktsioon
- funktsioonid
- tulevik
- Kasvavad
- Käsitsemine
- tervishoid
- aitab
- matkamine
- Kuidas
- Kuidas
- HTTPS
- identifitseerima
- pilt
- rakendada
- teadmisi
- uurima
- asjade Interneti
- küsimustes
- IT
- töö
- Võti
- suur
- hiljemalt
- Õppida
- õppinud
- õppimine
- joon
- LINK
- Linux
- liising
- masinõpe
- Tootja
- ML
- rohkem
- nano
- vaja
- teade
- Valikud
- et
- Muu
- väljas
- fotograafia
- Peamine
- Toode
- Toodet
- profiil
- prototüüpimine
- tarnija
- kvaliteet
- Lugemine
- vähendama
- asendama
- Nõuded
- Vahendid
- vastus
- Tulemused
- Tulu
- läbi
- robootika
- eeskirjade
- jooks
- Skaala
- Serverita
- Teenused
- komplekt
- sarnane
- lihtne
- So
- Lahendused
- LAHENDAGE
- ruumiline
- ruumiline andmetöötlus
- eriti
- Arvutustabel
- riik
- statistika
- olek
- ladustamine
- streaming
- tellimine
- edu
- Tehniline
- terminal
- test
- Allikas
- Läbi
- aeg
- tööriist
- Transformation
- transformeerivate
- juhendaja
- väärtus
- vaade
- Töö
- töövoog