Tänapäeval kasutavad sajad tuhanded kliendid andmejärvi analüütika ja masinõppe jaoks. Andmeinsenerid peavad aga need andmed enne kasutamist puhastama ja ette valmistama. Alusandmed peavad olema täpsed ja värsked, et klient saaks teha kindlaid äriotsuseid. Vastasel juhul kaotavad andmetarbijad andmete vastu usalduse ja teevad ebaoptimaalseid või valesid otsuseid. Andmeinseneride tavaline ülesanne on hinnata, kas andmed on täpsed ja värsked või mitte. Tänapäeval on erinevaid andmekvaliteedi tööriistu. Levinud andmekvaliteedi tööriistad nõuavad aga andmete kvaliteedi jälgimiseks tavaliselt käsitsi protsesse.
AWS Glue Data Quality on eelvaatefunktsioon AWS liim mis mõõdab ja jälgib andmete kvaliteeti Amazoni lihtne salvestusteenus (Amazon S3) andmejärvede ja AWS-is liimi ekstraktimise, teisendamise ja laadimise (ETL) tööd. See on avatud eelvaate funktsioon, nii et see on teie kontol juba lubatud saadaolevad piirkonnad. Saate hõlpsasti määratleda ja mõõta andmete kvaliteedi kontrolle AWS Glue Studio konsoolis ilma koode kirjutamata. See lihtsustab teie kogemust andmete kvaliteedi haldamisel.
See postitus on nelja postitusega seeria 2. osa, et selgitada, kuidas AWS-i liimiandmete kvaliteet töötab. Vaadake selle seeria eelmist postitust:
Selles postituses näitame, kuidas luua AWS-liimi töö, mis mõõdab ja jälgib andmekonveieri andmete kvaliteeti. Samuti näitame, kuidas andmekvaliteedi tulemuste põhjal meetmeid võtta.
Lahenduse ülevaade
Vaatleme näidet, mille puhul andmeinsener peab koostama andmekonveieri, et neelata andmed töötlemata tsoonist andmejärve kureeritud tsooni. Andmeinsenerina on üks teie peamisi kohustusi – lisaks andmete ekstraheerimisele, teisendamisele ja laadimisele – andmete kvaliteedi kinnitamine. Andmekvaliteedi probleemide varane tuvastamine aitab vältida halbade andmete paigutamist kureeritud tsooni ja vältida raskeid andmete riknemise juhtumeid.
Sellest postitusest saate teada, kuidas seda hõlpsalt seadistada sisseehitatud ja tava kontrollib teie AWS-liimi töö andmete valideerimist, et vältida halbade andmete rikkumist allavoolu kõrgekvaliteedilisi andmeid.
Selle postituse jaoks kasutatav andmestik on loodud sünteetiliselt; järgmisel ekraanipildil on näide andmetest.
Seadistage ressursse AWS CloudFormationiga
See postitus sisaldab AWS CloudFormation mall kiireks seadistamiseks. Saate selle üle vaadata ja oma vajadustele vastavaks kohandada.
CloudFormationi mall loob järgmised ressursid.
- Amazon Simple Storage Service (Amazon S3) ämber (
gluedataqualitystudio-*
). - Järgmised eesliited ja objektid S3 ämbris:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- AWS-i identiteedi- ja juurdepääsuhaldus (IAM) kasutajad, rollid ja eeskirjad. IAM-i roll (
GlueDataQualityStudio-*
) omab luba S3 ämbrist lugeda ja kirjutada. - AWS Lambda funktsioonid ja IAM-poliitikad, mida need funktsioonid selle virna loomiseks ja kustutamiseks nõuavad.
Ressursside loomiseks toimige järgmiselt.
- Logige sisse AWS CloudFormationi konsool aasta
us-east-1
Piirkond. - Vali Käivitage Stack:
- valima Tunnistan, et AWS CloudFormation võib luua IAM-i ressursse.
- Vali Loo virn ja oodake, kuni virna loomise etapp on lõpule viidud.
Rakenda lahendus
Lahenduse konfigureerimise alustamiseks toimige järgmiselt.
- Kohta AWS Glue Studio konsool, vali Tööturg navigeerimispaanil.
- valima Visuaal tühja lõuendiga Ja vali Looma.
- Vali töö üksikasjad vahekaarti töö konfigureerimiseks.
- eest Nimi, sisenema
GlueDataQualityStudio
. - eest IAM-i roll, valige roll, alustades tähega
GlueDataQualityStudio-*
. - eest Liimi versioon, vali 3.0. liim.
- eest Töö järjehoidja, vali Keela. See võimaldab teil seda tööd sama sisendandmestikuga mitu korda käivitada.
- eest Korduskatsete arv, sisenema
0
. - aasta Täiustatud omadused jaotises esitage CloudFormationi malliga loodud S3-salv (alates
gluedataqualitystudio-*
). - Vali Säästa.
- Pärast töö salvestamist valige Visuaalne vahekaardil ja allikas menüüst valige Amazon S3.
- Kohta Andmeallika omadused – S3 vahekaart, jaoks S3 allika tüüpvalige S3 asukoht.
- Vali Sirvige S3 ja navigeerige eesliitele
/datalake/raw/customer/
S3 ämbris alustadesgluedataqualitystudio-*
. - Vali Järelda skeem.
- Kohta tegevus menüüst valige Andmete kvaliteedi hindamine.
- Vali Andmete kvaliteedi hindamine sõlm.
Kohta Muutma vahekaardil, saate nüüd hakata koostama andmekvaliteedi reegleid. Esimene reegel, mille loote, on kontrollida, kasCustomer_ID
on ainulaadne ega ole tühi, kasutadesisPrimaryKey
reegel - Kohta Reeglitüübid tab DQDL-i reeglite koostaja, otsima
isprimarykey
ja valige plussmärk. - Kohta Skeem tab DQDL-i reeglite koostaja, valige kõrval olev plussmärk
Customer_ID
. - Kustutage reegliredaktoris
id
.
Järgmine reegel, mille lisame, kontrollib, etFirst_Name
veeru väärtus on kõigi ridade jaoks olemas. - Andmekvaliteedi reeglid saate sisestada ka otse reegliredaktorisse. Lisage koma (,) ja sisestage
IsComplete "First_Name",
pärast esimest reeglit.
Järgmisena lisate kohandatud reegli, mis kinnitab, et rida pole olemasTelephone
orEmail
. - Sisestage reegliredaktorisse järgmine kohandatud reegel:
Funktsioon Andmekvaliteedi hindamine pakub toiminguid töö tulemuste haldamiseks töökvaliteedi tulemuste põhjal. - Selle postituse jaoks valige Ebaõnnestumine, kui andmete kvaliteet ebaõnnestub Ja vali Ebaõnnestunud töö ilma sihtmärki laadimata andmed tegevused. Aastal Andmekvaliteedi väljundi seadistus Valige jaotises Sirvige S3 ja navigeerige eesliitele
dqresults
S3 ämbris alustadesgluedataqualitystudio-*
. - Kohta sihtmärk menüüst valige Amazon S3.
- Vali Andmete sihtmärk – S3 ämber sõlm.
- Kohta Andmete sihtmärgi omadused – S3 vahekaart, jaoks vorming, vali ParkettNing Kompressiooni tüüp, vali Vihane.
- eest S3 Sihtkoht, vali Sirvige S3 ja navigeerige eesliitele
/datalake/curated/customer/
S3 ämbris alustadesgluedataqualitystudio-*
. - Vali Säästa, siis vali jooks.
Töö üksikasju saate vaadata vahekaardil Käitamised. Meie näites töö nurjub veateate "AssertionError: töö nurjus sõlme DQ reeglite ebaõnnestumise tõttu: .”
Andmekvaliteedi tulemusi saate vaadata vahekaardil Andmete kvaliteet. Meie näites ebaõnnestus kohandatud andmekvaliteedi valideerimine, kuna andmestiku ühel real ei olnud ühtegi ridaTelephone
orEmail
väärtus.Evaluate Data Quality tulemused kirjutatakse ka S3 ämbrisse JSON-vormingus, võttes aluseks sõlme andmekvaliteedi tulemuse asukoha parameetri. - Liigu
dqresults
eesliide S3 ämbri all, alustadesgluedataqualitystudio-*
. Näete, et andmekvaliteedi tulemus on kuupäeva järgi jaotatud.
Järgmine on JSON-faili väljund. Saate seda failiväljundit kasutada kohandatud andmekvaliteedi visualiseerimise armatuurlaudade loomiseks.
Samuti saate jälgida Andmete kvaliteedi hindamine sõlm läbi Amazon CloudWatch mõõdikuid ja seadistada häireid, et saata teateid andmekvaliteedi tulemuste kohta. Lisateavet CloudWatchi häirete seadistamise kohta leiate artiklist Amazon CloudWatchi häirete kasutamine.
Koristage
Edaspidiste tasude vältimiseks ning kasutamata rollide ja eeskirjade puhastamiseks kustutage loodud ressursid.
- Kustuta see
GlueDataQualityStudio
töö, mille lõite selle postituse osana. - Kustutage AWS CloudFormationi konsoolis
GlueDataQualityStudio
virn.
Järeldus
AWS Glue Data Quality pakub lihtsat viisi ETL-i konveieri andmekvaliteedi mõõtmiseks ja jälgimiseks. Sellest postitusest õppisite, kuidas andmekvaliteedi tulemuste põhjal vajalikke toiminguid teha, mis aitab teil säilitada kõrgeid andmestandardeid ja teha enesekindlaid äriotsuseid.
AWS-i liimiandmete kvaliteedi kohta lisateabe saamiseks vaadake dokumentatsiooni:
Autoritest
Deenbandhu Prasad on AWS-i vanemanalüüsispetsialist, kes on spetsialiseerunud suurandmeteenustele. Ta soovib kirglikult aidata klientidel luua AWS-i pilves kaasaegset andmearhitektuuri. Ta on aidanud igas suuruses klientidel rakendada andmehalduse, andmelao ja andmejärve lahendusi.
Yannis Mentekidis on AWS Glue'i meeskonna tarkvaraarenduse vaneminsener.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- MEIST
- juurdepääs
- konto
- täpne
- kinnitada
- tegevus
- meetmete
- pärast
- Materjal: BPA ja flataatide vaba plastik
- võimaldab
- juba
- Amazon
- analytics
- ja
- arhitektuur
- AWS
- AWS CloudFormation
- AWS liim
- Halb
- halvad andmed
- põhineb
- sest
- enne
- Suur
- Big andmed
- ehitama
- Ehitus
- äri
- juhul
- koormuste
- kontrollima
- Kontroll
- Vali
- Cloud
- Veerg
- ühine
- täitma
- kindel
- Arvestama
- konsool
- Tarbijad
- Korruptsioon
- looma
- loodud
- loomine
- kureeritud
- tava
- klient
- Kliendid
- kohandada
- andmed
- andmejärv
- andmehaldus
- kuupäev
- otsused
- detailid
- & Tarkvaraarendus
- otse
- dokumentatsioon
- kergesti
- toimetaja
- insener
- Inseneride
- sisene
- viga
- Eeter (ETH)
- hindama
- näide
- olemas
- kogemus
- Selgitama
- väljavõte
- Ebaõnnestunud
- ei
- tunnusjoon
- fail
- esimene
- Järel
- formaat
- Alates
- funktsioonid
- tulevik
- loodud
- genereerib
- saamine
- aitas
- aidates
- aitab
- Suur
- kvaliteetne
- Kuidas
- Kuidas
- aga
- HTML
- HTTPS
- sajad
- identifitseerimiseks
- Identity
- rakendada
- in
- hõlmab
- sisend
- küsimustes
- IT
- töö
- Tööturg
- Json
- Võti
- järv
- Õppida
- õppinud
- õppimine
- koormus
- laadimine
- liising
- kaotama
- masin
- masinõpe
- säilitada
- tegema
- juhtima
- juhtimine
- juhtiv
- käsiraamat
- mõõtma
- meetmed
- menüü
- sõnum
- Meetrika
- võib
- Kaasaegne
- Jälgida
- monitorid
- rohkem
- mitmekordne
- Navigate
- NAVIGATSIOON
- vajalik
- vajadustele
- järgmine
- sõlme
- teated
- esemeid
- Pakkumised
- ONE
- avatud
- muidu
- pane
- parameeter
- osa
- kirglik
- luba
- torujuhe
- paigutamine
- Platon
- Platoni andmete intelligentsus
- PlatoData
- pluss
- Poliitika
- post
- Valmistama
- esitada
- vältida
- Eelvaade
- eelmine
- esmane
- Protsessid
- omadused
- anda
- annab
- kvaliteet
- Kiire
- Töötlemata
- Lugenud
- hiljuti
- piirkond
- nõudma
- nõutav
- Vahendid
- kaasa
- Tulemused
- läbi
- Roll
- rollid
- ROW
- Eeskiri
- eeskirjade
- jooks
- sama
- Otsing
- Osa
- Seeria
- teenus
- Teenused
- komplekt
- kehtestamine
- seade
- näitama
- Näitused
- kirjutama
- lihtne
- suurused
- So
- tarkvara
- tarkvaraarenduse
- lahendus
- Lahendused
- allikas
- spetsialist
- spetsialiseerunud
- Kestab
- standardite
- algus
- alustatud
- Käivitus
- Samm
- Sammud
- ladustamine
- stuudio
- Kostüüm
- sünteetiliselt
- Võtma
- sihtmärk
- Ülesanne
- meeskond
- šabloon
- .
- tuhandeid
- Läbi
- korda
- et
- täna
- töövahendid
- Muutma
- transformeerivate
- Usalda
- all
- aluseks
- ainulaadne
- kasutamata
- kasutama
- kasutage juhtumit
- Kasutajad
- tavaliselt
- KINNITAGE
- kinnitamine
- väärtus
- eri
- vaade
- visualiseerimine
- ootama
- kas
- mis
- will
- ilma
- töötab
- kirjutama
- kirjutamine
- kirjalik
- Sinu
- sephyrnet