Nykyään sadat tuhannet asiakkaat käyttävät datajärviä analytiikkaan ja koneoppimiseen. Tietosuunnittelijoiden on kuitenkin puhdistettava ja valmisteltava nämä tiedot ennen kuin niitä voidaan käyttää. Taustalla olevien tietojen on oltava tarkkoja ja tuoreita, jotta asiakas voi tehdä varmoja liiketoimintapäätöksiä. Muutoin datan kuluttajat menettävät luottamuksensa dataan ja tekevät epäoptimaalisia tai vääriä päätöksiä. Tietosuunnittelijoiden yleinen tehtävä on arvioida, ovatko tiedot tarkkoja ja tuoreita vai eivät. Nykyään on olemassa erilaisia tiedonlaadun työkaluja. Yleiset tiedonlaatutyökalut vaativat kuitenkin yleensä manuaalisia prosesseja tietojen laadun valvomiseksi.
AWS Glue Data Quality on esikatseluominaisuus AWS-liima joka mittaa ja valvoo tietojen laatua Amazonin yksinkertainen tallennuspalvelu (Amazon S3) datalakkeja ja AWS:ssä liima-, muunnos- ja lataustyöt (ETL). Tämä on avoin esikatseluominaisuus, joten se on jo käytössä tililläsi käytettävissä olevat alueet. Voit helposti määrittää ja mitata tietojen laadun tarkistuksia AWS Glue Studio -konsolissa ilman koodeja. Se yksinkertaistaa kokemustasi tietojen laadun hallinnasta.
Tämä viesti on osa 2 neljän tekstin sarjasta, jossa selitetään, kuinka AWS Glue Data Quality toimii. Katso edellinen postaus tässä sarjassa:
Tässä viestissä näytämme, kuinka luodaan AWS-liimatyö, joka mittaa ja valvoo dataputken tietojen laatua. Näytämme myös, kuinka toimia tietojen laadun tulosten perusteella.
Ratkaisun yleiskatsaus
Tarkastellaan esimerkkiä käyttötapauksesta, jossa tietosuunnittelijan on rakennettava dataliukuhihna, jotta se voi siirtää tiedot raakavyöhykkeestä datajärven kuratoidulle vyöhykkeelle. Tietosuunnittelijana yksi tärkeimmistä velvollisuuksistasi – tiedon poimimisen, muuntamisen ja lataamisen ohella – on tietojen laadun validointi. Tietojen laatuongelmien tunnistaminen etukäteen auttaa estämään huonojen tietojen sijoittamisen kuratoidulle vyöhykkeelle ja välttämään vaikeita tietojen korruptiotapauksia.
Tässä viestissä opit määrittämään sen helposti sisäänrakennettu ja asiakassuhde AWS Glue -työsi tietojen vahvistustarkistukset estämään huonoja tietoja turmelemasta loppupään korkealaatuisia tietoja.
Tässä viestissä käytetty tietojoukko on luotu synteettisesti; seuraavassa kuvakaappauksessa on esimerkki tiedoista.
Määritä resurssit AWS CloudFormationin avulla
Tämä viesti sisältää AWS-pilven muodostuminen malli nopeaa asennusta varten. Voit tarkistaa ja muokata sitä tarpeidesi mukaan.
CloudFormation-malli luo seuraavat resurssit:
- Amazon Simple Storage Service (Amazon S3) -ämpäri (
gluedataqualitystudio-*
). - Seuraavat etuliitteet ja objektit S3-ryhmässä:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) käyttäjät, roolit ja käytännöt. IAM-rooli (
GlueDataQualityStudio-*
) on lupa lukea ja kirjoittaa S3-ämpäriin. - AWS Lambda funktiot ja IAM-käytännöt, joita nämä funktiot vaativat tämän pinon luomiseen ja poistamiseen.
Luo resurssit suorittamalla seuraavat vaiheet:
- Kirjaudu sisään AWS CloudFormation -konsoli vuonna
us-east-1
Alue. - Valita Käynnistä pino:
- valita Tunnustan, että AWS CloudFormation saattaa luoda IAM-resursseja.
- Valita Luo pino ja odota pinon luontivaiheen valmistumista.
Toteuta ratkaisu
Aloita ratkaisun määrittäminen suorittamalla seuraavat vaiheet:
- On AWS Glue Studio -konsoli, valitse Työpaikat navigointipaneelissa.
- valita Visuaalinen tyhjällä kankaalla Ja valitse luoda.
- Valitse työ tiedot -välilehti määrittääksesi työn.
- varten Nimi, tulla sisään
GlueDataQualityStudio
. - varten IAM-rooli, valitse rooli alkaen
GlueDataQualityStudio-*
. - varten Liima versio, valitse Liima 3.0.
- varten Työn kirjanmerkki, valitse Poista. Näin voit suorittaa tämän työn useita kertoja samalla syöttötietojoukolla.
- varten Uudelleenyritysten määrä, tulla sisään
0
. - In Lisäominaisuudet -osiossa, anna CloudFormation-mallin luoma S3-säilö (alkaen
gluedataqualitystudio-*
). - Valita Säästä.
- Kun työ on tallennettu, valitse Visuaalinen -välilehti ja lähde valikosta, valitse Amazon S3.
- On Tietolähteen ominaisuudet - S3 välilehti S3 lähdetyyppivalitse S3 sijainti.
- Valita Selaa S3: ta ja siirry etuliitteeseen
/datalake/raw/customer/
S3-ämpäriin alkaengluedataqualitystudio-*
. - Valita Päättele skeema.
- On Toiminta valikosta, valitse Arvioi tietojen laatu.
- Valitse Arvioi tietojen laatu solmu.
On Muuttaa -välilehti, voit nyt alkaa rakentaa tietojen laatusääntöjä. Ensimmäinen luomasi sääntö on tarkistaa onkoCustomer_ID
on ainutlaatuinen eikä tyhjä käyttämälläisPrimaryKey
sääntö. - On Sääntötyypit välilehti DQDL-sääntöjen rakentaja, etsiä
isprimarykey
ja valitse plusmerkki. - On Malli välilehti DQDL-sääntöjen rakentaja, valitse vieressä oleva plusmerkki
Customer_ID
. - Poista sääntöeditorissa
id
.
Seuraava sääntö, jonka lisäämme, tarkistaa, ettäFirst_Name
sarakkeen arvo on läsnä kaikilla riveillä. - Voit myös kirjoittaa tietojen laatusäännöt suoraan sääntöeditoriin. Lisää pilkku (,) ja kirjoita
IsComplete "First_Name",
ensimmäisen säännön jälkeen.
Seuraavaksi lisäät mukautetun säännön varmistaaksesi, ettei riviä ole ilmanTelephone
orEmail
. - Kirjoita seuraava mukautettu sääntö sääntöeditoriin:
Arvioi tietojen laatu -ominaisuus tarjoaa toimintoja työn tuloksen hallitsemiseksi työn laadun tulosten perusteella. - Valitse tähän viestiin Epäonnistunut työ, kun tietojen laatu epäonnistuu Ja valitse Epäonnistunut työ ilman latauskohdetta tiedot Toiminnot. Vuonna Tiedonlaadun tulostusasetus osiossa, valitse Selaa S3: ta ja siirry etuliitteeseen
dqresults
S3-ämpäriin alkaengluedataqualitystudio-*
. - On Kohde valikosta, valitse Amazon S3.
- Valitse Tietokohde – S3-ämpäri solmu.
- On Datakohteen ominaisuudet - S3 välilehti muodostuu, valitse parketti, Ja Pakkaustyyppi, valitse Reipas.
- varten S3 Kohdepaikka, valitse Selaa S3: ta ja siirry etuliitteeseen
/datalake/curated/customer/
S3-ämpäriin alkaengluedataqualitystudio-*
. - Valita Säästä, valitse sitten ajaa.
Voit tarkastella työn suorittamisen tietoja Suoritukset-välilehdellä. Esimerkissämme työ epäonnistuu virheilmoituksella "AssertionError: Työ epäonnistui solmun DQ-sääntöjen epäonnistumisen vuoksi: .”
Voit tarkastella tietojen laatutulosta Tietojen laatu -välilehdellä. Esimerkissämme mukautetun tietojen laadun tarkistus epäonnistui, koska yhdellä tietojoukon riveistä ei ollut mitäänTelephone
orEmail
arvoa.Evaluate Data Quality -tulokset kirjoitetaan myös S3-ämpäriin JSON-muodossa solmun tiedonlaadun tuloksen sijaintiparametrin perusteella. - Navigoida johonkin
dqresults
etuliite S3-kauhan alla alkaengluedataqualitystudio-*
. Näet, että tietojen laadun tulos on ositettu päivämäärän mukaan.
Seuraava on JSON-tiedoston tulos. Voit käyttää tätä tiedostotulostetta mukautettujen tietojen laadun visualisoinnin koontinäyttöjen luomiseen.
Voit myös seurata Arvioi tietojen laatu solmun läpi amazonin pilvikello mittareita ja asettaa hälytyksiä lähettämään ilmoituksia tiedonlaadun tuloksista. Lisätietoja CloudWatch-hälytysten määrittämisestä on kohdassa Amazon CloudWatch -hälytysten käyttäminen.
Puhdistaa
Poista luomasi resurssit, jotta vältytään tulevilta maksuilta ja siivotaan käyttämättömät roolit ja käytännöt:
- Poista
GlueDataQualityStudio
työ, jonka loit osana tätä viestiä. - Poista AWS CloudFormation -konsolista
GlueDataQualityStudio
pino.
Yhteenveto
AWS Glue Data Quality tarjoaa helpon tavan mitata ja valvoa ETL-putkisi tiedon laatua. Tässä viestissä opit ryhtymään tarvittaviin toimenpiteisiin tietojen laadun tulosten perusteella, mikä auttaa sinua ylläpitämään korkeaa datastandardia ja tekemään varmoja liiketoimintapäätöksiä.
Saat lisätietoja AWS-liimatietojen laadusta tutustumalla dokumentaatioon:
Tietoja Tekijät
Deenbandhu Prasad on AWS:n vanhempi analytiikkaasiantuntija, joka on erikoistunut big datapalveluihin. Hän haluaa auttaa asiakkaita rakentamaan modernia dataarkkitehtuuria AWS-pilveen. Hän on auttanut kaikenkokoisia asiakkaita toteuttamaan tiedonhallinta-, tietovarasto- ja datajärviratkaisuja.
Yannis Mentekidis on vanhempi ohjelmistokehitysinsinööri AWS Glue -tiimissä.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- Meistä
- pääsy
- Tili
- tarkka
- tunnustaa
- Toiminta
- toimet
- Jälkeen
- Kaikki
- mahdollistaa
- jo
- Amazon
- Analytics
- ja
- arkkitehtuuri
- AWS
- AWS-pilven muodostuminen
- AWS-liima
- Huono
- huonoja tietoja
- perustua
- koska
- ennen
- Iso
- Big Data
- rakentaa
- Rakentaminen
- liiketoiminta
- tapaus
- maksut
- tarkastaa
- Tarkastukset
- Valita
- pilvi
- Sarake
- Yhteinen
- täydellinen
- luottavainen
- Harkita
- Console
- Kuluttajat
- korruptio
- luoda
- luotu
- luominen
- kuratoitu
- asiakassuhde
- asiakas
- Asiakkaat
- räätälöidä
- tiedot
- Datajärvi
- tiedonhallinta
- Päivämäärä
- päätökset
- yksityiskohdat
- Kehitys
- suoraan
- dokumentointi
- helposti
- toimittaja
- insinööri
- Engineers
- enter
- virhe
- Eetteri (ETH)
- arvioida
- esimerkki
- olemassa
- experience
- Selittää
- uute
- Epäonnistui
- epäonnistuu
- Ominaisuus
- filee
- Etunimi
- jälkeen
- muoto
- alkaen
- tehtävät
- tulevaisuutta
- syntyy
- synnyttää
- saada
- auttanut
- auttaa
- auttaa
- Korkea
- korkealaatuisia
- Miten
- Miten
- Kuitenkin
- HTML
- HTTPS
- Sadat
- tunnistaminen
- Identiteetti
- toteuttaa
- in
- sisältää
- panos
- kysymykset
- IT
- Job
- Työpaikat
- json
- avain
- järvi
- OPPIA
- oppinut
- oppiminen
- kuormitus
- lastaus
- sijainti
- menettää
- kone
- koneoppiminen
- ylläpitää
- tehdä
- hoitaa
- johto
- toimitusjohtaja
- manuaalinen
- mitata
- toimenpiteet
- valikko
- viesti
- Metrics
- ehkä
- Moderni
- monitori
- näytöt
- lisää
- moninkertainen
- Navigoida
- suunnistus
- välttämätön
- tarpeet
- seuraava
- solmu
- ilmoitukset
- esineet
- Tarjoukset
- ONE
- avata
- muuten
- lasi
- parametri
- osa
- intohimoinen
- lupa
- putki
- saattamisesta
- Platon
- Platonin tietotieto
- PlatonData
- plus
- politiikkaa
- Kirje
- Valmistella
- esittää
- estää
- preview
- edellinen
- ensisijainen
- Prosessit
- ominaisuudet
- toimittaa
- tarjoaa
- laatu
- nopea
- raaka
- Lue
- äskettäinen
- alue
- edellyttää
- tarvitaan
- Esittelymateriaalit
- johtua
- tulokset
- arviot
- Rooli
- roolit
- RIVI
- Sääntö
- säännöt
- ajaa
- sama
- Haku
- Osa
- Sarjat
- palvelu
- Palvelut
- setti
- asetus
- setup
- näyttää
- Näytä
- merkki
- Yksinkertainen
- koot
- So
- Tuotteemme
- ohjelmistokehitys
- ratkaisu
- Ratkaisumme
- lähde
- asiantuntija
- erikoistunut
- pino
- standardit
- Alkaa
- alkoi
- Aloita
- Vaihe
- Askeleet
- Levytila
- studio
- Puku
- synteettisesti
- ottaa
- Kohde
- Tehtävä
- joukkue-
- sapluuna
- -
- tuhansia
- Kautta
- kertaa
- että
- tänään
- työkalut
- Muuttaa
- muuttamassa
- Luottamus
- varten
- taustalla oleva
- unique
- käyttämätön
- käyttää
- käyttölaukku
- Käyttäjät
- yleensä
- VAHVISTA
- validointi
- arvo
- eri
- Näytä
- visualisointi
- odottaa
- onko
- joka
- tulee
- ilman
- toimii
- kirjoittaa
- kirjoittaminen
- kirjallinen
- Sinun
- zephyrnet