Yritykset keräävät päivittäin yhä enemmän dataa ohjatakseen prosesseja, kuten päätöksentekoa, raportointia ja koneoppimista (ML). Ennen kuin puhdistat ja muokkaat tietojasi, sinun on määritettävä, ovatko ne käyttökelpoisia. Väärällä, puuttuvalla tai virheellisesti muotoillulla tiedolla voi olla suuri vaikutus loppupään analytiikkaan ja ML-prosesseihin. Tietojen laadun tarkistaminen auttaa tunnistamaan ongelmat työnkulun aikaisemmassa vaiheessa, jotta voit ratkaista ne nopeammin. Lisäksi näiden tarkistusten tekeminen tapahtumapohjaisen arkkitehtuurin avulla auttaa vähentämään manuaalisia kosketuspisteitä ja skaalaamaan kasvavien tietomäärien myötä.
AWS Liima DataBrew on visuaalinen tietojen valmistelutyökalu, jonka avulla on helppo löytää datan laatutilastoja, kuten päällekkäisiä arvoja, puuttuvia arvoja ja poikkeavia tiedoistasi. Voit myös määrittää DataBrewissa tietojen laatusäännöt suorittamaan ehdollisia tarkistuksia yksilöllisten liiketoimintatarpeidesi perusteella. Valmistajan voi esimerkiksi olla tarpeen varmistaa, ettei kohdassa a ole päällekkäisiä arvoja Part ID
sarakkeessa, tai terveydenhuollon tarjoaja voi tarkistaa arvot an SSN
sarakkeet ovat tietyn pituisia. Kun olet luonut ja vahvistanut nämä säännöt DataBrew:lla, voit käyttää Amazon EventBridge, AWS-vaihetoiminnot, AWS Lambdaja Amazonin yksinkertainen ilmoituspalvelu (Amazon SNS) luodaksesi automaattisen työnkulun ja lähettääksesi ilmoituksen, kun sääntö epäonnistuu vahvistustarkistuksessa.
Tässä viestissä opastamme sinut päästä päähän työnkulun läpi ja kuinka tämä ratkaisu otetaan käyttöön. Tämä viesti sisältää vaiheittaisen opetusohjelman, an AWS-palvelimeton sovellusmalli (AWS SAM) -malli ja esimerkkikoodi, jonka avulla voit ottaa sovelluksen käyttöön omassa AWS-ympäristössäsi.
Ratkaisun yleiskatsaus
Tämän postauksen ratkaisu yhdistyy serverless AWS-palvelut rakentaakseen täysin automatisoidun, päästä päähän tapahtumiin perustuvan putkiston tietojen laadun validointia varten. Seuraava kaavio havainnollistaa ratkaisumme arkkitehtuuria.
Ratkaisun työnkulku sisältää seuraavat vaiheet:
- Kun lataat uusia tietoja Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ämpäri, tapahtumat lähetetään EventBridgeen.
- EventBridge-sääntö käynnistää vaihefunktioiden tilakoneen.
- Tilakone aloittaa DataBrew-profiilityön, joka on määritetty tietojen laatusäännöillä ja säännöillä. Jos harkitset samanlaisen ratkaisun rakentamista, DataBrew-profiilin työn tulosteen ja lähdedatan S3-ämpärien tulee olla yksilöllisiä. Tämä estää toistuvien töiden suorittamisen. Käytämme resurssejamme AWS-pilven muodostuminen malli, joka luo ainutlaatuisia S3-kauhoja.
- Lambda-funktio lukee Amazon S3:n tiedonlaatutulokset ja palauttaa Boolen vastauksen tilakoneeseen. Funktio palaa
false
jos yksi tai useampi sääntöjoukon sääntö epäonnistuu, ja palauttaatrue
jos kaikki säännöt onnistuvat. - Jos Boolen vastaus on
false
, tilakone lähettää sähköposti-ilmoituksen Amazon SNS:n kanssa ja tilakone päättyy afailed
Tila. Jos Boolen vastaus ontrue
, tilakone päättyy asucceed
Tila. Voit myös laajentaa ratkaisua tässä vaiheessa suorittamaan muita tehtäviä onnistumisen tai epäonnistumisen yhteydessä. Jos esimerkiksi kaikki säännöt onnistuvat, voit lähettää EventBridge-sanoman käynnistääksesi toisen muunnostyön DataBrewissa.
Tässä viestissä käytät AWS CloudFormationia ottaaksesi käyttöön täysin toimivan tapahtumapohjaisen tiedonlaadun vahvistusratkaisun esittelyn. Testaat ratkaisua lataamalla kelvollisen CSV-tiedoston Amazon S3:een ja sen jälkeen virheellisen CSV-tiedoston.
Vaiheet ovat seuraavat:
- Käynnistä CloudFormation-pino ratkaisuresurssien käyttöönottamiseksi.
- Testaa ratkaisua:
- Lataa kelvollinen CSV-tiedosto Amazon S3:een ja tarkkaile tietojen laadun vahvistusta ja Step Functions -tilakoneen onnistumista.
- Lataa virheellinen CSV-tiedosto Amazon S3:een ja tarkkaile tietojen laadun vahvistusta ja Step Functions -tilakoneen epäonnistumista ja vastaanota sähköposti-ilmoitus Amazon SNS:ltä.
Kaikki mallikoodit löytyvät osoitteesta GitHub-arkisto.
Edellytykset
Tätä kävelyä varten sinulla tulisi olla seuraavat edellytykset:
Ota ratkaisuresurssit käyttöön AWS CloudFormationin avulla
Käytät CloudFormation-pinoa tapahtumapohjaisen tietojen laaduntarkistusratkaisun tarvittavien resurssien käyttöönottamiseksi. Pino sisältää esimerkkitietojoukon ja sääntöjoukon DataBrewissa.
- Kirjaudu AWS-tilillesi ja valitse sitten Käynnistä pino:
- On Luo pino nopeasti sivua varten Sähköpostiosoite, anna kelvollinen sähköpostiosoite Amazon SNS -sähköposti-ilmoituksia varten.
- Jätä loput vaihtoehdot oletusarvoiksi.
- Valitse kuittauksen valintaruudut.
- Valita Luo pino.
CloudFormation-pinon saavuttaminen kestää noin 5 minuuttia CREATE_COMPLETE
tila.
- Tarkista antamasi sähköpostiosoitteen postilaatikko ja hyväksy SNS-tilaus.
Sinun on tarkistettava ja hyväksyttävä tilausvahvistus, jotta voit esitellä sähköposti-ilmoitusominaisuuden esittelyn lopussa.
On Lähdöt pinon välilehdeltä löydät URL-osoitteet, joiden avulla voit selata mallin luomia DataBrew- ja Step Functions -resursseja. Huomaa myös valmiit AWS CLI -komennot, joita käytät myöhemmissä vaiheissa.
Jos valitset AWSGlueDataBrewRuleset
arvo-linkki, sinun pitäisi nähdä sääntöjoukon tietosivu, kuten seuraavassa kuvakaappauksessa. Tässä esittelyssä luomme tietojen laatusääntöjoukon, jossa on kolme sääntöä, jotka tarkistavat puuttuvat arvot, poikkeamat ja merkkijonon pituuden.
Testaa ratkaisu
Seuraavissa vaiheissa käytät AWS CLI:tä ladataksesi oikeat ja väärät versiot CSV-tiedostosta testataksesi tapahtumapohjaista tiedonlaadun vahvistusratkaisua.
- Avaa pääte- tai komentorivikehote ja lataa näytetiedot AWS CLI:n avulla. Käytä komentoa CloudFormation-pinon lähdöstä avaimen nimellä
CommandToDownloadTestData
: - Käytä AWS CLI:tä uudelleen ladataksesi muuttumaton CSV-tiedosto S3-säihösi. Vaihda lanka ämpärinimelläsi tai kopioi ja liitä sinulle annettu komento CloudFormation-mallin lähdöstä:
- Etsi Step Functions -konsolista CloudFormation-mallin luoma tilakone.
Löydät URL-osoitteen aiemmin mainituista CloudFormation-ulostuloista.
- On teloitukset -välilehti, sinun pitäisi nähdä tilakoneen uusi ajo.
- Valitse ajon URL-osoite nähdäksesi tilakonekaavion ja seurataksesi sen edistymistä.
Seuraava kuva näyttää tilakoneemme työnkulkua.
Voit osoittaa tietojen laatusäännön epäonnistumisen tekemällä vähintään yhden muokkauksen votes.csv
tiedosto.
- Avaa tiedosto haluamassasi tekstieditorissa tai laskentataulukkotyökalussa ja poista vain yksi solu.
Seuraavissa kuvakaappauksissa käytän GNU nano -editoria Linuxissa. Voit myös poistaa solun laskentataulukkoeditorilla. Tämä aiheuttaa "Tarkista kaikki sarakkeet puuttuvien arvojen varalta" -säännön epäonnistumisen.
Seuraavassa kuvakaappauksessa näkyy CSV-tiedosto ennen muokkausta.
Seuraavassa kuvakaappauksessa näkyy muutettu CSV-tiedosto.
- Tallenna muokattu
votes.csv
tiedosto ja palaa komentokehotteeseen tai terminaaliin. - Käytä AWS CLI:tä ladataksesi tiedoston S3-säilöisi vielä kerran. Käytät samaa komentoa kuin aiemmin:
- Siirry Step Functions -konsolissa viimeisimpään tilakoneen ajoon seurataksesi sitä.
Tietojen laadun tarkistus epäonnistuu, laukaisee SNS-sähköposti-ilmoituksen ja epäonnistuu yleisen tilakoneen ajon.
Seuraava kuva näyttää epäonnistuneen tilan koneen työnkulun.
Seuraavassa kuvakaappauksessa on esimerkki SNS-sähköpostista.
- Voit tutkia sääntövirheen DataBrew-konsolissa valitsemalla
AWSGlueDataBrewProfileResults
arvo CloudFormation-pinon lähdöissä.
Puhdistaa
Vältä tulevia maksuja poistamalla resurssit. Poista nimetty pino AWS CloudFormation -konsolissa AWSBigDataBlogDataBrewDQSample
.
Yhteenveto
Tässä viestissä opit rakentamaan automatisoituja, tapahtumapohjaisia tiedonlaadun vahvistusputkia. DataBrew'n avulla voit määrittää tietojen laatusääntöjä, kynnysarvoja ja sääntöjoukkoja yrityksellesi ja teknisille vaatimuksillesi. Step Functions, EventBridge ja Amazon SNS antavat sinun rakentaa monimutkaisia putkistoja, joissa on tarpeidesi mukaan räätälöity mukautettu virheenkäsittely ja hälytykset.
Saat lisätietoja tästä ratkaisusta ja lähdekoodista käymällä osoitteessa GitHub-arkisto. Lisätietoja DataBrew-tietojen laatusäännöistä on osoitteessa AWS Glue DataBrew antaa nyt asiakkaille mahdollisuuden luoda tietojen laatusääntöjä liiketoimintavaatimustensa määrittelemiseksi ja validoimiseksi tai viitata Tietojen laadun tarkistaminen AWS Glue DataBrewissa.
Tietoja Tekijät
Laith Al-Saadoon on johtava prototyyppiarkkitehti Envision Engineering -tiimissä. Hän rakentaa prototyyppejä ja ratkaisuja käyttämällä tekoälyä, koneoppimista, IoT:tä ja reunalaskentaa, suoratoistoanalytiikkaa, robotiikkaa ja spatiaalista laskentaa ratkaistakseen todellisia asiakasongelmia. Vapaa-ajallaan Laith harrastaa ulkoilua, kuten valokuvausta, drone-lentoja, patikointia ja paintballia.
Gordon Burgess on AWS Glue DataBrew:n vanhempi tuotepäällikkö. Hän haluaa intohimoisesti auttaa asiakkaita löytämään oivalluksia tiedoistaan, ja hän keskittyy käyttäjäkokemusten ja monipuolisten toimintojen rakentamiseen analytiikkatuotteille. Työn ulkopuolella Gordon nauttii lukemisesta, kahvista ja tietokoneiden rakentamisesta.
- '
- &
- 100
- 107
- 7
- Meistä
- Tili
- toiminta
- osoite
- AI
- Kaikki
- Amazon
- Analytics
- Hakemus
- arkkitehtuuri
- Automatisoitu
- AWS
- rakentaa
- Rakentaminen
- liiketoiminta
- maksut
- Tarkastukset
- Siivous
- koodi
- kahvi
- Sarake
- monimutkainen
- tietokoneet
- tietojenkäsittely
- Console
- Asiakkaat
- tiedot
- tiedon laatu
- päivä
- löytää
- kuhnuri
- reuna
- reunan tietojenkäsittely
- toimittaja
- päättyy
- Tekniikka
- ympäristö
- Tapahtumat
- esimerkki
- Elämykset
- Epäonnistuminen
- nopeampi
- Ominaisuus
- sovittaa
- Lennot
- löytyi
- Ilmainen
- toiminto
- tehtävät
- tulevaisuutta
- Kasvava
- Käsittely
- terveydenhuollon
- auttaa
- retkeily
- Miten
- Miten
- HTTPS
- tunnistaa
- kuva
- toteuttaa
- oivalluksia
- tutkia
- Esineiden internet
- kysymykset
- IT
- Job
- avain
- suuri
- uusin
- OPPIA
- oppinut
- oppiminen
- linja
- LINK
- linux
- sijainti
- koneoppiminen
- Valmistaja
- ML
- lisää
- nano
- tarvitaan
- ilmoituksen
- Vaihtoehdot
- tilata
- Muut
- ulko-
- valokuvaus
- Pääasiallinen
- Tuotteet
- Tuotteemme
- Profiili
- prototyyppien
- toimittaja
- laatu
- Lukeminen
- vähentää
- korvata
- vaatimukset
- Esittelymateriaalit
- vastaus
- tulokset
- Tuotto
- arviot
- robotiikka
- säännöt
- ajaa
- Asteikko
- serverless
- Palvelut
- setti
- samankaltainen
- Yksinkertainen
- So
- Ratkaisumme
- SOLVE
- tila-
- spatiaalinen laskenta
- erityisesti
- taulukkolaskentaohjelma
- Osavaltio
- tilasto
- Tila
- Levytila
- streaming
- tilaus
- menestys
- Tekninen
- terminaali
- testi
- Lähde
- Kautta
- aika
- työkalu
- Muutos
- muuttamassa
- oppitunti
- arvo
- Näytä
- Referenssit
- työnkulku