Komma igång med AWS Glue Data Quality For ETL Pipelines

Återutgiven av Platon

anhängare: 0

Idag använder hundratusentals kunder datasjöar för analys och maskininlärning. Dataingenjörer måste dock rensa och förbereda denna data innan den kan användas. Den underliggande informationen måste vara korrekt och aktuell för att kunden ska kunna fatta säkra affärsbeslut. Annars förlorar datakonsumenter förtroendet för datan och fattar suboptimala eller felaktiga beslut. Det är en vanlig uppgift för dataingenjörer att utvärdera om uppgifterna är korrekta och aktuella eller inte. Idag finns det olika verktyg för datakvalitet. Vanliga datakvalitetsverktyg kräver dock vanligtvis manuella processer för att övervaka datakvaliteten.

AWS Glue Data Quality är en förhandsgranskningsfunktion för AWS-lim som mäter och övervakar datakvaliteten på Amazon enkel lagringstjänst (Amazon S3) datasjöar och i AWS Glue extrahera, transformera och ladda (ETL) jobb. Detta är en öppen förhandsgranskningsfunktion så den är redan aktiverad i ditt konto i tillgängliga regioner. Du kan enkelt definiera och mäta datakvalitetskontrollerna i AWS Glue Studio-konsolen utan att skriva koder. Det förenklar din upplevelse av att hantera datakvalitet.

Det här inlägget är del 2 i en serie med fyra inlägg för att förklara hur AWS Glue Data Quality fungerar. Kolla in det tidigare inlägget i den här serien:

I det här inlägget visar vi hur man skapar ett AWS Glue-jobb som mäter och övervakar datakvaliteten i en datapipeline. Vi visar också hur man vidtar åtgärder baserat på datakvalitetsresultaten.

Lösningsöversikt

Låt oss överväga ett exempel på användningsfall där en dataingenjör behöver bygga en datapipeline för att få in data från en råzon till en kurerad zon i en datasjö. Som dataingenjör är ett av dina huvudansvar – tillsammans med att extrahera, transformera och ladda data – att validera datakvaliteten. Genom att identifiera datakvalitetsproblem i förväg hjälper dig att förhindra att dålig data placeras i den kurerade zonen och undvika svåra incidenter med datakorruption.

I det här inlägget får du lära dig hur du enkelt ställer in inbyggd och beställnings datavalideringskontroller i ditt AWS Glue-jobb för att förhindra att dålig data förstör nedströms högkvalitetsdata.

Datauppsättningen som används för detta inlägg är syntetiskt genererad; följande skärmdump visar ett exempel på data.

Konfigurera resurser med AWS CloudFormation

Detta inlägg innehåller en AWS molnformation mall för snabb installation. Du kan granska och anpassa den för att passa dina behov.

CloudFormation-mallen genererar följande resurser:

En Amazon Simple Storage Service (Amazon S3) hink (gluedataqualitystudio-*).
Följande prefix och objekt i S3-skopan:
- datalake/raw/customer/customer.csv
- datalake/curated/customer/
- scripts/
- sparkHistoryLogs/
- temporary/
AWS identitets- och åtkomsthantering (IAM) användare, roller och policyer. IAM-rollen (GlueDataQualityStudio-*) har behörighet att läsa och skriva från S3-hinken.
AWS Lambda funktioner och IAM-policyer som krävs av dessa funktioner för att skapa och ta bort denna stack.

Så här skapar du dina resurser:

Logga in på AWS CloudFormation-konsol i us-east-1 Område.
Välja Starta stack:
Välja Jag erkänner att AWS CloudFormation kan skapa IAM-resurser.
Välja Skapa stack och vänta på att steget att skapa stack ska slutföras.

Implementera lösningen

Utför följande steg för att börja konfigurera din lösning:

På AWS Glue Studio-konsolväljer Lediga jobb i navigeringsfönstret.
Välja Visual med en tom duk Och välj Skapa.
Välj jobb~~POS=TRUNC Detaljer fliken för att konfigurera jobbet.
För Namn , stiga på GlueDataQualityStudio.
För IAM-roll, välj rollen som börjar med GlueDataQualityStudio-*.
För Limversionväljer Lim 3.0.
För Jobbmärkeväljer inaktivera. Detta gör att du kan köra det här jobbet flera gånger med samma indatauppsättning.
För Antal återförsök, stiga på 0.
I Avancerade egenskaper sektionen tillhandahåller S3-hinken som skapats av CloudFormation-mallen (som börjar med gluedataqualitystudio-*).
Välja Save.
När jobbet har sparats väljer du Visuell fliken och på Källa meny, välj Amazon S3.
På Datakällegenskaper - S3 flik, för S3 källtyp, Välj S3-plats.
Välja Bläddra i S3 och navigera till prefix /datalake/raw/customer/ i S3-skopan som börjar med gluedataqualitystudio-* .
Välja Härleda schema.
På Handling meny, välj Utvärdera datakvalitet.
Välj Utvärdera datakvalitet nod.

På Förvandla fliken kan du nu börja bygga datakvalitetsregler. Den första regeln du skapar är att kontrollera om Customer_ID är unik och inte null med hjälp av isPrimaryKey regel.
På Regeltyper fliken på DQDL-regelbyggare, söka efter isprimarykey och välj plustecknet.
På Schema fliken på DQDL-regelbyggare, välj plustecknet bredvid Customer_ID.
Ta bort i regelredigeraren id.

Nästa regel vi lägger till kontrollerar att First_Name kolumnvärdet finns för alla rader.
Du kan också ange datakvalitetsreglerna direkt i regelredigeraren. Lägg till ett kommatecken (,) och skriv in IsComplete "First_Name", efter den första regeln.

Därefter lägger du till en anpassad regel för att verifiera att ingen rad existerar utan Telephone or Email.
Ange följande anpassade regel i regelredigeraren:
```
CustomSql "select count(*) from primary where Telephone is null and Email is null" = 0
```
Funktionen Utvärdera datakvalitet tillhandahåller åtgärder för att hantera resultatet av ett jobb baserat på resultaten av jobbkvaliteten.
Välj det här inlägget Misslyckas jobb när datakvaliteten sviker Och välj Misslyckad jobb utan att ladda mål datum insatser. I den Utdatainställning för datakvalitet avsnitt väljer Bläddra i S3 och navigera till prefix dqresults i S3-skopan som börjar med gluedataqualitystudio-*.
På Målet meny, välj Amazon S3.
Välj Datamål – S3-hink nod.
På Egenskaper för datamål - S3 flik, för bildadväljer ParkettOch för Komprimeringstypväljer Snappy.
För S3 Målplatsväljer Bläddra i S3 och navigera till prefixet /datalake/curated/customer/ i S3-skopan som börjar med gluedataqualitystudio-*.
Välja SaveOch välj sedan Körning.
Du kan se uppgifter om jobbkörningen på fliken Körningar. I vårt exempel misslyckas jobbet med felmeddelandet "AssertionError: Jobbet misslyckades på grund av felaktiga DQ-regler för nod: .”
Du kan granska datakvalitetsresultatet på fliken Datakvalitet. I vårt exempel misslyckades valideringen av anpassad datakvalitet eftersom en av raderna i datamängden hade nr Telephone or Email värde.Evaluate Data Quality-resultat skrivs också till S3-bucket i JSON-format baserat på datakvalitetsresultatets platsparameter för noden.
Navigera till dqresults prefix under S3-skopan som startar gluedataqualitystudio-*. Du kommer att se att datakvalitetsresultatet är uppdelat efter datum.

Följande är resultatet av JSON-filen. Du kan använda den här filutgången för att skapa anpassade instrumentpaneler för visualisering av datakvalitet.

Du kan också övervaka Utvärdera datakvalitet nod igenom amazoncloudwatch mätvärden och ställ in larm för att skicka meddelanden om datakvalitetsresultat. För att lära dig mer om hur du ställer in CloudWatch-larm, se Använder Amazon CloudWatch-larm.

Städa upp

För att undvika framtida avgifter och för att rensa outnyttjade roller och policyer, radera resurserna du skapade:

Radera GlueDataQualityStudio jobb du skapade som en del av det här inlägget.
På AWS CloudFormation-konsolen, ta bort GlueDataQualityStudio stack.

Slutsats

AWS Glue Data Quality erbjuder ett enkelt sätt att mäta och övervaka datakvaliteten för din ETL-pipeline. I det här inlägget lärde du dig hur du vidtar nödvändiga åtgärder baserat på datakvalitetsresultaten, vilket hjälper dig att upprätthålla höga datastandarder och fatta säkra affärsbeslut.

För att lära dig mer om AWS Glue Data Quality, kolla in dokumentationen:

Om författarna

Deenbandhu Prasad är Senior Analytics Specialist på AWS, specialiserad på big data-tjänster. Han brinner för att hjälpa kunder att bygga modern dataarkitektur på AWS-molnet. Han har hjälpt kunder av alla storlekar att implementera datahantering, datalager och datasjölösningar.