Aan de slag met AWS Glue-gegevenskwaliteit voor ETL-pijplijnen

Heruitgegeven door Plato

volgers: 0

Tegenwoordig gebruiken honderdduizenden klanten datameren voor analyse en machine learning. Data-engineers moeten deze gegevens echter opschonen en voorbereiden voordat ze kunnen worden gebruikt. De onderliggende gegevens moeten nauwkeurig en recent zijn, wil de klant zelfverzekerde zakelijke beslissingen kunnen nemen. Anders verliezen gegevensconsumenten het vertrouwen in de gegevens en nemen ze suboptimale of onjuiste beslissingen. Het is een gebruikelijke taak voor data-engineers om te evalueren of de data juist en recent zijn of niet. Tegenwoordig zijn er verschillende datakwaliteitstools. Veelgebruikte tools voor gegevenskwaliteit vereisen echter meestal handmatige processen om de gegevenskwaliteit te bewaken.

AWS Glue Data Quality is een voorbeeldfunctie van AWS lijm die de datakwaliteit van meet en bewaakt Amazon eenvoudige opslagservice (Amazon S3) data lakes en in AWS Glue extraheren, transformeren en laden (ETL) jobs. Dit is een open preview-functie, dus deze is al ingeschakeld in uw account in de beschikbare regio's. U kunt de controles van de gegevenskwaliteit eenvoudig definiëren en meten in de AWS Glue Studio-console zonder codes te schrijven. Het vereenvoudigt uw ervaring met het beheren van gegevenskwaliteit.

Dit bericht is deel 2 van een serie van vier berichten om uit te leggen hoe AWS Glue Data Quality werkt. Bekijk het vorige bericht in deze serie:

In dit bericht laten we zien hoe u een AWS Glue-taak kunt maken die de gegevenskwaliteit van een gegevenspijplijn meet en bewaakt. We laten ook zien hoe u actie kunt ondernemen op basis van de resultaten van de datakwaliteit.

Overzicht oplossingen

Laten we eens kijken naar een voorbeeld van een use-case waarin een data-engineer een datapijplijn moet bouwen om de gegevens van een onbewerkte zone op te nemen in een beheerde zone in een datameer. Als data-engineer is het valideren van de kwaliteit van data een van je belangrijkste verantwoordelijkheden, naast het extraheren, transformeren en laden van data. Door vooraf problemen met de gegevenskwaliteit te identificeren, kunt u voorkomen dat slechte gegevens in de beheerde zone worden geplaatst en lastige gegevenscorruptie-incidenten voorkomen.

In dit bericht leer je hoe je dit eenvoudig kunt instellen ingebouwd en gewoonte gegevensvalidatiecontroles in uw AWS Glue-taak om te voorkomen dat slechte gegevens de downstream-gegevens van hoge kwaliteit beschadigen.

De dataset die voor dit bericht wordt gebruikt, is synthetisch gegenereerd; de volgende schermafbeelding toont een voorbeeld van de gegevens.

Resources instellen met AWS CloudFormation

Dit bericht bevat een AWS CloudFormatie sjabloon voor een snelle installatie. U kunt het bekijken en aanpassen aan uw behoeften.

De CloudFormation-sjabloon genereert de volgende bronnen:

Een Amazon Simple Storage Service (Amazon S3) bucket (gluedataqualitystudio-*).
De volgende voorvoegsels en objecten in de S3-bucket:
- datalake/raw/customer/customer.csv
- datalake/curated/customer/
- scripts/
- sparkHistoryLogs/
- temporary/
AWS Identiteits- en toegangsbeheer (IAM) gebruikers, rollen en beleid. De IAM-rol (GlueDataQualityStudio-*) toestemming heeft om te lezen en te schrijven vanuit de S3-bucket.
AWS Lambda functies en IAM-beleid vereist door die functies om deze stapel te maken en te verwijderen.

Voer de volgende stappen uit om uw bronnen te maken:

Log in op AWS CloudFormation-console in de us-east-1 Regio.
Kies Start Stack:
kies Ik erken dat AWS CloudFormation IAM-bronnen kan creëren.
Kies Maak een stapel en wacht tot de stap voor het maken van de stapel is voltooid.

Implementeer de oplossing

Voer de volgende stappen uit om te beginnen met het configureren van uw oplossing:

Op de AWS Glue Studio-console, kiezen Vacatures in het navigatievenster.
kies Visueel met een leeg canvas En kies creëren.
Kies de Job Details tabblad om de taak te configureren.
Voor Naam, ga naar binnen GlueDataQualityStudio.
Voor IAM-rol, kies de rol die begint met GlueDataQualityStudio-*.
Voor Lijm versie, kiezen Lijm 3.0.
Voor Job bladwijzer, kiezen onbruikbaar maken. Hierdoor kunt u deze taak meerdere keren uitvoeren met dezelfde invoergegevensset.
Voor Aantal nieuwe pogingen, ga naar binnen 0.
In het Geavanceerde eigenschappen sectie, geeft u de S3-bucket op die is gemaakt door de CloudFormation-sjabloon (beginnend met gluedataqualitystudio-*).
Kies Bespaar.
Nadat de taak is opgeslagen, kiest u de Visual tabblad en op de bron menu, kies Amazon S3.
Op de Eigenschappen gegevensbron - S3 tabblad, voor S3-brontypeselecteer S3 locatie.
Kies Blader door S3 en navigeer naar voorvoegsel /datalake/raw/customer/ in de S3-bucket beginnend met gluedataqualitystudio-* .
Kies Schema afleiden.
Op de Actie menu, kies Evalueer de gegevenskwaliteit.
Kies de Evalueer de gegevenskwaliteit knooppunt.

Op de Transformeren tabblad kunt u nu beginnen met het opstellen van regels voor gegevenskwaliteit. De eerste regel die u maakt, is om te controleren of Customer_ID is uniek en niet null met behulp van de isPrimaryKey regel.
Op de Regel typen tabblad van de DQDL-regelbouwer, zoeken isprimarykey en kies het plusteken.
Op de Schema tabblad van de DQDL-regelbouwer, kies het plusteken naast Customer_ID.
Verwijder in de regeleditor id.

De volgende regel die we toevoegen controleert dat de First_Name kolomwaarde is aanwezig voor alle rijen.
U kunt de gegevenskwaliteitsregels ook rechtstreeks in de regeleditor invoeren. Voeg een komma (,) toe en voer in IsComplete "First_Name", na de eerste regel.

Vervolgens voegt u een aangepaste regel toe om te valideren dat er geen rij zonder bestaat Telephone or Email.
Voer de volgende aangepaste regel in de regeleditor in:
```
CustomSql "select count(*) from primary where Telephone is null and Email is null" = 0
```
De functie Gegevenskwaliteit evalueren biedt acties om de uitkomst van een taak te beheren op basis van de resultaten van de taakkwaliteit.
Selecteer voor dit bericht Mislukte taak wanneer de gegevenskwaliteit faalt En kies Mislukte taak zonder doel te laden gegevens acties. In de Uitvoerinstelling gegevenskwaliteit sectie, kies Blader door S3 en navigeer naar voorvoegsel dqresults in de S3-bucket beginnend met gluedataqualitystudio-*.
Op de doelwit menu, kies Amazon S3.
Kies de Gegevensdoel – S3-bucket knooppunt.
Op de Eigenschappen van datadoelen - S3 tabblad, voor Formaat, kiezen ParketEn voor Compressietype, kiezen pittig.
Voor S3 doellocatie, kiezen Blader door S3 en navigeer naar het voorvoegsel /datalake/curated/customer/ in de S3-bucket beginnend met gluedataqualitystudio-*.
Kies Bespaar, kies dan lopen.
U kunt de uitvoeringsdetails van de taak bekijken op het tabblad Uitvoeringen. In ons voorbeeld mislukt de taak met de foutmelding "AssertionError: de taak is mislukt vanwege falende DQ-regels voor knooppunt: .”
U kunt het resultaat van de gegevenskwaliteit bekijken op het tabblad Gegevenskwaliteit. In ons voorbeeld is de validatie van de aangepaste gegevenskwaliteit mislukt omdat een van de rijen in de dataset geen Telephone or Email waarde.De resultaten van Evaluate Data Quality worden ook naar de S3-bucket geschreven in JSON-indeling op basis van de locatieparameter voor de gegevenskwaliteit van het knooppunt.
Navigeer naar dqresults voorvoegsel onder de start van de S3-bucket gluedataqualitystudio-*. U zult zien dat het resultaat van de gegevenskwaliteit is gepartitioneerd op datum.

Het volgende is de uitvoer van het JSON-bestand. U kunt deze bestandsuitvoer gebruiken om aangepaste dashboards voor visualisatie van gegevenskwaliteit te bouwen.

U kunt ook toezicht houden op de Evalueer de gegevenskwaliteit knooppunt door Amazon Cloud Watch statistieken en stel alarmen in om meldingen over resultaten van gegevenskwaliteit te verzenden. Raadpleeg voor meer informatie over het instellen van CloudWatch-alarmen Amazon CloudWatch-alarmen gebruiken.

Opruimen

Verwijder de resources die u hebt gemaakt om te voorkomen dat er in de toekomst kosten in rekening worden gebracht en om ongebruikte rollen en beleidsregels op te ruimen:

Verwijder de GlueDataQualityStudio vacature die je hebt gemaakt als onderdeel van dit bericht.
Verwijder op de AWS CloudFormation-console het GlueDataQualityStudio stack.

Conclusie

AWS Glue Data Quality biedt een eenvoudige manier om de datakwaliteit van uw ETL-pijplijn te meten en te bewaken. In dit bericht hebt u geleerd hoe u de nodige acties kunt ondernemen op basis van de resultaten van de gegevenskwaliteit, waardoor u hoge gegevensnormen kunt handhaven en zelfverzekerde zakelijke beslissingen kunt nemen.

Raadpleeg de documentatie voor meer informatie over AWS Glue Data Quality:

Over de auteurs

Deenbandhu Prasad is een Senior Analytics Specialist bij AWS, gespecialiseerd in big data services. Hij is gepassioneerd om klanten te helpen bij het bouwen van moderne data-architectuur op de AWS Cloud. Hij heeft klanten van elke omvang geholpen bij het implementeren van datamanagement-, datawarehouse- en datalake-oplossingen.

Yannis Mentekidis is een Senior Software Development Engineer in het AWS Glue-team.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
Bron: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/

Tijdstempel: 16 december 2022

Tijdstempel: 11-2023-XNUMX

Aan de slag met AWS Glue Data Quality voor ETL Pipelines

Heruitgegeven door Plato

Overzicht oplossingen

Resources instellen met AWS CloudFormation

Implementeer de oplossing

Opruimen

Conclusie

Over de auteurs

Meer van AWS-bigdata

Introductie van op het veld gebaseerde kleurervaring voor Amazon QuickSight | Amazon-webservices

Clickedu gebruikt Amazon QuickSight Embedded om schoolbeheerders te voorzien van belangrijke gezondheidsinzichten in onderwijsinstellingen

Hoe Salesforce hun detectie- en responsplatform optimaliseerde met behulp van AWS-beheerde services | Amazon-webservices

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account