Napjainkban ügyfelek százezrei használnak adatforrásokat elemzési és gépi tanulási célokra. Az adatmérnököknek azonban meg kell tisztítaniuk és elő kell készíteniük ezeket az adatokat, mielőtt felhasználnák őket. Az alapul szolgáló adatoknak pontosnak és frissnek kell lenniük ahhoz, hogy az ügyfelek magabiztos üzleti döntéseket hozhassanak. Ellenkező esetben az adatfogyasztók elveszítik az adatokba vetett bizalmukat, és szuboptimális vagy helytelen döntéseket hoznak. Az adatmérnökök gyakori feladata annak értékelése, hogy az adatok pontosak és frissek-e vagy sem. Manapság különféle adatminőségi eszközök léteznek. Az általános adatminőségi eszközök azonban általában kézi folyamatokat igényelnek az adatminőség ellenőrzéséhez.
Az AWS Glue Data Quality egy előnézeti funkciója AWS ragasztó amely méri és figyeli az adatok minőségét Amazon egyszerű tárolási szolgáltatás (Amazon S3) adatforrások és az AWS-ben a ragasztó kivonat, átalakítás és betöltés (ETL) feladatok. Ez egy nyitott előnézeti funkció, így már engedélyezve van a fiókjában a elérhető régiók. Könnyedén meghatározhatja és mérheti az adatminőség-ellenőrzéseket az AWS Glue Studio konzolon kódok írása nélkül. Leegyszerűsíti az adatminőség kezelésének tapasztalatait.
Ez a bejegyzés egy négy bejegyzésből álló sorozat 2. része, amely elmagyarázza, hogyan működik az AWS Glue Data Quality. Nézd meg a sorozat előző bejegyzését:
Ebben a bejegyzésben bemutatjuk, hogyan hozhat létre AWS ragasztófeladatot, amely méri és figyeli az adatfolyam adatminőségét. Azt is bemutatjuk, hogyan kell cselekedni az adatminőségi eredmények alapján.
Megoldás áttekintése
Tekintsünk egy példa használati esetet, amelyben az adatmérnöknek adatfolyamatot kell felépítenie az adatok feldolgozásához egy nyers zónából egy Data Lake kurált zónájába. Adatmérnökként az egyik legfontosabb feladata – az adatok kinyerése, átalakítása és betöltése mellett – az adatok minőségének ellenőrzése. Az adatminőségi problémák előzetes azonosítása segít megelőzni, hogy rossz adatok kerüljenek a kiválasztott zónába, és elkerülhetőek a megterhelő adatsérülések.
Ebből a bejegyzésből megtudhatja, hogyan kell egyszerűen beállítani beépített és a szokás adatérvényesítési ellenőrzéseket végez az AWS Glue-feladatban, hogy megakadályozza a rossz adatok megsértését a későbbi, jó minőségű adatokban.
A bejegyzéshez használt adatkészlet szintetikusan van előállítva; a következő képernyőkép példát mutat az adatokra.
Állítsa be az erőforrásokat az AWS CloudFormation segítségével
Ez a bejegyzés tartalmaz egy AWS felhőképződés sablon a gyors beállításhoz. Áttekintheti és testreszabhatja az igényeinek megfelelően.
A CloudFormation sablon a következő erőforrásokat állítja elő:
- Egy Amazon Simple Storage Service (Amazon S3) vödör (
gluedataqualitystudio-*
). - A következő előtagok és objektumok az S3 tárolóban:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- AWS Identity and Access Management (IAM) felhasználók, szerepkörök és házirendek. Az IAM szerep (
GlueDataQualityStudio-*
) jogosult olvasni és írni az S3 tárolóból. - AWS Lambda függvények és IAM-házirendek, amelyeket ezek a függvények igényelnek a verem létrehozásához és törléséhez.
Az erőforrások létrehozásához hajtsa végre a következő lépéseket:
- Jelentkezzen be a AWS CloudFormation konzol a
us-east-1
Vidék. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Indítsa el a Stack alkalmazást:
- választ Tudomásul veszem, hogy az AWS CloudFormation IAM-erőforrásokat hozhat létre.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Verem létrehozása és várja meg a verem létrehozási lépésének befejezését.
Valósítsa meg a megoldást
A megoldás konfigurálásának megkezdéséhez hajtsa végre a következő lépéseket:
- A AWS Glue Studio konzol, választ Állások a navigációs ablaktáblában.
- választ Vizuális üres vászonnal És válasszon Teremt.
- Válassza a munka részletei fület a feladat konfigurálásához.
- A Név, belép
GlueDataQualityStudio
. - A IAM szerepkör, válassza ki a szerepet kezdődően
GlueDataQualityStudio-*
. - A Ragasztós változat, választ 3.0. ragasztó.
- A Munkakönyvjelző, választ Kikapcsolja. Ez lehetővé teszi a feladat többszöri futtatását ugyanazzal a bemeneti adatkészlettel.
- A Az újrapróbálkozások száma, belép
0
. - A Speciális tulajdonságok szakaszban adja meg a CloudFormation sablon által létrehozott S3 tárolót (kezdve a
gluedataqualitystudio-*
). - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Megtakarítás.
- A munka mentése után válassza ki a Vizuális fülön és a forrás menüben válasszon Amazon S3.
- A Adatforrás tulajdonságai – S3 fül, for S3 forrástípusválassza S3 hely.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Böngésszen az S3-ban és navigáljon az előtaghoz
/datalake/raw/customer/
az S3 vödörben kezdvegluedataqualitystudio-*
. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következzen séma.
- A Akció menüben válasszon Értékelje az adatminőséget.
- Válassza a Értékelje az adatminőséget csomópont.
A Átalakítás lapon, elkezdheti az adatminőségi szabályok felépítését. Az első szabály, amit létrehoz, annak ellenőrzése, hogyCustomer_ID
egyedi és nem nulla aisPrimaryKey
szabály. - A Szabálytípusok a DQDL szabálykészítő, keresni
isprimarykey
és válassza ki a plusz jelet. - A Séma a DQDL szabálykészítő, válassza ki a mellette lévő pluszjelet
Customer_ID
. - A szabályszerkesztőben törölje
id
.
A következő szabály, amit hozzáadunk, ellenőrzi, hogy aFirst_Name
oszlop értéke minden sorban jelen van. - Az adatminőségi szabályokat közvetlenül a szabályszerkesztőben is megadhatja. Adjon hozzá egy vesszőt (,) és írja be
IsComplete "First_Name",
az első szabály után.
Ezután adjon hozzá egy egyéni szabályt annak ellenőrzésére, hogy nincs-e sor anélkülTelephone
orEmail
. - Írja be a következő egyéni szabályt a szabályszerkesztőbe:
Az Adatminőség értékelése szolgáltatás műveleteket biztosít a munka kimenetelének kezeléséhez a munka minőségi eredményei alapján. - Ehhez a bejegyzéshez válassza a lehetőséget Sikertelen munka, ha az adatminőség hibás És válasszon Sikertelen munka a cél betöltése nélkül dátum akciók. Ban,-ben Adatminőség kimeneti beállítás szakaszban válassza Böngésszen az S3-ban és navigáljon az előtaghoz
dqresults
az S3 vödörben kezdvegluedataqualitystudio-*
. - A cél menüben válasszon Amazon S3.
- Válassza a Adatcél – S3 vödör csomópont.
- A Adatcél tulajdonságai – S3 fül, for kialakított, választ parkett, Valamint a Tömörítés típusa, választ Lendületes.
- A S3 célhely, választ Böngésszen az S3-ban és navigáljon az előtaghoz
/datalake/curated/customer/
az S3 vödörben kezdvegluedataqualitystudio-*
. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Megtakarítás, majd válassza ki futás.
A feladat futtatásának részleteit a Futtatások lapon tekintheti meg. Példánkban a feladat meghiúsul a következő hibaüzenettel: „AssertionError: A job a csomóponthoz tartozó DQ-szabályok hibája miatt meghiúsult: .”
Az adatminőségi eredményt az Adatminőség lapon tekintheti meg. Példánkban az egyéni adatminőség ellenőrzése meghiúsult, mert az adatkészlet egyik sorában nem szerepeltTelephone
orEmail
értéket.Az Adatminőség kiértékelésének eredményei JSON formátumban is beírásra kerülnek az S3 tárolóba a csomópont adatminőségi eredményének helyparamétere alapján. - navigáljon
dqresults
előtag az S3 vödör alatt kezdődőengluedataqualitystudio-*
. Látni fogja, hogy az adatminőségi eredmény dátum szerint fel van osztva.
A következő a JSON-fájl kimenete. Ezt a fájlkimenetet használhatja egyéni adatminőség-vizualizációs irányítópultok létrehozására.
Azt is figyelemmel kísérheti a Értékelje az adatminőséget csomóponton keresztül amazonfelhőóra mérőszámok és riasztások beállítása az adatminőségi eredményekről szóló értesítések küldéséhez. Ha többet szeretne megtudni a CloudWatch riasztások beállításáról, lásd: Amazon CloudWatch riasztások használata.
Tisztítsuk meg
A jövőbeni költségek elkerülése, valamint a fel nem használt szerepkörök és szabályzatok megtisztítása érdekében törölje a létrehozott erőforrásokat:
- Törölje a
GlueDataQualityStudio
a bejegyzés részeként létrehozott állás. - Az AWS CloudFormation konzolon törölje a
GlueDataQualityStudio
Kazal.
Következtetés
Az AWS Glue Data Quality egyszerű módot kínál az ETL-folyamat adatminőségének mérésére és figyelésére. Ebben a bejegyzésben megtanulta, hogyan kell megtenni a szükséges lépéseket az adatminőségi eredmények alapján, ami segít fenntartani a magas adatstandardokat és magabiztos üzleti döntéseket hozni.
Ha többet szeretne megtudni az AWS ragasztóadatok minőségéről, tekintse meg a dokumentációt:
A szerzőkről
Deenbandhu Prasad az AWS vezető analitikai szakértője, aki a big data szolgáltatásokra specializálódott. Szenvedélyesen segíti ügyfeleit modern adatarchitektúra kialakításában az AWS Cloudon. Bármilyen méretű ügyfelet segített az adatkezelési, adattárházi és data lake megoldások megvalósításában.
Yannis Mentekidis az AWS Glue csapatának vezető szoftverfejlesztő mérnöke.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- Rólunk
- hozzáférés
- Fiók
- pontos
- elismerni
- Akció
- cselekvések
- Után
- Minden termék
- lehetővé teszi, hogy
- már
- amazon
- analitika
- és a
- építészet
- AWS
- AWS felhőképződés
- AWS ragasztó
- Rossz
- rossz adatok
- alapján
- mert
- előtt
- Nagy
- Big adatok
- épít
- Épület
- üzleti
- eset
- díjak
- ellenőrizze
- Ellenőrzések
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- felhő
- Oszlop
- Közös
- teljes
- magabiztos
- Fontolja
- Konzol
- Fogyasztók
- vesztegetés
- teremt
- készítette
- teremtés
- a válogatott
- szokás
- vevő
- Ügyfelek
- testre
- dátum
- adattó
- adatkezelés
- találka
- határozatok
- részletek
- Fejlesztés
- közvetlenül
- dokumentáció
- könnyen
- szerkesztő
- mérnök
- Mérnökök
- belép
- hiba
- Eter (ETH)
- értékelni
- példa
- létezik
- tapasztalat
- Magyarázza
- kivonat
- Sikertelen
- nem sikerül
- Funkció
- filé
- vezetéknév
- következő
- formátum
- ból ből
- funkciók
- jövő
- generált
- generál
- szerzés
- segített
- segít
- segít
- Magas
- jó minőségű
- Hogyan
- How To
- azonban
- HTML
- HTTPS
- Több száz
- azonosító
- Identitás
- végre
- in
- magában foglalja a
- bemenet
- kérdések
- IT
- Munka
- Állások
- json
- Kulcs
- tó
- TANUL
- tanult
- tanulás
- kiszámításának
- betöltés
- elhelyezkedés
- veszít
- gép
- gépi tanulás
- fenntartása
- csinál
- kezelése
- vezetés
- kezelése
- kézikönyv
- intézkedés
- intézkedések
- Menü
- üzenet
- Metrics
- esetleg
- modern
- monitor
- monitorok
- több
- többszörös
- Keresse
- Navigáció
- elengedhetetlen
- igények
- következő
- csomópont
- értesítések
- objektumok
- Ajánlatok
- ONE
- nyitva
- másképp
- üvegtábla
- paraméter
- rész
- szenvedélyes
- engedély
- csővezeték
- forgalomba
- Plató
- Platón adatintelligencia
- PlatoData
- plusz
- Politikák
- állás
- Készít
- be
- megakadályozása
- Preview
- előző
- elsődleges
- Folyamatok
- ingatlanait
- ad
- biztosít
- világítás
- Quick
- Nyers
- Olvass
- új
- vidék
- szükség
- kötelező
- Tudástár
- eredményez
- Eredmények
- Kritika
- Szerep
- szerepek
- SOR
- Szabály
- szabályok
- futás
- azonos
- Keresés
- Rész
- Series of
- szolgáltatás
- Szolgáltatások
- készlet
- beállítás
- felépítés
- előadás
- Műsorok
- <p></p>
- Egyszerű
- méretek
- So
- szoftver
- szoftverfejlesztés
- megoldások
- Megoldások
- forrás
- szakember
- szakosodott
- verem
- szabványok
- kezdet
- kezdődött
- Kezdve
- Lépés
- Lépései
- tárolás
- stúdió
- Öltöny
- szintetikusan
- Vesz
- cél
- Feladat
- csapat
- sablon
- A
- ezer
- Keresztül
- alkalommal
- nak nek
- Ma
- szerszámok
- Átalakítás
- transzformáló
- Bízzon
- alatt
- mögöttes
- egyedi
- felhasználatlan
- használ
- használati eset
- Felhasználók
- rendszerint
- ÉRVÉNYESÍT
- érvényesítés
- érték
- különféle
- Megnézem
- megjelenítés
- várjon
- vajon
- ami
- lesz
- nélkül
- művek
- ír
- írás
- írott
- A te
- zephyrnet