A vállalkozások nap mint nap egyre több adatot gyűjtenek össze, hogy olyan folyamatokat hajtsanak végre, mint a döntéshozatal, a jelentéskészítés és a gépi tanulás (ML). Az adatok tisztítása és átalakítása előtt meg kell határoznia, hogy alkalmasak-e a használatra. A helytelen, hiányzó vagy hibásan formázott adatok nagy hatással lehetnek a későbbi elemzésekre és az ML folyamatokra. Az adatminőség-ellenőrzések segítségével a munkafolyamat korai szakaszában azonosíthatja a problémákat, így gyorsabban megoldhatja azokat. Ezen túlmenően, ha ezeket az ellenőrzéseket eseményalapú architektúrával hajtja végre, csökkentheti a kézi érintkezési pontok számát, és az adatmennyiség növekedésével skálázható.
AWS ragasztó DataBrew egy vizuális adat-előkészítő eszköz, amely megkönnyíti az adatminőségi statisztikák, például az ismétlődő értékek, a hiányzó értékek és a kiugró értékek megtalálását az adatokban. Adatminőségi szabályokat is beállíthat a DataBrew alkalmazásban, hogy egyedi üzleti igényei alapján feltételes ellenőrzéseket hajtson végre. Például előfordulhat, hogy a gyártónak gondoskodnia kell arról, hogy ne legyenek ismétlődő értékek kifejezetten a Part ID
oszlopban, vagy egy egészségügyi szolgáltató ellenőrizheti az értékeket egy SSN
oszlop egy bizonyos hosszúságú. Miután létrehozta és érvényesítette ezeket a szabályokat a DataBrew segítségével, használhatja Amazon EventBridge, AWS lépésfunkciók, AWS Lambdaés Amazon Simple Notification Service (Amazon SNS) automatizált munkafolyamat létrehozásához és értesítés küldéséhez, ha egy szabály nem teljesíti az érvényesítési ellenőrzést.
Ebben a bejegyzésben végigvezetjük a teljes munkafolyamaton és a megoldás megvalósításán. Ez a bejegyzés egy lépésről lépésre bemutató oktatóanyagot tartalmaz, egy AWS szerver nélküli alkalmazásmodell (AWS SAM) sablon és példakód, amellyel az alkalmazást saját AWS-környezetében telepítheti.
Megoldás áttekintése
A megoldás ebben a bejegyzésben kombinálódik vagy szerver AWS-szolgáltatások egy teljesen automatizált, végpontok közötti eseményvezérelt folyamat felépítéséhez az adatminőség ellenőrzéséhez. Az alábbi ábra szemlélteti megoldásunk architektúráját.
A megoldás munkafolyamata a következő lépéseket tartalmazza:
- Amikor új adatokat tölt fel a Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör, az események az EventBridge-be kerülnek.
- Egy EventBridge-szabály elindítja a Step Functions állapotgépet.
- Az állapotgép elindít egy DataBrew-profilfeladatot, amely adatminőségi szabályokkal és szabályokkal van konfigurálva. Ha hasonló megoldás felépítését fontolgatja, a DataBrew-profilfeladat kimeneti helyének és a forrásadat S3 gyűjtőcsoportjainak egyedinek kell lenniük. Ez megakadályozza a rekurzív jobfuttatásokat. Erőforrásainkat egy AWS felhőképződés sablon, amely egyedi S3 vödröket hoz létre.
- Egy Lambda függvény beolvassa az Amazon S3 adatminőségi eredményeit, és logikai választ ad vissza az állapotgépbe. A függvény visszatér
false
ha a szabálykészletben egy vagy több szabály meghiúsul, és visszatértrue
ha minden szabály sikerül. - Ha a logikai válasz az
false
, az állapotgép e-mail értesítést küld az Amazon SNS-sel, és az állapotgép afailed
állapot. Ha a logikai válasz aztrue
, az állapotgép a-ra végződiksucceed
állapot. Kibővítheti a megoldást ebben a lépésben más feladatok futtatására is siker vagy kudarc esetén. Például, ha az összes szabály sikeres, küldhet egy EventBridge-üzenetet egy másik átalakítási feladat elindításához a DataBrew-ban.
Ebben a bejegyzésben az AWS CloudFormation segítségével telepítheti az eseményvezérelt adatminőség-ellenőrzési megoldás teljesen működő demóját. A megoldás teszteléséhez egy érvényes vesszővel tagolt érték (CSV) fájlt tölt fel az Amazon S3-ba, majd egy érvénytelen CSV-fájlt.
A lépések a következők:
- Indítson el egy CloudFormation-vermet a megoldás-erőforrások üzembe helyezéséhez.
- Tesztelje a megoldást:
- Töltsön fel egy érvényes CSV-fájlt az Amazon S3-ba, és figyelje meg az adatminőség-ellenőrzést és a Step Functions állapotgép sikerességét.
- Töltsön fel egy érvénytelen CSV-fájlt az Amazon S3-ra, és figyelje meg az adatminőség-ellenőrzést és a Step Functions állapotgép meghibásodását, és kapjon e-mail értesítést az Amazon SNS-től.
Az összes mintakód megtalálható a GitHub tárház.
Előfeltételek
Ehhez az áttekintéshez a következő előfeltételekkel kell rendelkeznie:
Telepítse a megoldás erőforrásait az AWS CloudFormation használatával
CloudFormation verem segítségével telepítheti az eseményvezérelt adatminőség-ellenőrzési megoldáshoz szükséges erőforrásokat. A verem egy példaadatkészletet és szabálykészletet tartalmaz a DataBrew programban.
- Jelentkezzen be AWS-fiókjába, majd válassza a lehetőséget Indítsa el a Stack alkalmazást:
- A Gyors verem létrehozása oldal, mert Email cím, adjon meg egy érvényes e-mail címet az Amazon SNS e-mail értesítéseihez.
- A többi opciót hagyja az alapértelmezett értékekre állítva.
- Jelölje be a nyugtázás jelölőnégyzeteit.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Verem létrehozása.
A CloudFormation verem körülbelül 5 percet vesz igénybe CREATE_COMPLETE
állapotát.
- Ellenőrizze a megadott e-mail-cím beérkezett üzeneteit, és fogadja el az SNS-előfizetést.
Át kell tekintenie és el kell fogadnia az előfizetés visszaigazolását, hogy bemutassa az e-mailes értesítési funkciót a bemutató végén.
A Kimenetek A verem lapján megtalálhatja az URL-eket a sablon által létrehozott DataBrew és Step Functions erőforrások böngészéséhez. Vegye figyelembe a befejezett AWS CLI parancsokat is, amelyeket a későbbi lépésekben használ.
Ha kiválasztja a AWSGlueDataBrewRuleset
value link, you should see the ruleset details page, as in the following screenshot. In this walkthrough, we create a data quality ruleset with three rules that check for missing values, outliers, and string length.
Tesztelje az oldatot
A következő lépésekben az AWS parancssori felülettel töltheti fel a CSV-fájl helyes és helytelen verzióit az eseményvezérelt adatminőség-ellenőrzési megoldás teszteléséhez.
- Nyisson meg egy terminált vagy parancssort, és használja az AWS parancssori felületet a mintaadatok letöltéséhez. Használja a parancsot a CloudFormation verem kimenetéből a kulcs nevével
CommandToDownloadTestData
: - Használja újra az AWS parancssori felületet a változatlan CSV-fájl feltöltéséhez az S3 tárolóba. Cserélje ki a zsinórt a vödör nevével, vagy másolja ki és illessze be a CloudFormation sablon kimenetéből kapott parancsot:
- A Step Functions konzolon keresse meg a CloudFormation sablon által létrehozott állapotgépet.
Az URL-t a korábban említett CloudFormation kimenetekben találhatja meg.
- A kivégzések lapon az állapotgép új futtatását kell látnia.
- Válassza ki a futtatás URL-jét az állapotgép-grafikon megtekintéséhez és a folyamat nyomon követéséhez.
Az alábbi képen állapotgépünk munkafolyamata látható.
Az adatminőségi szabály meghibásodásának demonstrálásához végre kell hajtania legalább egy szerkesztést a votes.csv
fájlt.
- Nyissa meg a fájlt a kívánt szövegszerkesztőben vagy táblázatkezelő eszközben, és töröljön csak egy cellát.
A következő képernyőképeken a GNU nano szerkesztőt használom Linuxon. Egy cella törléséhez táblázatszerkesztőt is használhat. Ez az „Összes oszlop ellenőrzése hiányzó értékekért” szabály meghiúsulását okozza.
A következő képernyőkép a CSV-fájlt mutatja a módosítás előtt.
A következő képernyőképen a megváltozott CSV-fájl látható.
- Mentse el a szerkesztett
votes.csv
fájlt, és térjen vissza a parancssorhoz vagy terminálhoz. - Az AWS CLI használatával töltse fel még egyszer a fájlt az S3 tárolójába. Ugyanazt a parancsot használja, mint korábban:
- A Step Functions konzolon navigáljon a legfrissebb állapotú géphez a figyeléshez.
Az adatminőség-ellenőrzés meghiúsul, SNS e-mail értesítést vált ki, és meghiúsul az általános állapotgép futtatása.
A következő kép a meghibásodott állapotú gép munkafolyamatát mutatja.
A következő képernyőképen egy példa látható az SNS e-mailre.
- Kivizsgálhatja a szabályhibát a DataBrew konzolon, ha kiválasztja a lehetőséget
AWSGlueDataBrewProfileResults
értéket a CloudFormation veremkimenetekben.
Tisztítsuk meg
A jövőbeni költségek elkerülése érdekében törölje az erőforrásokat. Az AWS CloudFormation konzolon törölje a nevű veremet AWSBigDataBlogDataBrewDQSample
.
Következtetés
Ebben a bejegyzésben megtanulta, hogyan építhet automatizált, eseményvezérelt adatminőség-ellenőrzési folyamatokat. A DataBrew segítségével adatminőségi szabályokat, küszöbértékeket és szabálykészleteket határozhat meg üzleti és műszaki követelményeihez. A Step Functions, az EventBridge és az Amazon SNS lehetővé teszik összetett folyamatok felépítését testreszabható hibakezeléssel és az Ön igényeire szabott riasztással.
Erről a megoldásról és a forráskódról többet megtudhat a következő oldalon GitHub tárház. Ha többet szeretne megtudni a DataBrew adatminőségi szabályairól, látogasson el a webhelyre Az AWS Glue DataBrew mostantól lehetővé teszi az ügyfelek számára, hogy adatminőségi szabályokat hozzanak létre üzleti követelményeik meghatározásához és érvényesítéséhez vagy hivatkozni Adatminőség ellenőrzése az AWS Glue DataBrew programban.
A szerzőkről
Laith Al-Saadoon az Envision Engineering csapat vezető prototípus-készítő építésze. Prototípusokat és megoldásokat készít mesterséges intelligencia, gépi tanulás, IoT és szélső számítástechnika, adatfolyam-analitika, robotika és térbeli számítástechnika felhasználásával a valós ügyfelek problémáinak megoldására. Szabadidejében Laith élvezi a szabadtéri tevékenységeket, mint például a fotózás, a drónrepülés, a túrázás és a paintballozás.
Gordon Burgess az AWS Glue DataBrew vezető termékmenedzsere. Szenvedélyesen törekszik arra, hogy segítse ügyfeleit adataikból betekintést nyerni, és a felhasználói élmény kialakítására és az analitikai termékek gazdag funkcionalitására összpontosít. A munkán kívül Gordon szívesen olvas, kávézik és számítógépet épít.
- '
- &
- 100
- 107
- 7
- Rólunk
- Fiók
- tevékenységek
- cím
- AI
- Minden termék
- amazon
- analitika
- Alkalmazás
- építészet
- Automatizált
- AWS
- épít
- Épület
- üzleti
- díjak
- Ellenőrzések
- Takarításra
- kód
- Kávé
- Oszlop
- bonyolult
- számítógépek
- számítástechnika
- Konzol
- Ügyfelek
- dátum
- adatminőség
- nap
- felfedez
- zümmög
- él
- szélsőséges számítástechnika
- szerkesztő
- vége
- Mérnöki
- Környezet
- események
- példa
- Tapasztalatok
- Kudarc
- gyorsabb
- Funkció
- megfelelő
- Járatok
- talált
- Ingyenes
- funkció
- funkciók
- jövő
- Növekvő
- Kezelés
- egészségügyi
- segít
- turisztika
- Hogyan
- How To
- HTTPS
- azonosítani
- kép
- végre
- meglátások
- vizsgálja
- tárgyak internete
- kérdések
- IT
- Munka
- Kulcs
- nagy
- legutolsó
- TANUL
- tanult
- tanulás
- vonal
- LINK
- linux
- elhelyezkedés
- gépi tanulás
- Gyártó
- ML
- több
- nano
- szükséges
- bejelentés
- Opciók
- érdekében
- Más
- Kültér
- fényképezés
- Fő
- Termékek
- Termékek
- profil
- prototípus
- ellátó
- világítás
- Olvasás
- csökkenteni
- cserélni
- követelmények
- Tudástár
- válasz
- Eredmények
- Visszatér
- Kritika
- robotika
- szabályok
- futás
- Skála
- vagy szerver
- Szolgáltatások
- készlet
- hasonló
- Egyszerű
- So
- Megoldások
- SOLVE
- térbeli
- térbeli számítástechnika
- kifejezetten
- táblázatkezelő
- Állami
- statisztika
- Állapot
- tárolás
- folyó
- előfizetés
- siker
- Műszaki
- terminál
- teszt
- The Source
- Keresztül
- idő
- szerszám
- Átalakítás
- transzformáló
- oktatói
- érték
- Megnézem
- Munka
- munkafolyamat