עסקים אוספים יותר ויותר נתונים מדי יום כדי להניע תהליכים כמו קבלת החלטות, דיווח ולמידת מכונה (ML). לפני ניקוי ושינוי הנתונים שלך, עליך לקבוע אם הם מתאימים לשימוש. נתונים שגויים, חסרים או שגויים יכולים להיות בעלי השפעות גדולות על אנליטיקה ותהליכי ML במורד הזרם. ביצוע בדיקות איכות נתונים עוזר לזהות בעיות מוקדם יותר בזרימת העבודה שלך, כך שתוכל לפתור אותן מהר יותר. בנוסף, ביצוע בדיקות אלו באמצעות ארכיטקטורה מבוססת אירועים מסייע לך להפחית נקודות מגע ידניות ולהתאים קנה מידה עם כמויות גדלות של נתונים.
AWS דבק DataBrew הוא כלי הכנת נתונים חזותי המקל על מציאת נתונים סטטיסטיים של איכות נתונים כגון ערכים כפולים, ערכים חסרים וחריגים בנתונים שלך. אתה יכול גם להגדיר כללי איכות נתונים ב-DataBrew כדי לבצע בדיקות מותנות על סמך הצרכים העסקיים הייחודיים שלך. לדוגמה, ייתכן שיצרן יצטרך לוודא שאין ערכים כפולים במיוחד ב-a Part ID
עמודה, או שספק שירותי בריאות עשוי לבדוק שהערכים ב-an SSN
עמודה באורך מסוים. לאחר שתיצור ותאמת כללים אלה עם DataBrew, תוכל להשתמש אמזון EventBridge, פונקציות שלב AWS, AWS למבדה, ו שירות התראה פשוט של אמזון (Amazon SNS) כדי ליצור זרימת עבודה אוטומטית ולשלוח הודעה כאשר כלל נכשל בבדיקת אימות.
בפוסט זה, אנו מדריכים אותך דרך זרימת העבודה מקצה לקצה וכיצד ליישם פתרון זה. פוסט זה כולל הדרכה שלב אחר שלב, א מודל יישום ללא שרת AWS (AWS SAM) תבנית, וקוד לדוגמה שבו תוכל להשתמש כדי לפרוס את היישום בסביבת AWS משלך.
סקירת פתרונות
הפתרון בפוסט הזה משלב ללא שרת שירותי AWS לבניית צנרת אוטומטית לחלוטין, מונעת אירועים מקצה לקצה לאימות איכות נתונים. התרשים הבא ממחיש את ארכיטקטורת הפתרון שלנו.
זרימת העבודה של הפתרון מכילה את השלבים הבאים:
- כאשר אתה מעלה נתונים חדשים אל שלך שירות אחסון פשוט של אמזון (Amazon S3) bucket, אירועים נשלחים ל-EventBridge.
- כלל EventBridge מפעיל מכונת מצב Step Functions לפעול.
- מכונת המצב מתחילה עבודת פרופיל DataBrew, המוגדרת עם ערכת חוקים וכללים לאיכות נתונים. אם אתה שוקל לבנות פתרון דומה, מיקום הפלט של פרופיל DataBrew ודליי נתוני המקור S3 צריכים להיות ייחודיים. זה מונע ריצות עבודה רקורסיביות. אנו פורסים את המשאבים שלנו עם א AWS CloudFormation תבנית, שיוצרת דלי S3 ייחודיים.
- פונקציית Lambda קוראת את תוצאות איכות הנתונים מאמזון S3, ומחזירה תגובה בוליאנית למכונת המצב. הפונקציה חוזרת
false
אם כלל אחד או יותר בערכת הכללים נכשל, וחוזרtrue
אם כל הכללים יצליחו. - אם התגובה הבוליאנית היא
false
, מכונת המדינה שולחת הודעת דואר אלקטרוני עם Amazon SNS ומכונת המדינה מסתיימת ב-afailed
סטָטוּס. אם התגובה הבוליאנית היאtrue
, מכונת המצב מסתיימת ב-asucceed
סטָטוּס. אתה יכול גם להרחיב את הפתרון בשלב זה להפעלת משימות אחרות על הצלחה או כישלון. לדוגמה, אם כל הכללים מצליחים, אתה יכול לשלוח הודעת EventBridge כדי להפעיל עבודת טרנספורמציה נוספת ב-DataBrew.
בפוסט זה, אתה משתמש ב-AWS CloudFormation כדי לפרוס הדגמה מתפקדת במלואה של פתרון אימות איכות הנתונים מונע על ידי אירועים. אתה בודק את הפתרון על ידי העלאת קובץ ערכים מופרדים בפסיקים חוקיים (CSV) לאמזון S3, ואחריו קובץ CSV לא חוקי.
השלבים הם כדלקמן:
- הפעל ערימת CloudFormation כדי לפרוס את משאבי הפתרון.
- בדוק את הפתרון:
- העלה קובץ CSV חוקי לאמזון S3 ותראה את אימות איכות הנתונים ומכונת המצב של Step Functions מצליחים.
- העלה קובץ CSV לא חוקי לאמזון S3 ותראה את אימות איכות הנתונים וכשל במצב של פונקציות צעד, וקבל הודעת דוא"ל מאמזון SNS.
ניתן למצוא את כל הקוד לדוגמה ב- מאגר GitHub.
תנאים מוקדמים
לפריצת דרך זו, יהיו עליכם התנאים המוקדמים הבאים:
פרוס את משאבי הפתרון באמצעות AWS CloudFormation
אתה משתמש בערימת CloudFormation כדי לפרוס את המשאבים הדרושים לפתרון אימות איכות הנתונים מונע על ידי אירועים. המחסנית כוללת מערך נתונים וערכת כללים לדוגמה ב-DataBrew.
- היכנס לחשבון AWS שלך ולאחר מכן בחר השקת ערימה:
- על יצירת ערימה מהירה עמוד, עבור כתובת דוא"ל, הזן כתובת דוא"ל חוקית עבור הודעות דוא"ל של Amazon SNS.
- השאר את שאר האפשרויות מוגדרות לברירות המחדל.
- בחר את תיבות הסימון של אישור.
- לבחור צור ערימה.
לערימת CloudFormation לוקח בערך 5 דקות להגיע CREATE_COMPLETE
מעמד.
- בדוק את תיבת הדואר הנכנס של כתובת הדוא"ל שסיפקת וקבל את מנוי ה-SNS.
עליך לעיין ולקבל את אישור המנוי כדי להדגים את תכונת ההתראות בדוא"ל בסוף ההדרכה.
על יציאות בכרטיסייה של המחסנית, תוכל למצוא את כתובות האתרים כדי לעיין במשאבי DataBrew ו-Step Functions שיצרה התבנית. שים לב גם לפקודות AWS CLI שהושלמו בהן אתה משתמש בשלבים מאוחרים יותר.
אם תבחר AWSGlueDataBrewRuleset
קישור ערך, אתה אמור לראות את דף הפרטים של ערכת הכללים, כמו בצילום המסך הבא. בהדרכה זו, אנו יוצרים ערכת חוקים לאיכות נתונים עם שלושה כללים הבודקים ערכים חסרים, חריגים ואורך מחרוזת.
בדוק את הפתרון
בשלבים הבאים, אתה משתמש ב-AWS CLI כדי להעלות גרסאות נכונות ושגויות של קובץ ה-CSV כדי לבדוק את פתרון אימות איכות הנתונים מונע על ידי אירועים.
- פתח שורת מסוף או שורת פקודה והשתמש ב-AWS CLI כדי להוריד נתונים לדוגמה. השתמש בפקודה מפלט מחסנית CloudFormation עם שם המפתח
CommandToDownloadTestData
: - השתמש שוב ב-AWS CLI כדי להעלות את קובץ ה-CSV ללא שינוי לדלי S3 שלך. החלף את החוט עם שם הדלי שלך, או העתק והדבק את הפקודה שסופקה לך מפלט תבנית CloudFormation:
- במסוף Step Functions, אתר את מכונת המצב שנוצרה על ידי תבנית CloudFormation.
אתה יכול למצוא כתובת URL בפלטי CloudFormation שצוינו קודם לכן.
- על הוצאות להורג בכרטיסייה, אתה אמור לראות הפעלה חדשה של מכונת המצב.
- בחר את כתובת האתר של הריצה כדי להציג את גרף מכונת המצב ולעקוב אחר ההתקדמות שלה.
התמונה הבאה מציגה את זרימת העבודה של מכונת המדינה שלנו.
כדי להדגים כישלון של כלל איכות נתונים, אתה מבצע עריכה אחת לפחות ב- votes.csv
קובץ.
- פתח את הקובץ בכלי עורך הטקסט או הגיליון האלקטרוני המועדף עליך, ומחק רק תא אחד.
בצילומי המסך הבאים, אני משתמש בעורך הננו של GNU בלינוקס. אתה יכול גם להשתמש בעורך גיליונות אלקטרוניים כדי למחוק תא. זה גורם לכישלון הכלל "בדוק את כל העמודות עבור ערכים חסרים".
צילום המסך הבא מציג את קובץ ה-CSV לפני השינוי.
צילום המסך הבא מציג את קובץ ה-CSV שהשתנה.
- שמור את העריכה
votes.csv
קובץ וחזור לשורת הפקודה או למסוף. - השתמש ב-AWS CLI כדי להעלות את הקובץ לדלי S3 שלך פעם נוספת. אתה משתמש באותה פקודה כמו קודם:
- במסוף Step Functions, נווט אל הפעלת מכונת המצב העדכנית ביותר כדי לנטר אותה.
אימות איכות הנתונים נכשל, מה שמפעיל הודעת דוא"ל SNS וכישלון בהפעלת מכונת המצב הכוללת.
התמונה הבאה מציגה את זרימת העבודה של מכונת המצב הכושל.
צילום המסך הבא מציג דוגמה של דוא"ל SNS.
- אתה יכול לחקור את כשל הכלל במסוף DataBrew על ידי בחירה ב-
AWSGlueDataBrewProfileResults
ערך בפלטי המחסנית של CloudFormation.
לנקות את
כדי להימנע מחיובים עתידיים, מחק את המשאבים. במסוף AWS CloudFormation, מחק את המחסנית בשם AWSBigDataBlogDataBrewDQSample
.
סיכום
בפוסט זה, למדת כיצד לבנות צינורות אימות איכות נתונים אוטומטיים, מונעי אירועים. עם DataBrew, אתה יכול להגדיר כללים, ספים וערכות כללים לאיכות נתונים עבור הדרישות העסקיות והטכניות שלך. Step Functions, EventBridge ו-Amazon SNS מאפשרים לך לבנות צינורות מורכבים עם טיפול בשגיאות הניתנות להתאמה אישית והתראה מותאמות לצרכים שלך.
תוכל ללמוד עוד על פתרון זה ועל קוד המקור על ידי ביקור ב- מאגר GitHub. למידע נוסף על כללי איכות נתונים של DataBrew, בקר AWS Glue DataBrew מאפשרת כעת ללקוחות ליצור כללי איכות נתונים כדי להגדיר ולאמת את הדרישות העסקיות שלהם או להתייחס אימות איכות הנתונים ב-AWS Glue DataBrew.
על הכותבים
לאית' אל-סעדון הוא אדריכל ראשי ליצירת אב טיפוס בצוות הנדסת Envision. הוא בונה אבות טיפוס ופתרונות באמצעות בינה מלאכותית, למידת מכונה, IoT ומחשוב קצה, ניתוח סטרימינג, רובוטיקה ומחשוב מרחבי כדי לפתור בעיות של לקוחות בעולם האמיתי. בזמנו הפנוי, לאית' נהנה מפעילויות חוצות כמו צילום, טיסות רחפנים, טיולים רגליים ופיינטבול.
גורדון ברג'ס הוא מנהל מוצר בכיר עם AWS Glue DataBrew. הוא נלהב לעזור ללקוחות לגלות תובנות מהנתונים שלהם, ומתמקד בבניית חוויות משתמש ופונקציונליות עשירה עבור מוצרי ניתוח. מחוץ לעבודה, גורדון נהנה לקרוא, לקפה ולבנות מחשבים.
- '
- &
- 100
- 107
- 7
- אודות
- חֶשְׁבּוֹן
- פעילויות
- כתובת
- AI
- תעשיות
- אמזון בעברית
- ניתוח
- בקשה
- ארכיטקטורה
- אוטומטי
- AWS
- לִבנוֹת
- בִּניָן
- עסקים
- חיובים
- בדיקות
- ניקוי
- קוד
- קָפֶה
- טור
- מורכב
- מחשבים
- מחשוב
- קונסול
- לקוחות
- נתונים
- איכות נתונים
- יְוֹם
- לגלות
- זמזום
- אדג '
- קצה
- עורך
- אמייל
- מסתיים
- הנדסה
- סביבה
- אירועים
- דוגמה
- חוויות
- כשלון
- מהר יותר
- מאפיין
- מתאים
- טיסות
- מצא
- חופשי
- פונקציה
- פונקציות
- עתיד
- גדל
- טיפול
- בריאות
- עוזר
- טיולים
- איך
- איך
- HTTPS
- לזהות
- תמונה
- ליישם
- תובנות
- לחקור
- IOT
- בעיות
- IT
- עבודה
- מפתח
- גָדוֹל
- האחרון
- לִלמוֹד
- למד
- למידה
- קו
- קשר
- לינוקס
- מיקום
- למידת מכונה
- יַצרָן
- ML
- יותר
- ננו
- נחוץ
- הודעה
- אפשרויות
- להזמין
- אחר
- בָּחוּץ
- צילום
- מנהל
- המוצר
- מוצרים
- פּרוֹפִיל
- prototyping
- ספק
- איכות
- קריאה
- להפחית
- להחליף
- דרישות
- משאבים
- תגובה
- תוצאות
- החזרות
- סקירה
- רובוטיקה
- כללי
- הפעלה
- סולם
- ללא שרת
- שירותים
- סט
- דומה
- פָּשׁוּט
- So
- פתרונות
- לפתור
- מרחבית
- מחשוב מרחבי
- במיוחד
- גיליון אלקטרוני
- מדינה
- סטטיסטיקה
- מצב
- אחסון
- נהירה
- מִנוּיים
- הצלחה
- טכני
- מסוף
- מבחן
- המקור
- דרך
- זמן
- כלי
- טרנספורמציה
- הפיכה
- הדרכה
- ערך
- לצפיה
- תיק עבודות
- זרימת עבודה