כיום, מאות אלפי לקוחות משתמשים באגמי נתונים לניתוח ולמידת מכונה. עם זאת, מהנדסי נתונים צריכים לנקות ולהכין נתונים אלה לפני שניתן יהיה להשתמש בהם. הנתונים הבסיסיים צריכים להיות מדויקים ועדכניים כדי שהלקוח יקבל החלטות עסקיות בטוחות. אחרת, צרכני הנתונים מאבדים אמון בנתונים ומקבלים החלטות לא אופטימליות או שגויות. זוהי משימה נפוצה של מהנדסי נתונים להעריך אם הנתונים מדויקים ועדכניים או לא. כיום ישנם כלים שונים לאיכות נתונים. עם זאת, כלי איכות נתונים נפוצים דורשים בדרך כלל תהליכים ידניים לניטור איכות הנתונים.
איכות נתונים דבק של AWS היא תכונת תצוגה מקדימה של דבק AWS שמודד ומנטר את איכות הנתונים של שירות אחסון פשוט של אמזון (Amazon S3) אגמי נתונים ובעבודות חילוץ, טרנספורמציה וטעינה של דבק AWS (ETL). זוהי תכונת תצוגה מקדימה פתוחה כך שהיא כבר מופעלת בחשבונך ב- אזורים זמינים. אתה יכול להגדיר ולמדוד בקלות את בדיקות איכות הנתונים בקונסולת AWS Glue Studio מבלי לכתוב קודים. זה מפשט את החוויה שלך בניהול איכות הנתונים.
פוסט זה הוא חלק 2 בסדרה בת ארבעה פוסטים כדי להסביר כיצד איכות נתונים של דבק של AWS עובדת. בדוק את הפוסט הקודם בסדרה זו:
בפוסט זה, אנו מראים כיצד ליצור עבודת דבק של AWS המודדת ומנטרת את איכות הנתונים של צינור נתונים. אנו גם מראים כיצד לנקוט פעולה על סמך תוצאות איכות הנתונים.
סקירת פתרונות
הבה נשקול מקרה שימוש לדוגמה שבו מהנדס נתונים צריך לבנות צינור נתונים כדי להטמיע את הנתונים מאזור גולמי לאזור מאוצר באגם נתונים. כמהנדס נתונים, אחת מהאחריות המרכזיות שלך - יחד עם חילוץ, שינוי וטעינת נתונים - היא אימות איכות הנתונים. זיהוי בעיות איכות נתונים מראש עוזר לך למנוע הצבת נתונים גרועים באזור שנאסף ולהימנע מאירועי שחיתות נתונים מפרכים.
בפוסט זה תלמדו כיצד להגדיר בקלות מובנה ו מנהג בדיקות אימות נתונים בעבודת הדבק שלך ב-AWS כדי למנוע מנתונים גרועים להשחית את הנתונים האיכותיים במורד הזרם.
מערך הנתונים המשמש לפוסט זה נוצר באופן סינתטי; צילום המסך הבא מציג דוגמה של הנתונים.
הגדר משאבים עם AWS CloudFormation
פוסט זה כולל א AWS CloudFormation תבנית להגדרה מהירה. אתה יכול לסקור ולהתאים אותו כך שיתאים לצרכים שלך.
תבנית CloudFormation מייצרת את המשאבים הבאים:
- דלי של שירות אחסון פשוט של אמזון (Amazon S3) (
gluedataqualitystudio-*
). - הקידומות והאובייקטים הבאים בדלי S3:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- AWS זהות וניהול גישה (IAM) משתמשים, תפקידים ומדיניות. תפקיד IAM (
GlueDataQualityStudio-*
) יש הרשאה לקרוא ולכתוב מתוך דלי S3. - AWS למבדה פונקציות ומדיניות IAM הנדרשות על ידי פונקציות אלה כדי ליצור ולמחוק מחסנית זו.
כדי ליצור את המשאבים שלך, בצע את השלבים הבאים:
- היכנס ל- קונסולת AWS CloudFormation ב
us-east-1
אזור. - לבחור השקת ערימה:
- בחר אני מאשר ש- AWS CloudFormation עשוי ליצור משאבי IAM.
- לבחור צור ערימה והמתן עד להשלמת שלב יצירת המחסנית.
מיישמים את הפתרון
כדי להתחיל להגדיר את הפתרון שלך, בצע את השלבים הבאים:
- על קונסולת AWS Glue Studio, בחר מקומות תעסוקה בחלונית הניווט.
- בחר ויזואלי עם קנבס ריק ולבחור צור.
- בחר את פרטי עבודה לשונית כדי להגדיר את העבודה.
- בעד שם, להיכנס
GlueDataQualityStudio
. - בעד תפקיד IAM, בחר את התפקיד שמתחיל ב
GlueDataQualityStudio-*
. - בעד גרסת דבק, בחר דבק 3.0.
- בעד סימניה למשרות, בחר שבת. זה מאפשר לך להריץ עבודה זו מספר פעמים עם אותו מערך נתונים קלט.
- בעד מספר ניסיונות חוזרים, להיכנס
0
. - ב מאפיינים מתקדמים בסעיף, ספק את דלי S3 שנוצר על ידי תבנית CloudFormation (החל מ
gluedataqualitystudio-*
). - לבחור שמור.
- לאחר שמירת העבודה, בחר את חזותי לשונית וב- מָקוֹר בתפריט, בחר אמזון S3.
- על מאפייני מקור נתונים - S3 לשונית, עבור סוג מקור S3, בחר מיקום S3.
- לבחור דפדף ב- S3 ונווט לקידומת
/datalake/raw/customer/
בדלי S3 החל מgluedataqualitystudio-*
. - לבחור להסיק סכמה.
- על פעולה בתפריט, בחר הערכת איכות הנתונים.
- בחר את הערכת איכות הנתונים צוֹמֶת.
על לשנות בכרטיסייה, כעת תוכל להתחיל לבנות כללי איכות נתונים. הכלל הראשון שאתה יוצר הוא לבדוק אםCustomer_ID
הוא ייחודי ואינו ריק באמצעות ה-isPrimaryKey
כְּלָל. - על סוגי כללים הכרטיסייה של בונה כללים של DQDL, לחפש אחר
isprimarykey
ובחר את סימן הפלוס. - על סכימה הכרטיסייה של בונה כללים של DQDL, בחר את סימן הפלוס שליד
Customer_ID
. - בעורך הכללים, מחק
id
.
הכלל הבא שאנו מוסיפים בודק ש-First_Name
ערך העמודה קיים עבור כל השורות. - ניתן גם להזין את כללי איכות הנתונים ישירות בעורך הכללים. הוסף פסיק (,) והזן
IsComplete "First_Name",
אחרי הכלל הראשון.
לאחר מכן, אתה מוסיף כלל מותאם אישית כדי לאמת שאין שורה בלעדיוTelephone
orEmail
. - הזן את הכלל המותאם אישית הבא בעורך הכללים:
התכונה הערכת איכות נתונים מספקת פעולות לניהול התוצאה של עבודה על סמך תוצאות איכות העבודה. - לפוסט זה בחר עבודה נכשלת כאשר איכות הנתונים נכשלת ולבחור עבודה נכשלת ללא טעינת יעד נתונים פעולות. בתוך ה הגדרת פלט איכות נתונים סעיף, בחר דפדף ב- S3 ונווט לקידומת
dqresults
בדלי S3 החל מgluedataqualitystudio-*
. - על יעד בתפריט, בחר אמזון S3.
- בחר את יעד נתונים – דלי S3 צוֹמֶת.
- על מאפייני יעד נתונים - S3 לשונית, עבור פוּרמָט, בחר פרקט, ועבור סוג דחיסה, בחר נמרץ.
- בעד מיקום יעד S3, בחר דפדף ב- S3 ונווט אל הקידומת
/datalake/curated/customer/
בדלי S3 החל מgluedataqualitystudio-*
. - לבחור שמור, ואז לבחור הפעלה.
אתה יכול להציג את פרטי ריצת העבודה בכרטיסייה ריצות. בדוגמה שלנו, העבודה נכשלת עם הודעת השגיאה "AssertionError: העבודה נכשלה עקב חוקי DQ כושלים עבור node: ."
תוכל לסקור את תוצאת איכות הנתונים בכרטיסייה איכות נתונים. בדוגמה שלנו, אימות איכות הנתונים המותאם אישית נכשל מכיוון שלאחת מהשורות במערך הנתונים לא היהTelephone
orEmail
ערך.Evaluate Data Quality תוצאות נכתבות גם לדלי S3 בפורמט JSON בהתבסס על פרמטר מיקום תוצאות איכות הנתונים של הצומת. - נווט אל
dqresults
קידומת מתחת לדלי S3 מתחילgluedataqualitystudio-*
. תראה שתוצאת איכות הנתונים מחולקת לפי תאריך.
להלן הפלט של קובץ JSON. אתה יכול להשתמש בפלט קובץ זה כדי לבנות לוחות מחוונים מותאמים אישית להדמיה של איכות נתונים.
אתה יכול גם לפקח על הערכת איכות הנתונים צומת דרך אמזון CloudWatch מדדים והגדר אזעקות כדי לשלוח התראות על תוצאות איכות הנתונים. למידע נוסף על איך להגדיר אזעקות CloudWatch, עיין ב שימוש באזעקות Amazon CloudWatch.
לנקות את
כדי להימנע מחיובים עתידיים וכדי לנקות תפקידים ומדיניות שאינם בשימוש, מחק את המשאבים שיצרת:
- מחק
GlueDataQualityStudio
עבודה שיצרת כחלק מהפוסט הזה. - במסוף AWS CloudFormation, מחק את ה
GlueDataQualityStudio
ערימה.
סיכום
AWS Glue Data Quality מציעה דרך קלה למדוד ולנטר את איכות הנתונים של צינור ה-ETL שלך. בפוסט זה, למדת כיצד לבצע פעולות נחוצות על סמך תוצאות איכות הנתונים, מה שעוזר לך לשמור על סטנדרטים גבוהים של נתונים ולקבל החלטות עסקיות בטוחות.
למידע נוסף על איכות נתונים של דבק AWS, עיין בתיעוד:
על הכותבים
דינבנדהו פראסד הוא מומחה בכיר באנליטיקה ב-AWS, המתמחה בשירותי ביג דאטה. הוא נלהב לעזור ללקוחות לבנות ארכיטקטורת נתונים מודרנית בענן AWS. הוא עזר ללקוחות בכל הגדלים ליישם פתרונות ניהול נתונים, מחסני נתונים ו-Data Lake.
יאניס מנטקידיס הוא מהנדס פיתוח תוכנה בכיר בצוות AWS Glue.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
- מקור: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- אודות
- גישה
- חֶשְׁבּוֹן
- מדויק
- הודה
- פעולה
- פעולות
- לאחר
- תעשיות
- מאפשר
- כְּבָר
- אמזון בעברית
- ניתוח
- ו
- ארכיטקטורה
- AWS
- AWS CloudFormation
- דבק AWS
- רע
- נתונים רעים
- מבוסס
- כי
- לפני
- גָדוֹל
- נתונים גדולים
- לִבנוֹת
- בִּניָן
- עסקים
- מקרה
- חיובים
- לבדוק
- בדיקות
- לבחור
- ענן
- טור
- Common
- להשלים
- בטוח
- לשקול
- קונסול
- צרכנים
- שְׁחִיתוּת
- לִיצוֹר
- נוצר
- יצירה
- אוצר
- מנהג
- לקוח
- לקוחות
- אישית
- נתונים
- אגם דאטה
- ניהול נתונים
- תַאֲרִיך
- החלטות
- פרטים
- צעצועי התפתחות
- ישירות
- תיעוד
- בקלות
- עורך
- אמייל
- מהנדס
- מהנדסים
- זן
- שגיאה
- Ether (ETH)
- להעריך
- דוגמה
- קיים
- ניסיון
- להסביר
- תמצית
- נכשל
- נכשל
- מאפיין
- שלח
- ראשון
- הבא
- פוּרמָט
- החל מ-
- פונקציות
- עתיד
- נוצר
- מייצר
- מקבל
- עזר
- עזרה
- עוזר
- גָבוֹהַ
- באיכות גבוהה
- איך
- איך
- אולם
- HTML
- HTTPS
- מאות
- זיהוי
- זהות
- ליישם
- in
- כולל
- קלט
- בעיות
- IT
- עבודה
- מקומות תעסוקה
- ג'סון
- מפתח
- אגם
- לִלמוֹד
- למד
- למידה
- לִטעוֹן
- טוען
- מיקום
- להפסיד
- מכונה
- למידת מכונה
- לתחזק
- לעשות
- לנהל
- ניהול
- ניהול
- מדריך ל
- למדוד
- אמצעים
- תפריט
- הודעה
- מדדים
- יכול
- מודרני
- צג
- צגים
- יותר
- מספר
- נווט
- ניווט
- הכרחי
- צרכי
- הבא
- צומת
- הודעות
- אובייקטים
- המיוחדות שלנו
- ONE
- לפתוח
- אַחֶרֶת
- זגוגית
- פרמטר
- חלק
- לוהט
- רשות
- צינור
- הַצָבָה
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- ועוד
- מדיניות
- הודעה
- להכין
- להציג
- למנוע
- תצוגה מקדימה
- קודם
- יְסוֹדִי
- תהליכים
- נכסים
- לספק
- מספק
- איכות
- מָהִיר
- חי
- חומר עיוני
- לאחרונה
- באזור
- לדרוש
- נדרש
- משאבים
- תוצאה
- תוצאות
- סקירה
- תפקיד
- תפקידים
- שׁוּרָה
- כלל
- כללי
- הפעלה
- אותו
- חיפוש
- סעיף
- סדרה
- שרות
- שירותים
- סט
- הצבה
- התקנה
- לְהַצִיג
- הופעות
- סִימָן
- פָּשׁוּט
- גדל
- So
- תוכנה
- פיתוח תוכנה
- פִּתָרוֹן
- פתרונות
- מָקוֹר
- מומחה
- מתמחה
- לערום
- תקנים
- התחלה
- החל
- החל
- שלב
- צעדים
- אחסון
- סטודיו
- כדלקמן
- באופן סינתטי
- לקחת
- יעד
- המשימות
- נבחרת
- תבנית
- אל האני
- אלפים
- דרך
- פִּי
- ל
- היום
- כלים
- לשנות
- הפיכה
- סומך
- תחת
- בְּסִיסִי
- ייחודי
- לא בשימוש
- להשתמש
- במקרה להשתמש
- משתמשים
- בְּדֶרֶך כְּלַל
- לְאַמֵת
- אימות
- ערך
- שונים
- לצפיה
- ראיה
- לחכות
- אם
- אשר
- יצטרך
- לְלֹא
- עובד
- לכתוב
- כתיבה
- כתוב
- זפירנט