בשנים האחרונות, אגמי נתונים הפכו לארכיטקטורת מיינסטרים, ואימות איכות הנתונים הוא גורם קריטי לשיפור השימוש החוזר והעקביות של הנתונים. איכות נתונים של דבק AWS מפחית את המאמץ הנדרש לאימות נתונים מימים לשעות, ומספק המלצות מחשוב, סטטיסטיקות ותובנות לגבי המשאבים הנדרשים להפעלת אימות הנתונים.
AWS Glue Data Quality מבוססת על DeeQu, כלי קוד פתוח שפותח ומשמש באמזון לחישוב מדדי איכות נתונים ולאימות אילוצי איכות נתונים ושינויים בהפצת הנתונים, כך שתוכל להתמקד בתיאור כיצד הנתונים צריכים להיראות במקום ליישם אלגוריתמים.
בפוסט זה, אנו מספקים תוצאות בנצ'מרק של הפעלת ערכות כללי איכות נתונים מורכבות יותר ויותר על גבי מערך נתונים מוגדר מראש לבדיקה. כחלק מהתוצאות, אנו מראים כיצד AWS Glue Data Quality מספקת מידע על זמן הריצה של עבודות חילוץ, טרנספורמציה וטעינה (ETL), המשאבים הנמדדים במונחים של יחידות עיבוד נתונים (DPUs), וכיצד ניתן לעקוב אחר העלות של הפעלת AWS Glue Data Quality עבור צינורות ETL על ידי הגדרת דיווח עלויות מותאם אישית ב-AWS Cost Explorer.
סקירת פתרונות
אנו מתחילים בהגדרת מערך הנתונים של הבדיקה שלנו על מנת לחקור כיצד איכות נתונים של דבק של AWS משתנה באופן אוטומטי בהתאם למערך נתונים של קלט.
פרטי מערך הנתונים
מערך הנתונים לבדיקה מכיל 104 עמודות ומיליון שורות המאוחסנות בפורמט Parquet. אתה יכול הורד את מערך הנתונים או צור אותו מחדש באופן מקומי באמצעות סקריפט Python המסופק ב- מאגר. אם תבחר להפעיל את סקריפט המחולל, עליך להתקין את פנדות ו מימיסיס חבילות בסביבת Python שלך:
סכימת מערך הנתונים היא שילוב של משתנים מספריים, קטגוריים ומשתנים מחרוזים כדי שיהיו מספיק תכונות לשימוש בשילוב של איכות נתונים מובנית של דבק AWS סוגי כללים. הסכימה משכפלת כמה מהמאפיינים הנפוצים ביותר שנמצאו בנתוני שוק פיננסי, כגון טיקר מכשירים, נפחי סחר ותחזיות תמחור.
ערכות כללי איכות נתונים
אנו מסווגים כמה מסוגי כללי איכות הנתונים המובנים של דבק דבק ב-AWS כדי להגדיר את מבנה ההשוואה. הקטגוריות שוקלות אם הכללים מבצעים בדיקות עמודות שאינן דורשות בדיקה ברמת השורה (כללים פשוטים), ניתוח שורה אחר שורה (כללים בינוניים), או בדיקות סוגי נתונים, בסופו של דבר משווים ערכי שורה מול מקורות נתונים אחרים (כללים מורכבים ). הטבלה הבאה מסכמת כללים אלו.
כללים פשוטים | כללים בינוניים | כללים מורכבים |
ספירת עמודות | DistinctValuesCount | ערכי עמודה |
ColumnDataType | הושלם | שְׁלֵמוּת |
ColumnExist | סכום | שלמות קשרים |
ColumnNamesMatchPattern | סטיית תקן | עמודה מתאם |
ספירת שורות | ממוצע | RowCountMatch |
אורך עמודה | . | . |
אנו מגדירים שמונה משרות שונות של AWS Glue ETL שבהן אנו מפעילים את כללי איכות הנתונים. לכל עבודה יש מספר שונה של כללי איכות נתונים הקשורים אליה. לכל עבודה יש גם משויך תג הקצאת עלויות המוגדר על ידי המשתמש שבו אנו משתמשים כדי ליצור דוח עלות איכות נתונים ב-AWS Cost Explorer מאוחר יותר.
אנו מספקים את הגדרת הטקסט הפשוט עבור כל קבוצת כללים בטבלה הבאה.
שם העבודה | כללים פשוטים | כללים בינוניים | כללים מורכבים | מספר כללים | תג | הַגדָרָה |
ערכת חוקים-0 | 0 | 0 | 0 | 0 | dqjob:rs0 | - |
ערכת חוקים-1 | 0 | 0 | 1 | 1 | dqjob:rs1 | קישור |
ערכת חוקים-5 | 3 | 1 | 1 | 5 | dqjob:rs5 | קישור |
ערכת חוקים-10 | 6 | 2 | 2 | 10 | dqjob:rs10 | קישור |
ערכת חוקים-50 | 30 | 10 | 10 | 50 | dqjob:rs50 | קישור |
ערכת חוקים-100 | 50 | 30 | 20 | 100 | dqjob:rs100 | קישור |
ערכת חוקים-200 | 100 | 60 | 40 | 200 | dqjob:rs200 | קישור |
ערכת חוקים-400 | 200 | 120 | 80 | 400 | dqjob:rs400 | קישור |
צור את משימות AWS Glue ETL המכילות את ערכות כללי איכות הנתונים
אנחנו מעלים את מערך נתונים לבדיקה ל שירות אחסון פשוט של אמזון (Amazon S3) וגם שני קבצי CSV נוספים שבהם נשתמש כדי להעריך כללי שלמות התייחסות ב-AWS Glue Data Quality (isocodes.csv ו exchanges.csv) לאחר שהם נוספו לקטלוג נתוני הדבק של AWS. השלם את השלבים הבאים:
- בקונסולת Amazon S3, צור דלי S3 חדש בחשבונך והעלה את מערך נתונים לבדיקה.
- צור תיקיה בדלי S3 בשם
isocodes
ולהעלות את isocodes.csv קובץ. - צור תיקיה נוספת בדלי S3 בשם exchange והעלה את exchanges.csv קובץ.
- במסוף AWS Glue, הפעל שני סורקי AWS Glue, אחד עבור כל תיקיה כדי לרשום את תוכן ה-CSV ב-AWS Glue Data Catalog (
data_quality_catalog
). להנחיות, עיין ב הוספת סורק דבק AWS.
סורקי ה-AWS Glue מייצרים שתי טבלאות (exchanges
ו isocodes
) כחלק מקטלוג הנתונים של AWS Glue Data.
כעת ניצור את AWS זהות וניהול גישה (אני) תפקיד שיתקבלו על ידי משרות ה-ETL בזמן הריצה:
- במסוף IAM, צור תפקיד IAM חדש בשם
AWSGlueDataQualityPerformanceRole
- בעד סוג ישות מהימנה, בחר שירות AWS.
- בעד מקרה שירות או שימוש, בחר דֶבֶק.
- בחרו הַבָּא.
- בעד מדיניות הרשאות, להיכנס
AWSGlueServiceRole
- בחרו הַבָּא.
- צור וצרף מדיניות מוטבעת חדשה (
AWSGlueDataQualityBucketPolicy
) עם התוכן הבא. החלף את מציין המיקום בשם הדלי S3 שיצרת קודם לכן:
לאחר מכן, אנו יוצרים את אחת מעבודות AWS Glue ETL, ruleset-5
.
- על קונסולת הדבק AWS, מתחת משרות ETL בחלונית הניווט, בחר Visual ETL.
- ב צור עבודה סעיף, בחר Visual ETL.x
- בעורך החזותי, הוסף א מקור נתונים - S3 Bucket צומת מקור:
- בעד כתובת אתר S3, היכנס לתיקיית S3 המכילה את מערך הנתונים של הבדיקה.
- בעד פורמט נתונים, בחר פרקט.
- צור צומת פעולה חדש, טרנספורמציה: הערכת-נתונים-קטלוג:
- בעד הורים צומתים, בחר את הצומת שיצרת.
- מוסיף את הגדרת חוקים-5 תחת עורך ערכת כללים.
- גלול עד הסוף ומטה תצורת ביצועים, לאפשר נתוני מטמון.
- תַחַת פרטי עבודה, עבור תפקיד IAM, בחר
AWSGlueDataQualityPerformanceRole
. - ב תגים סעיף, להגדיר dqjob לתייג כ rs5.
תג זה יהיה שונה עבור כל אחת מעבודות ה-ETL באיכות הנתונים; אנו משתמשים בהם ב-AWS Cost Explorer כדי לסקור את עלות משרות ETL.
- בחרו שמור.
- חזור על שלבים אלה עם שאר ערכות הכללים כדי להגדיר את כל משימות ה-ETL.
הפעל את משימות AWS Glue ETL
השלם את השלבים הבאים כדי להפעיל את משימות ה-ETL:
- במסוף הדבק של AWS בחר Visual ETL תחת משרות ETL בחלונית הניווט.
- בחר את עבודת ה-ETL ובחר הפעל עבודה.
- חזור על כל משרות ה-ETL.
כאשר עבודות ה-ETL הסתיימו, ה ניטור ריצת עבודה הדף יציג את פרטי המשרה. כפי שמוצג בצילום המסך הבא, א שעות DPU עמודה מסופקת עבור כל עבודת ETL.
סקור את הביצועים
הטבלה הבאה מסכמת את משך הזמן, שעות ה-DPU והעלויות המשוערות מהפעלת שמונה ערכות כללי איכות הנתונים השונות על אותו מערך בדיקה. שים לב שכל ערכות הכללים הופעלו עם כל מערך הנתונים של הבדיקה שתואר קודם לכן (104 עמודות, מיליון שורות).
שם עבודה ETL | מספר כללים | תג | משך (שניות) | # שעות DPU | # של DPUs | עלות ($) |
ערכת חוקים-400 | 400 | dqjob:rs400 | 445.7 | 1.24 | 10 | $0.54 |
ערכת חוקים-200 | 200 | dqjob:rs200 | 235.7 | 0.65 | 10 | $0.29 |
ערכת חוקים-100 | 100 | dqjob:rs100 | 186.5 | 0.52 | 10 | $0.23 |
ערכת חוקים-50 | 50 | dqjob:rs50 | 155.2 | 0.43 | 10 | $0.19 |
ערכת חוקים-10 | 10 | dqjob:rs10 | 152.2 | 0.42 | 10 | $0.18 |
ערכת חוקים-5 | 5 | dqjob:rs5 | 150.3 | 0.42 | 10 | $0.18 |
ערכת חוקים-1 | 1 | dqjob:rs1 | 150.1 | 0.42 | 10 | $0.18 |
ערכת חוקים-0 | 0 | dqjob:rs0 | 53.2 | 0.15 | 10 | $0.06 |
העלות של הערכת ערכת כללים ריקה קרובה לאפס, אך היא נכללה מכיוון שהיא יכולה לשמש כבדיקה מהירה לאימות תפקידי IAM המשויכים למשימות איכות נתונים של דבק של AWS והרשאות קריאה למערך הבדיקה באמזון S3. העלות של עבודות איכות נתונים מתחילה לעלות רק לאחר הערכת ערכי כללים עם יותר מ-100 כללים, שנותרו קבוע מתחת למספר זה.
אנו יכולים לראות שהעלות של הפעלת איכות הנתונים עבור ערכת הכללים הגדולה ביותר במבחן (400 כללים) עדיין מעט מעל $0.50.
ניתוח עלויות איכות נתונים ב-AWS Cost Explorer
כדי לראות את תגי העבודה ETL באיכות הנתונים ב-AWS Cost Explorer, עליך לעשות זאת להפעיל את תגי הקצאת העלויות המוגדרים על ידי המשתמש ראשון.
לאחר יצירת והחלת תגיות מוגדרות על ידי משתמש על המשאבים שלך, עשויות לחלוף עד 24 שעות עד שמפתחות התגים יופיעו בדף תגי הקצאת העלויות להפעלה. לאחר מכן עשויות לחלוף עד 24 שעות עד שהמפתחות של התג יפעלו.
- על ה-AWS סייר עלויות קונסולה, בחר סייר עלויות דוחות שמורים בחלונית הניווט.
- בחרו צור דוח חדש.
- בחר עלות ושימוש כסוג הדוח.
- בחרו צור דו"ח.
- בעד טווח תאריכים, הזן טווח תאריכים.
- בעד גרגיריותבחר יומי.
- בעד מֵמַד, בחר תג, ולאחר מכן לבחור את
dqjob
תָג. - תַחַת החלת מסננים, בחר את
dqjob
תג ושמונה התגים המשמשים בערכות כללי איכות הנתונים (rs0, rs1, rs5, rs10, rs50, rs100, rs200 ו-rs400). - בחרו החל.
דוח העלות והשימוש יעודכן. ציר ה-X מציג את תגיות כללי איכות הנתונים כקטגוריות. ה עלות ושימוש גרף ב-AWS Cost Explorer ירענן ויציג את העלות החודשית הכוללת של עבודות ה-ETL העדכניות ביותר שבוצעו באיכות הנתונים, מצטברות לפי משימת ETL.
לנקות את
כדי לנקות את התשתית ולהימנע מחיובים נוספים, בצע את השלבים הבאים:
- רוקן את דלי S3 שנוצר תחילה כדי לאחסן את מערך הנתונים של הבדיקה.
- מחק את משרות ה-ETL שיצרת ב-AWS Glue.
- מחק
AWSGlueDataQualityPerformanceRole
תפקיד IAM. - מחק את הדוח המותאם אישית שנוצר ב-AWS Cost Explorer.
סיכום
AWS Glue Data Quality מספקת דרך יעילה לשלב אימות איכות נתונים כחלק מצינורות ETL וקנה מידה אוטומטי כדי להתאים לנפחים הולכים וגדלים של נתונים. סוגי כללי איכות הנתונים המובנים מציעים מגוון רחב של אפשרויות להתאים אישית את בדיקות איכות הנתונים ולהתמקד באיך הנתונים שלך צריכים להיראות במקום ליישם היגיון לא מובחן.
בניתוח השוואת ביצועים זה, הראינו כיצד לערכות כללי איכות נתונים של AWS Glue Data בגודל נפוץ יש תקורה מועטה או ללא תקורה, בעוד שבמקרים מורכבים, העלות עולה באופן ליניארי. סקרנו גם כיצד ניתן לתייג משרות איכות נתונים של דבק של AWS כדי להפוך מידע עלות זמין ב-AWS Cost Explorer לדיווח מהיר.
איכות הנתונים של דבק AWS היא בדרך כלל זמין בכל אזורי AWS שבהם דבק AWS זמין. למידע נוסף על איכות נתונים של דבק AWS וקטלוג נתוני דבק של AWS ב תחילת העבודה עם איכות נתונים של דבק של AWS מקטלוג הנתונים של דבק של AWS.
על הכותבים
רובן אפונסו הוא אדריכל פתרונות פתרונות פיננסיים גלובליים עם AWS. הוא נהנה לעבוד על אתגרי אנליטיקה ו-AI/ML, עם תשוקה לאוטומציה ואופטימיזציה. כשהוא לא בעבודה, הוא נהנה למצוא מקומות נסתרים מחוץ לשביל המקובל סביב ברצלונה.
Kalyan Kumar Neelampudi (KK) הוא אדריכל פתרונות שותפים (Data Analytics & Generative AI) ב-AWS. הוא משמש כיועץ טכני ומשתף פעולה עם שותפי AWS שונים כדי לתכנן, ליישם ולבנות שיטות עבודה סביב ניתוח נתונים ועומסי עבודה של AI/ML. מחוץ לעבודה, הוא חובב בדמינטון והרפתקן קולינרי, חוקר מאכלים מקומיים ומטייל עם בן זוגו כדי לגלות טעמים וחוויות חדשות.
גונזלו הררוס הוא ארכיטקט ביג דאטה בכיר בצוות AWS Glue.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/big-data/measure-performance-of-aws-glue-data-quality-for-etl-pipelines/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 1
- 100
- 11
- 12
- 120
- 19
- 21
- 24
- 400
- 5
- 50
- 7
- 9
- 90
- a
- אודות
- מֵעַל
- גישה
- להתאים
- חֶשְׁבּוֹן
- פעולה
- להפעיל
- הפעלה
- מעשים
- להוסיף
- הוסיף
- נוסף
- הרפתקן
- יועץ
- לאחר
- נגד
- מצטבר
- AI
- AI / ML
- אלגוריתמים
- תעשיות
- הַקצָאָה
- להתיר
- גם
- אמזון בעברית
- אמזון שירותי אינטרנט
- an
- אנליזה
- ניתוח
- ו
- אחר
- לְהוֹפִיעַ
- החל
- ארכיטקטורה
- ARE
- סביב
- AS
- המשויך
- להניח
- At
- לצרף
- תכונות
- באופן אוטומטי
- אוטומציה
- זמין
- לְהִמָנַע
- AWS
- דבק AWS
- ברצלונה
- BE
- כי
- להיות
- היה
- להלן
- בנצ 'מרק
- גָדוֹל
- נתונים גדולים
- לִבנוֹת
- נבנה
- מובנה
- אבל
- by
- מטמון
- לחשב
- נקרא
- CAN
- מקרים
- קטלוג
- קטגוריות
- לְסַוֵג
- האתגרים
- שינויים
- חיובים
- בדיקות
- בחרו
- לְנַקוֹת
- סְגוֹר
- משתף פעולה
- טור
- עמודות
- שילוב
- Common
- השוואה
- להשלים
- מורכב
- מחשוב
- לאשר
- לשקול
- עקביות
- קונסול
- קבוע
- אילוצים
- מכיל
- מכיל
- תוכן
- עלות
- עלויות
- הסורק
- לִיצוֹר
- נוצר
- יצירה
- קריטי
- מנהג
- אישית
- נתונים
- ניתוח נתונים
- עיבוד נתונים
- איכות נתונים
- מערכי נתונים
- תַאֲרִיך
- ימים
- לְהַגדִיר
- מוגדר
- הגדרה
- הגדרה
- תלוי
- מְתוּאָר
- המתאר
- עיצוב
- פרטים
- מפותח
- אחר
- לגלות
- לְהַצִיג
- הפצה
- לא
- משך
- כל אחד
- מוקדם יותר
- עורך
- השפעה
- יעיל
- מאמץ
- שמונה
- ריק
- לאפשר
- סוף
- מספיק
- זן
- נלהב
- שלם
- ישות
- סביבה
- מוערך
- Ether (ETH)
- להעריך
- הערכה
- בסופו של דבר
- חליפין
- מבצע
- חוויות
- לחקור
- חוקר
- היכרות
- תמצית
- גורם
- שלח
- קבצים
- כספי
- שוק פיננסי
- שירותים פיננסיים
- מציאת
- ראשון
- להתמקד
- הבא
- בעד
- תחזיות
- פוּרמָט
- מצא
- החל מ-
- ליצור
- גנרטטיבית
- AI Generative
- גנרטור
- גלוֹבָּלִי
- פיננסי גלובלי
- גרף
- יש
- he
- מוּסתָר
- שֶׁלוֹ
- שעות
- איך
- HTML
- http
- HTTPS
- IAM
- זהות
- if
- ליישם
- יישום
- לשפר
- in
- כלול
- בע"מ
- להגדיל
- עליות
- גדל
- יותר ויותר
- מידע
- תשתית
- בהתחלה
- קלט
- תובנות
- להתקין
- במקום
- הוראות
- מכשיר
- שלמות
- IT
- עבודה
- מקומות תעסוקה
- מפתחות
- קומאר
- אגמים
- הגדול ביותר
- מאוחר יותר
- האחרון
- לִלמוֹד
- באופן ליניארי
- קְצָת
- לִטעוֹן
- מקומי
- באופן מקומי
- הגיון
- נראה
- זרם מרכזי
- לעשות
- שוק
- נתוני מסחר
- למדוד
- נמדד
- בינוני
- מדדים
- מִילִיוֹן
- ניטור
- אחת לחודש
- יותר
- רוב
- שם
- ניווט
- צורך
- חדש
- לא
- צומת
- הערות
- מספר
- מספרית
- להתבונן
- of
- כבוי
- הַצָעָה
- on
- ONE
- רק
- לפתוח
- קוד פתוח
- אופטימיזציה
- אפשרות
- אפשרויות
- or
- להזמין
- אחר
- שלנו
- בחוץ
- יותר
- ממעל
- סקירה
- חבילות
- עמוד
- דובי פנדה
- זגוגית
- פרמטר
- חלק
- שותף
- שותפים
- תשוקה
- נתיב
- לבצע
- ביצועים
- הרשאות
- מציין מיקום
- מישור
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- מדיניות
- מדיניות
- הודעה
- פרקטיקות
- קוֹדֶם
- תמחור
- תהליך
- לספק
- ובלבד
- מספק
- פיתון
- איכות
- מָהִיר
- רכס
- חומר עיוני
- לאחרונה
- המלצות
- מפחית
- להתייחס
- אזורים
- הירשם
- נותר
- להחליף
- משכפל
- לדווח
- דווח
- לדרוש
- נדרש
- משאב
- משאבים
- REST
- תוצאות
- סקירה
- סקר
- תקין
- תפקיד
- תפקידים
- שׁוּרָה
- שורות
- כלל
- כללי
- ערכי כללים
- הפעלה
- ריצה
- זמן ריצה
- אותו
- הציל
- מאזניים
- תסריט
- ה-SEC
- לִרְאוֹת
- בחר
- מבחר
- לחצני מצוקה לפנסיונרים
- שירותים
- צריך
- לְהַצִיג
- הראה
- הראה
- הופעות
- פָּשׁוּט
- מעט
- So
- פתרונות
- כמה
- מָקוֹר
- מקורות
- מומחה
- נקודות
- התחלה
- החל
- התחלות
- הצהרה
- סטטיסטיקה
- צעדים
- עוד
- אחסון
- חנות
- מאוחסן
- מחרוזת
- מִבְנֶה
- סטודיו
- כזה
- שולחן
- תָג
- לקחת
- טעים
- נבחרת
- טכני
- מונחים
- מבחן
- טֶקסט
- מֵאֲשֶׁר
- זֶה
- השמיים
- אותם
- אז
- אלה
- הֵם
- זֶה
- טיקר
- ל
- כלי
- חלק עליון
- סה"כ
- לעקוב
- נסחר
- לשנות
- נסיעה
- סומך
- שתיים
- סוג
- סוגים
- תחת
- יחידות
- מְעוּדכָּן
- נוֹהָג
- להשתמש
- מְשׁוּמָשׁ
- באמצעות
- לְאַמֵת
- אימות
- ערכים
- משתנים
- שונים
- לאמת
- גרסה
- חזותי
- כרכים
- דֶרֶך..
- we
- אינטרנט
- שירותי אינטרנט
- מתי
- ואילו
- אם
- רָחָב
- טווח רחב
- יצטרך
- עם
- תיק עבודות
- עובד
- שנים
- אתה
- זפירנט
- אפס