اليوم ، يستخدم مئات الآلاف من العملاء بحيرات البيانات للتحليلات والتعلم الآلي. ومع ذلك ، يتعين على مهندسي البيانات تنقية وإعداد هذه البيانات قبل استخدامها. يجب أن تكون البيانات الأساسية دقيقة وحديثة حتى يتمكن العميل من اتخاذ قرارات تجارية واثقة. خلاف ذلك ، يفقد مستهلكو البيانات الثقة في البيانات ويتخذون قرارات دون المستوى الأمثل أو غير صحيحة. إنها مهمة شائعة لمهندسي البيانات لتقييم ما إذا كانت البيانات دقيقة وحديثة أم لا. اليوم هناك العديد من أدوات جودة البيانات. ومع ذلك ، تتطلب أدوات جودة البيانات الشائعة عادةً عمليات يدوية لمراقبة جودة البيانات.
تعد AWS Glue Data Quality ميزة معاينة لـ غراء AWS التي تقيس وترصد جودة بيانات خدمة تخزين أمازون البسيطة (Amazon S3) بحيرات البيانات وفي وظائف AWS Glue استخراج وتحويل وتحميل (ETL). هذه ميزة معاينة مفتوحة لذلك تم تمكينها بالفعل في حسابك في المناطق المتاحة. يمكنك بسهولة تحديد وقياس فحوصات جودة البيانات في وحدة تحكم AWS Glue Studio دون كتابة الرموز. يبسط تجربتك في إدارة جودة البيانات.
هذا المنشور هو الجزء الثاني من سلسلة من أربع منشورات لشرح كيفية عمل AWS Glue Data Quality. تحقق من المنشور السابق في هذه السلسلة:
في هذا المنشور ، نوضح كيفية إنشاء وظيفة AWS Glue تقيس وتراقب جودة البيانات في خط أنابيب البيانات. نعرض أيضًا كيفية اتخاذ إجراء بناءً على نتائج جودة البيانات.
حل نظرة عامة
لنفكر في مثال حالة استخدام يحتاج فيها مهندس البيانات إلى إنشاء خط أنابيب بيانات لاستيعاب البيانات من منطقة خام إلى منطقة منظمة في بحيرة بيانات. بصفتك مهندس بيانات ، فإن إحدى مسؤولياتك الرئيسية - جنبًا إلى جنب مع استخراج البيانات وتحويلها وتحميلها - هي التحقق من جودة البيانات. يساعدك تحديد مشكلات جودة البيانات مقدمًا على منع وضع البيانات السيئة في المنطقة المنسقة وتجنب حوادث تلف البيانات الشاقة.
في هذا المنشور ، ستتعلم كيفية الإعداد بسهولة مدمج و على يتحقق التحقق من صحة البيانات في مهمة AWS Glue لمنع البيانات السيئة من إتلاف البيانات عالية الجودة في المراحل النهائية.
يتم إنشاء مجموعة البيانات المستخدمة لهذا المنشور صناعيًا ؛ تُظهر لقطة الشاشة التالية مثالاً على البيانات.
قم بإعداد الموارد باستخدام AWS CloudFormation
يتضمن هذا المنشور ملف تكوين سحابة AWS نموذج لإعداد سريع. يمكنك مراجعته وتخصيصه ليناسب احتياجاتك.
يُنشئ نموذج CloudFormation الموارد التالية:
- حاوية Amazon Simple Storage Service (Amazon S3) (
gluedataqualitystudio-*
). - البادئات والكائنات التالية في حاوية S3:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- إدارة الهوية والوصول AWS (IAM) المستخدمين والأدوار والسياسات. دور IAM (
GlueDataQualityStudio-*
) لديه إذن القراءة والكتابة من حاوية S3. - AWS لامدا الوظائف وسياسات IAM التي تتطلبها هذه الوظائف لإنشاء وحذف هذه المجموعة.
لإنشاء مواردك ، أكمل الخطوات التالية:
- تسجيل الدخول إلى وحدة تحكم AWS CloudFormation في ال
us-east-1
منطقة. - اختار قم بتشغيل Stack:
- أختار أقر بأن AWS CloudFormation قد تنشئ موارد IAM.
- اختار إنشاء مكدس وانتظر حتى تكتمل خطوة إنشاء المكدس.
تنفيذ الحل
لبدء تكوين الحل الخاص بك ، أكمل الخطوات التالية:
- على وحدة تحكم AWS Glue Studio، اختر المشــاريــع في جزء التنقل.
- أختار مرئي مع قماش فارغ واختر إنشاء.
- اختيار تفاصيل الوظيفة علامة التبويب لتكوين الوظيفة.
- في حالة الاسم، أدخل
GlueDataQualityStudio
. - في حالة دور IAM، اختر الدور الذي يبدأ به
GlueDataQualityStudio-*
. - في حالة نسخة الغراء، اختر الغراء 3.0.
- في حالة مرجعية الوظيفة، اختر تعطيل. يتيح لك هذا تشغيل هذه المهمة عدة مرات باستخدام نفس مجموعة بيانات الإدخال.
- في حالة عدد المحاولات، أدخل
0
. - في مجلة خصائص متقدمة في القسم ، قم بتوفير حاوية S3 التي تم إنشاؤها بواسطة قالب CloudFormation (بدءًا من
gluedataqualitystudio-*
). - اختار حفظ.
- بعد حفظ الوظيفة ، اختر ملف مرئي علامة التبويب وعلى مصدر القائمة، اختر الأمازون S3.
- على خصائص مصدر البيانات - S3 علامة التبويب ، لـ نوع مصدر S3، حدد موقع S3.
- اختار تصفح S3 وانتقل إلى البادئة
/datalake/raw/customer/
في دلو S3 بدءًا منgluedataqualitystudio-*
. - اختار استنتاج المخطط.
- على اكشن القائمة، اختر تقييم جودة البيانات.
- اختيار تقييم جودة البيانات العقدة.
على تحول علامة التبويب ، يمكنك الآن البدء في إنشاء قواعد جودة البيانات. أول قاعدة تقوم بإنشائها هي التحقق مما إذا كانCustomer_ID
فريد وليس فارغًا باستخدام الامتدادisPrimaryKey
قاعدة. - على أنواع القواعد علامة التبويب منشئ قواعد DQDL، البحث عن
isprimarykey
واختر علامة الجمع. - على مخطط علامة التبويب منشئ قواعد DQDL، اختر علامة الجمع الموجودة بجانب
Customer_ID
. - في محرر القواعد ، احذف
id
.
القاعدة التالية التي نضيفها تتحقق من أنFirst_Name
قيمة العمود موجودة لجميع الصفوف. - يمكنك أيضًا إدخال قواعد جودة البيانات مباشرةً في محرر القواعد. أضف فاصلة (،) وأدخل
IsComplete "First_Name",
بعد القاعدة الأولى.
بعد ذلك ، أضف قاعدة مخصصة للتحقق من عدم وجود صف بدونTelephone
orEmail
. - أدخل القاعدة المخصصة التالية في محرر القواعد:
توفر ميزة تقييم جودة البيانات إجراءات لإدارة نتيجة الوظيفة بناءً على نتائج جودة الوظيفة. - لهذه الوظيفة ، حدد فشل في العمل عند فشل جودة البيانات واختر فشل المهمة دون تحميل الهدف البيانات أجراءات. في ال إعداد إخراج جودة البيانات القسم، اختر تصفح S3 وانتقل إلى البادئة
dqresults
في دلو S3 بدءًا منgluedataqualitystudio-*
. - على الهدف القائمة، اختر الأمازون S3.
- اختيار هدف البيانات - دلو S3 العقدة.
- على خصائص هدف البيانات - S3 علامة التبويب ، لـ شكل، اختر الباركيهولل نوع الضغط، اختر لاذع.
- في حالة S3 الهدف الموقع، اختر تصفح S3 وانتقل إلى البادئة
/datalake/curated/customer/
في دلو S3 بدءًا منgluedataqualitystudio-*
. - اختار حفظ، ثم اختر يجري.
يمكنك عرض تفاصيل تشغيل الوظيفة في علامة التبويب Runs. في مثالنا ، تفشل المهمة مع ظهور رسالة الخطأ "AssertionError: فشلت المهمة بسبب فشل قواعد DQ للعقدة: . "
يمكنك مراجعة نتيجة جودة البيانات في علامة التبويب جودة البيانات. في مثالنا ، فشل التحقق من جودة البيانات المخصصة نظرًا لعدم احتواء أحد الصفوف في مجموعة البيانات علىTelephone
orEmail
.يتم أيضًا كتابة نتائج تقييم جودة البيانات في حاوية S3 بتنسيق JSON استنادًا إلى معلمة موقع نتيجة جودة البيانات الخاصة بالعقدة. - انتقل إلى
dqresults
البادئة أسفل دلو S3gluedataqualitystudio-*
. سترى أن نتيجة جودة البيانات مقسمة حسب التاريخ.
التالي هو إخراج ملف JSON. يمكنك استخدام إخراج الملف هذا لإنشاء لوحات معلومات مخصصة لتصور جودة البيانات.
يمكنك أيضًا مراقبة ملفات تقييم جودة البيانات عقدة من خلال الأمازون CloudWatch المقاييس وضبط الإنذارات لإرسال إشعارات حول نتائج جودة البيانات. لمعرفة المزيد حول كيفية إعداد إنذارات CloudWatch ، ارجع إلى استخدام إنذارات Amazon CloudWatch.
تنظيف
لتجنب تكبد رسوم في المستقبل وتنظيف الأدوار والسياسات غير المستخدمة ، احذف الموارد التي أنشأتها:
- حذف
GlueDataQualityStudio
الوظيفة التي قمت بإنشائها كجزء من هذا المنشور. - في وحدة تحكم AWS CloudFormation ، احذف ملف
GlueDataQualityStudio
كومة.
وفي الختام
توفر AWS Glue Data Quality طريقة سهلة لقياس ومراقبة جودة البيانات لخط أنابيب ETL الخاص بك. في هذا المنشور ، تعلمت كيفية اتخاذ الإجراءات اللازمة بناءً على نتائج جودة البيانات ، مما يساعدك في الحفاظ على معايير بيانات عالية واتخاذ قرارات عمل واثقة.
لمعرفة المزيد حول جودة بيانات AWS Glue ، راجع الوثائق:
حول المؤلف
دينباندو براساد هو أخصائي تحليلات أول في AWS ، متخصص في خدمات البيانات الضخمة. إنه متحمس لمساعدة العملاء على بناء بنية بيانات حديثة على سحابة AWS. لقد ساعد العملاء من جميع الأحجام في تنفيذ إدارة البيانات ، ومستودعات البيانات ، وحلول بحيرة البيانات.
يانيس مينتيكيديس هو مهندس تطوير برمجيات أول في فريق AWS Glue.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- من نحن
- الوصول
- حسابي
- دقيق
- نقر
- اكشن
- الإجراءات
- بعد
- الكل
- يسمح
- سابقا
- أمازون
- تحليلات
- و
- هندسة معمارية
- AWS
- تكوين سحابة AWS
- غراء AWS
- سيئة
- بيانات سيئة
- على أساس
- لان
- قبل
- كبير
- البيانات الكبيرة
- نساعدك في بناء
- ابني
- الأعمال
- حقيبة
- اسعارنا محددة من قبل وزارة العمل
- التحقق
- الشيكات
- اختار
- سحابة
- عمود
- مشترك
- إكمال
- واثق
- نظر
- كنسولات
- المستهلكين
- فساد
- خلق
- خلق
- خلق
- من تنسيق
- على
- زبون
- العملاء
- تصميم
- البيانات
- بحيرة البيانات
- إدارة البيانات
- التاريخ
- القرارات
- تفاصيل
- التطوير التجاري
- مباشرة
- توثيق
- بسهولة
- رئيس التحرير
- البريد الإلكتروني
- مهندس
- المهندسين
- أدخل
- خطأ
- الأثير (ETH)
- تقييم
- مثال
- موجود
- الخبره في مجال الغطس
- شرح
- استخراج
- فشل
- فشل
- الميزات
- قم بتقديم
- الاسم الأول
- متابعيك
- شكل
- تبدأ من
- وظائف
- مستقبل
- ولدت
- يولد
- الحصول على
- ساعد
- مساعدة
- يساعد
- مرتفع
- عالي الجودة
- كيفية
- كيفية
- لكن
- HTML
- HTTPS
- مئات
- تحديد
- هوية
- تنفيذ
- in
- يشمل
- إدخال
- مسائل
- IT
- وظيفة
- المشــاريــع
- جسون
- القفل
- بحيرة
- تعلم
- تعلم
- تعلم
- تحميل
- جار التحميل
- موقع
- فقد
- آلة
- آلة التعلم
- المحافظة
- جعل
- إدارة
- إدارة
- إدارة
- كتيب
- قياس
- الإجراءات
- القائمة
- الرسالة
- المقاييس
- ربما
- تقدم
- مراقبة
- شاشات
- الأكثر من ذلك
- متعدد
- التنقل
- قائمة الإختيارات
- ضروري
- إحتياجات
- التالي
- العقدة
- الإخطارات
- الأجسام
- عروض
- ONE
- جاكيت
- وإلا
- خبز
- المعلمة
- جزء
- عاطفي
- إذن
- خط أنابيب
- وضع
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- المزيد
- سياسات الخصوصية والبيع
- منشور
- إعداد
- يقدم
- منع
- أرسال
- سابق
- ابتدائي
- العمليات
- HAS
- تزود
- ويوفر
- جودة
- سريع
- الخام
- عرض
- الأخيرة
- منطقة
- تطلب
- مطلوب
- الموارد
- نتيجة
- النتائج
- مراجعة
- النوع
- الأدوار
- صف
- قاعدة
- القواعد
- يجري
- نفسه
- بحث
- القسم
- مسلسلات
- الخدمة
- خدمات
- طقم
- ضبط
- الإعداد
- إظهار
- يظهر
- إشارة
- الاشارات
- الأحجام
- So
- تطبيقات الكمبيوتر
- تطوير البرمجيات
- حل
- الحلول
- مصدر
- متخصص
- متخصصة
- كومة
- المعايير
- بداية
- بدأت
- ابتداء
- خطوة
- خطوات
- تخزين
- ستوديو
- بدلة
- صناعيا
- أخذ
- الهدف
- مهمة
- فريق
- قالب
- •
- الآلاف
- عبر
- مرات
- إلى
- اليوم
- أدوات
- تحول
- تحويل
- الثقة
- مع
- التي تقوم عليها
- فريد من نوعه
- غير المستخدمة
- تستخدم
- حالة الاستخدام
- المستخدمين
- عادة
- التحقق من صحة
- التحقق من صحة
- قيمنا
- مختلف
- المزيد
- التصور
- انتظر
- سواء
- التي
- سوف
- بدون
- أعمال
- اكتب
- جاري الكتابة
- مكتوب
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت