تجمع الشركات المزيد والمزيد من البيانات كل يوم لدفع العمليات مثل صنع القرار وإعداد التقارير والتعلم الآلي (ML). قبل تنظيف بياناتك وتحويلها ، تحتاج إلى تحديد ما إذا كانت مناسبة للاستخدام أم لا. يمكن أن يكون للبيانات غير الصحيحة أو المفقودة أو المشوهة تأثيرات كبيرة على تحليلات المصب وعمليات التعلم الآلي. يساعد إجراء فحوصات جودة البيانات في تحديد المشكلات في وقت سابق في سير عملك حتى تتمكن من حلها بشكل أسرع. بالإضافة إلى ذلك ، يساعدك إجراء هذه الفحوصات باستخدام بنية قائمة على الحدث في تقليل نقاط الاتصال اليدوية والتوسع باستخدام كميات متزايدة من البيانات.
AWS Glue Data Brew هي أداة لإعداد البيانات المرئية تسهل العثور على إحصاءات جودة البيانات مثل القيم المكررة والقيم المفقودة والقيم المتطرفة في بياناتك. يمكنك أيضًا إعداد قواعد جودة البيانات في DataBrew لإجراء فحوصات مشروطة بناءً على احتياجات عملك الفريدة. على سبيل المثال ، قد تحتاج الشركة المصنعة إلى التأكد من عدم وجود قيم مكررة على وجه التحديد في ملف Part ID
أو قد يتحقق مقدم الرعاية الصحية من هذه القيم في ملف SSN
العمود بطول معين. بعد إنشاء هذه القواعد والتحقق منها باستخدام DataBrew ، يمكنك استخدام أمازون إيفينت بريدج, وظائف خطوة AWS, AWS لامداو خدمة إعلام أمازون البسيطة (Amazon SNS) لإنشاء سير عمل آلي وإرسال إشعار عندما تفشل القاعدة في التحقق من الصحة.
في هذا المنشور ، نوجهك خلال سير العمل الشامل وكيفية تنفيذ هذا الحل. يتضمن هذا المنشور تعليميًا خطوة بخطوة ، ملف نموذج تطبيق AWS Serverless (AWS SAM) ومثال التعليمات البرمجية التي يمكنك استخدامها لنشر التطبيق في بيئة AWS الخاصة بك.
حل نظرة عامة
يجمع الحل في هذا المنشور serverless خدمات AWS لبناء خط أنابيب مؤتمت بالكامل يحركه الحدث من البداية إلى النهاية للتحقق من جودة البيانات. يوضح الرسم البياني التالي هندسة الحلول لدينا.
يحتوي سير عمل الحل على الخطوات التالية:
- عند تحميل بيانات جديدة إلى ملف خدمة تخزين أمازون البسيطة (Amazon S3) ، يتم إرسال الأحداث إلى EventBridge.
- تؤدي قاعدة EventBridge إلى تشغيل آلة حالة Step Functions.
- يبدأ جهاز الحالة وظيفة ملف تعريف DataBrew ، تم تكوينها باستخدام مجموعة قواعد وقواعد جودة البيانات. إذا كنت تفكر في بناء حل مشابه ، فيجب أن يكون موقع إخراج وظيفة ملف تعريف DataBrew وبيانات المصدر S3 فريدًا. هذا يمنع تشغيل المهام العودية. ننشر مواردنا بامتداد تكوين سحابة AWS الذي يُنشئ حاويات S3 فريدة.
- تقرأ دالة Lambda نتائج جودة البيانات من Amazon S3 ، وترجع استجابة منطقية إلى جهاز الحالة. ترجع الدالة
false
إذا فشلت قاعدة واحدة أو أكثر في مجموعة القواعد ، وعادتtrue
إذا نجحت جميع القواعد. - إذا كانت الاستجابة المنطقية هي
false
، يرسل جهاز الحالة إشعارًا بالبريد الإلكتروني مع Amazon SNS وينتهي جهاز الحالة بـfailed
الحالة. إذا كانت الاستجابة المنطقية هيtrue
، آلة الدولة تنتهي فيsucceed
الحالة. يمكنك أيضًا تمديد الحل في هذه الخطوة لتشغيل مهام أخرى عند النجاح أو الفشل. على سبيل المثال ، إذا نجحت جميع القواعد ، يمكنك إرسال رسالة EventBridge لتشغيل مهمة تحويل أخرى في DataBrew.
في هذا المنشور ، تستخدم AWS CloudFormation لنشر عرض توضيحي يعمل بكامل طاقته لحل التحقق من جودة البيانات المستند إلى الأحداث. تختبر الحل عن طريق تحميل ملف صالح بقيم مفصولة بفواصل (CSV) إلى Amazon S3 ، متبوعًا بملف CSV غير صالح.
والخطوات هي كما يلي:
- قم بتشغيل مكدس CloudFormation لنشر موارد الحل.
- اختبر الحل:
- قم بتحميل ملف CSV صالح إلى Amazon S3 ولاحظ نجاح عملية التحقق من جودة البيانات ونجاح جهاز حالة وظائف الخطوة.
- قم بتحميل ملف CSV غير صالح إلى Amazon S3 ولاحظ فشل التحقق من جودة البيانات وفشل جهاز حالة وظائف الخطوة ، واستلم إشعارًا بالبريد الإلكتروني من Amazon SNS.
يمكن العثور على جميع نماذج التعليمات البرمجية في ملف مستودع جيثب.
المتطلبات الأساسية المسبقة
في هذا الدليل ، يجب أن يكون لديك المتطلبات الأساسية التالية:
انشر موارد الحل باستخدام AWS CloudFormation
يمكنك استخدام مكدس CloudFormation لنشر الموارد اللازمة لحل التحقق من جودة البيانات المستند إلى الحدث. يتضمن المكدس مثالاً لمجموعة بيانات ومجموعة قواعد في DataBrew.
- سجّل الدخول إلى حساب AWS الخاص بك ثم اختر قم بتشغيل Stack:
- على كومة إنشاء سريعة صفحة ، لـ عنوان البريد الإلكتروني، أدخل عنوان بريد إلكتروني صالحًا لإشعارات البريد الإلكتروني في Amazon SNS.
- اترك الخيارات المتبقية مضبوطة على الإعدادات الافتراضية.
- حدد خانات الاختيار إقرار بالاستلام.
- اختار إنشاء مكدس.
يستغرق مكدس CloudFormation حوالي 5 دقائق للوصول CREATE_COMPLETE
الحالة.
- تحقق من صندوق الوارد الخاص بعنوان البريد الإلكتروني الذي قدمته واقبل اشتراك SNS.
تحتاج إلى مراجعة وقبول تأكيد الاشتراك لتوضيح ميزة إعلام البريد الإلكتروني في نهاية الإرشادات التفصيلية.
على النواتج علامة تبويب المكدس ، يمكنك العثور على عناوين URL لتصفح موارد DataBrew و Step Functions التي أنشأها القالب. لاحظ أيضًا أوامر AWS CLI المكتملة التي تستخدمها في خطوات لاحقة.
إذا اخترت AWSGlueDataBrewRuleset
رابط القيمة ، يجب أن تشاهد صفحة تفاصيل مجموعة القواعد ، كما في لقطة الشاشة التالية. في هذه الإرشادات ، أنشأنا مجموعة قواعد جودة البيانات بثلاث قواعد تتحقق من القيم المفقودة ، والقيم المتطرفة ، وطول السلسلة.
اختبر المحلول
في الخطوات التالية ، يمكنك استخدام AWS CLI لتحميل إصدارات صحيحة وغير صحيحة من ملف CSV لاختبار حل التحقق من جودة البيانات المستند إلى الأحداث.
- افتح Terminal أو موجه سطر الأوامر واستخدم AWS CLI لتنزيل بيانات نموذجية. استخدم الأمر من إخراج مكدس CloudFormation مع اسم المفتاح
CommandToDownloadTestData
: - استخدم AWS CLI مرة أخرى لتحميل ملف CSV غير المتغير إلى حاوية S3 الخاصة بك. استبدل السلسلة باسم الحاوية الخاصة بك ، أو انسخ والصق الأمر المقدم لك من إخراج قالب CloudFormation:
- في وحدة التحكم في وظائف الخطوة ، حدد موقع جهاز الحالة الذي تم إنشاؤه بواسطة قالب CloudFormation.
يمكنك العثور على عنوان URL في مخرجات CloudFormation المذكورة سابقًا.
- على المعاملات علامة التبويب ، يجب أن تشاهد تشغيلًا جديدًا لجهاز الحالة.
- اختر عنوان URL للتشغيل لعرض الرسم البياني لجهاز الحالة ومراقبة تقدمه.
توضح الصورة التالية سير عمل آلة الدولة لدينا.
لإثبات فشل قاعدة جودة البيانات ، يمكنك إجراء تعديل واحد على الأقل لملف votes.csv
ملف.
- افتح الملف في محرر النصوص أو أداة جداول البيانات المفضلة لديك ، واحذف خلية واحدة فقط.
في لقطات الشاشة التالية ، أستخدم محرر GNU nano على Linux. يمكنك أيضًا استخدام محرر جدول بيانات لحذف خلية. يؤدي هذا إلى فشل قاعدة "التحقق من كافة الأعمدة للقيم المفقودة".
تُظهر لقطة الشاشة التالية ملف CSV قبل التعديل.
تُظهر لقطة الشاشة التالية ملف CSV الذي تم تغييره.
- احفظ المحرر
votes.csv
ملف والعودة إلى موجه الأوامر أو المحطة الطرفية. - استخدم AWS CLI لتحميل الملف إلى حاوية S3 مرة أخرى. أنت تستخدم نفس الأمر كما كان من قبل:
- في وحدة التحكم في وظائف الخطوة ، انتقل إلى أحدث آلة حالة تم تشغيلها لمراقبتها.
فشل التحقق من جودة البيانات ، مما أدى إلى تشغيل إشعار بريد إلكتروني لـ SNS وفشل تشغيل جهاز الحالة العامة.
توضح الصورة التالية سير عمل جهاز الحالة الفاشلة.
تُظهر لقطة الشاشة التالية مثالاً على بريد SNS الإلكتروني.
- يمكنك التحقيق في فشل القاعدة على وحدة تحكم DataBrew باختيار ملف
AWSGlueDataBrewProfileResults
القيمة في مخرجات مكدس CloudFormation.
تنظيف
لتجنب تكبد رسوم في المستقبل ، احذف الموارد. في وحدة تحكم AWS CloudFormation ، احذف الحزمة المسماة AWSBigDataBlogDataBrewDQSample
.
وفي الختام
في هذا المنشور ، تعلمت كيفية إنشاء خطوط أنابيب مؤتمتة للتحقق من جودة البيانات تعتمد على الأحداث. باستخدام DataBrew ، يمكنك تحديد قواعد جودة البيانات ، والعتبات ، ومجموعات القواعد لعملك ومتطلباتك الفنية. تتيح لك وظائف Step و EventBridge و Amazon SNS إنشاء خطوط أنابيب معقدة مع معالجة الأخطاء القابلة للتخصيص والتنبيه المصمم وفقًا لاحتياجاتك.
يمكنك معرفة المزيد حول هذا الحل وكود المصدر من خلال زيارة مستودع جيثب. لمعرفة المزيد حول قواعد جودة بيانات DataBrew ، تفضل بزيارة تتيح AWS Glue DataBrew الآن للعملاء إنشاء قواعد جودة البيانات لتحديد متطلبات أعمالهم والتحقق من صحتها أو الرجوع إلى التحقق من جودة البيانات في AWS Glue DataBrew.
حول المؤلف
ليث السعدون مهندس النماذج الأولية الرئيسي في فريق إنفيجن الهندسي. يقوم ببناء نماذج أولية وحلول باستخدام الذكاء الاصطناعي والتعلم الآلي وإنترنت الأشياء والحوسبة المتطورة وتحليلات التدفق والروبوتات والحوسبة المكانية لحل مشاكل العملاء في العالم الحقيقي. في أوقات فراغه ، يستمتع ليث بالأنشطة الخارجية مثل التصوير الفوتوغرافي ورحلات الطائرات بدون طيار والمشي لمسافات طويلة وكرة الطلاء.
جوردون بيرجس هو مدير أول للمنتجات لدى AWS Glue DataBrew. إنه متحمس لمساعدة العملاء على اكتشاف الرؤى من بياناتهم ، ويركز على بناء تجارب المستخدم والوظائف الغنية لمنتجات التحليلات. خارج العمل ، يستمتع جوردون بالقراءة والقهوة وبناء أجهزة الكمبيوتر.
- '
- &
- 100
- 107
- 7
- من نحن
- حسابي
- أنشطة
- العنوان
- AI
- الكل
- أمازون
- تحليلات
- تطبيق
- هندسة معمارية
- الآلي
- AWS
- نساعدك في بناء
- ابني
- الأعمال
- اسعارنا محددة من قبل وزارة العمل
- الشيكات
- سوائل التنظيف
- الكود
- قهوة
- عمود
- مجمع
- أجهزة الكمبيوتر
- الحوسبة
- كنسولات
- العملاء
- البيانات
- جودة البيانات
- يوم
- اكتشف
- أزيز
- حافة
- الحوسبة حافة
- رئيس التحرير
- البريد الإلكتروني
- ينتهي
- الهندسة
- البيئة
- أحداث
- مثال
- خبرة
- فشل
- أسرع
- الميزات
- تناسب
- طيران
- وجدت
- مجانًا
- وظيفة
- وظائف
- مستقبل
- متزايد
- معالجة
- الرعاية الصحية
- يساعد
- المشي لمسافات طويلة
- كيفية
- كيفية
- HTTPS
- تحديد
- صورة
- تنفيذ
- رؤى
- بحث
- قام المحفل
- مسائل
- IT
- وظيفة
- القفل
- كبير
- آخر
- تعلم
- تعلم
- تعلم
- خط
- LINK
- لينكس
- موقع
- آلة التعلم
- الشركة المصنعة
- ML
- الأكثر من ذلك
- نانو
- بحاجة
- إعلام
- مزيد من الخيارات
- طلب
- أخرى
- الأثاث الخارجى
- تصوير
- رئيسي
- منتج
- المنتجات
- ملفي الشخصي
- النماذج
- مزود
- جودة
- نادي القراءة
- تخفيض
- يحل محل
- المتطلبات الأساسية
- الموارد
- استجابة
- النتائج
- عائدات
- مراجعة
- الروبوتات
- القواعد
- يجري
- حجم
- Serverless
- خدمات
- طقم
- مماثل
- الاشارات
- So
- الحلول
- حل
- مكاني
- الحوسبة المكانية
- على وجه التحديد
- جدول
- الولايه او المحافظه
- إحصائيات
- الحالة
- تخزين
- متدفق
- اشتراك
- تحقيق النجاح
- تقني
- محطة
- تجربه بالعربي
- المصدر
- عبر
- الوقت
- أداة
- تحول
- تحويل
- البرنامج التعليمي
- قيمنا
- المزيد
- للعمل
- سير العمل