کسبوکارها هر روز دادههای بیشتری را جمعآوری میکنند تا فرآیندهایی مانند تصمیمگیری، گزارشدهی و یادگیری ماشین (ML) را هدایت کنند. قبل از تمیز کردن و تبدیل داده های خود، باید تعیین کنید که آیا برای استفاده مناسب هستند یا خیر. دادههای نادرست، از دست رفته یا بدشکل میتوانند تأثیرات زیادی بر تجزیه و تحلیل پایین دستی و فرآیندهای ML داشته باشند. انجام بررسیهای کیفیت دادهها به شناسایی مشکلات زودتر در جریان کار کمک میکند تا بتوانید سریعتر آنها را حل کنید. علاوه بر این، انجام این بررسی ها با استفاده از معماری مبتنی بر رویداد به شما کمک می کند تا نقاط لمسی دستی و مقیاس را با افزایش حجم داده کاهش دهید.
AWS Glue Data Brew ابزاری برای آمادهسازی دادههای بصری است که یافتن آمار کیفیت دادهها مانند مقادیر تکراری، مقادیر از دست رفته و مقادیر پرت را آسان میکند. همچنین میتوانید قوانین کیفیت دادهها را در DataBrew تنظیم کنید تا بررسیهای مشروط را بر اساس نیازهای تجاری منحصر به فرد خود انجام دهید. برای مثال، ممکن است یک سازنده نیاز داشته باشد که اطمینان حاصل کند که مقادیر تکراری به طور خاص در a وجود ندارد Part ID
ستون، یا یک ارائه دهنده مراقبت های بهداشتی ممکن است این مقادیر را در یک بررسی کند SSN
ستون طول مشخصی دارند. پس از ایجاد و اعتبارسنجی این قوانین با DataBrew، می توانید استفاده کنید پل رویداد آمازون, توابع مرحله AWS, AWS لامبداو سرویس اطلاع رسانی ساده آمازون (Amazon SNS) برای ایجاد یک گردش کار خودکار و ارسال اعلان در صورت عدم موفقیت یک قانون در بررسی اعتبار.
در این پست، شما را با گردش کار انتها به انتها و نحوه اجرای این راه حل آشنا می کنیم. این پست شامل یک آموزش گام به گام، an مدل برنامه بدون سرور AWS الگو (AWS SAM) و کد نمونه ای که می توانید برای استقرار برنامه در محیط AWS خود استفاده کنید.
بررسی اجمالی راه حل
راه حل در این پست ترکیب می شود بدون سرور خدمات AWS برای ایجاد یک خط لوله کاملاً خودکار و مبتنی بر رویداد پایان به انتها برای تأیید کیفیت داده ها. نمودار زیر معماری راه حل ما را نشان می دهد.
گردش کار راه حل شامل مراحل زیر است:
- هنگامی که داده های جدیدی را در خود آپلود می کنید سرویس ذخیره سازی ساده آمازون (Amazon S3) سطل، رویدادها به EventBridge ارسال می شوند.
- یک قانون EventBridge یک ماشین حالت توابع مرحله را برای اجرا راه اندازی می کند.
- ماشین حالت یک کار نمایه DataBrew را شروع می کند که با مجموعه قوانین و قوانین کیفیت داده پیکربندی شده است. اگر در نظر دارید راه حل مشابهی بسازید، محل خروجی کار پروفایل DataBrew و سطل های داده منبع S3 باید منحصر به فرد باشند. این کار از اجرای کارهای بازگشتی جلوگیری می کند. ما منابع خود را با یک AWS CloudFormation قالب، که سطل های منحصر به فرد S3 را ایجاد می کند.
- یک تابع Lambda نتایج کیفیت داده را از Amazon S3 می خواند و یک پاسخ Boolean را به ماشین حالت برمی گرداند. تابع برمی گردد
false
اگر یک یا چند قانون در مجموعه قوانین شکست بخورد، و برمی گرددtrue
اگر همه قوانین موفق شوند - اگر پاسخ بولی باشد
false
، دستگاه ایالتی یک اعلان ایمیل با Amazon SNS ارسال می کند و دستگاه حالت به یک ختم می شودfailed
وضعیت اگر پاسخ بولی باشدtrue
، ماشین حالت به a ختم می شودsucceed
وضعیت همچنین می توانید راه حل را در این مرحله برای اجرای سایر وظایف در مورد موفقیت یا شکست گسترش دهید. به عنوان مثال، اگر همه قوانین موفق باشند، می توانید یک پیام EventBridge ارسال کنید تا کار تبدیل دیگری را در DataBrew راه اندازی کند.
در این پست، شما از AWS CloudFormation برای استقرار یک نسخه نمایشی کاملاً کاربردی از راه حل تأیید کیفیت داده مبتنی بر رویداد استفاده می کنید. شما راه حل را با آپلود یک فایل مقادیر معتبر جدا شده با کاما (CSV) در Amazon S3 و به دنبال آن یک فایل CSV نامعتبر آزمایش می کنید.
مراحل زیر است:
- یک پشته CloudFormation را برای استقرار منابع راه حل راه اندازی کنید.
- راه حل را تست کنید:
- یک فایل CSV معتبر را در آمازون S3 آپلود کنید و اعتبارسنجی کیفیت داده ها را مشاهده کنید و عملکردهای مرحله عملکرد ماشین با موفقیت انجام شد.
- یک فایل CSV نامعتبر را در آمازون S3 آپلود کنید و اعتبار سنجی کیفیت داده ها و خرابی ماشین حالت توابع مرحله را مشاهده کنید و یک اعلان ایمیل از Amazon SNS دریافت کنید.
تمام کد نمونه را می توان در مخزن GitHub.
پیش نیازها
برای این راهنما، شما باید پیش نیازهای زیر را داشته باشید:
منابع راه حل را با استفاده از AWS CloudFormation مستقر کنید
شما از یک پشته CloudFormation برای استقرار منابع مورد نیاز برای راه حل تایید کیفیت داده مبتنی بر رویداد استفاده می کنید. پشته شامل مجموعه داده و قواعد نمونه در DataBrew است.
- به حساب AWS خود وارد شوید و سپس انتخاب کنید Stack را راه اندازی کنید:
- بر ایجاد سریع پشته صفحه، برای آدرس ایمیل، یک آدرس ایمیل معتبر برای اعلان های ایمیل Amazon SNS وارد کنید.
- گزینه های باقی مانده را در حالت پیش فرض قرار دهید.
- چک باکس های تایید را انتخاب کنید.
- را انتخاب کنید پشته ایجاد کنید.
رسیدن به پشته CloudFormation حدود 5 دقیقه طول می کشد CREATE_COMPLETE
وضعیت.
- صندوق ورودی آدرس ایمیلی را که ارائه کردهاید بررسی کنید و اشتراک SNS را بپذیرید.
برای نشان دادن ویژگی اعلان ایمیل در پایان مراحل، باید تأیید اشتراک را بررسی کرده و بپذیرید.
بر خروجی در برگه پشته، میتوانید آدرسهای اینترنتی را برای مرور منابع DataBrew و Step Functions که الگو ایجاد کردهاند، پیدا کنید. همچنین به دستورات تکمیل شده AWS CLI که در مراحل بعدی استفاده می کنید توجه کنید.
اگر شما را انتخاب کنید AWSGlueDataBrewRuleset
پیوند ارزش، مانند تصویر زیر باید صفحه جزئیات قوانین مجموعه را ببینید. در این بررسی، ما یک مجموعه قوانین کیفیت داده با سه قانون ایجاد می کنیم که مقادیر از دست رفته، نقاط پرت و طول رشته را بررسی می کند.
محلول را تست کنید
در مراحل زیر، از AWS CLI برای آپلود نسخههای صحیح و نادرست فایل CSV استفاده میکنید تا راهحل تأیید کیفیت داده مبتنی بر رویداد را آزمایش کنید.
- یک ترمینال یا خط فرمان را باز کنید و از AWS CLI برای دانلود داده های نمونه استفاده کنید. از دستور خروجی پشته CloudFormation با نام کلید استفاده کنید
CommandToDownloadTestData
: - دوباره از AWS CLI برای آپلود فایل CSV بدون تغییر در سطل S3 خود استفاده کنید. رشته را جایگزین کنید با نام سطل خود، یا دستور ارائه شده از خروجی الگوی CloudFormation را کپی و جایگذاری کنید:
- در کنسول Step Functions، ماشین حالت ایجاد شده توسط الگوی CloudFormation را پیدا کنید.
میتوانید یک URL در خروجیهای CloudFormation که قبلاً ذکر شد پیدا کنید.
- بر اعدام تب، شما باید یک اجرای جدید از ماشین حالت را ببینید.
- URL اجرا را برای مشاهده نمودار ماشین حالت و نظارت بر پیشرفت آن انتخاب کنید.
تصویر زیر گردش کار ماشین حالت ما را نشان می دهد.
برای نشان دادن شکست یک قانون کیفیت داده، حداقل یک ویرایش در آن انجام دهید votes.csv
فایل.
- فایل را در ویرایشگر متن یا ابزار صفحه گسترده دلخواه خود باز کنید و فقط یک سلول را حذف کنید.
در اسکرین شات های زیر، من از ویرایشگر نانو گنو در لینوکس استفاده می کنم. همچنین می توانید از ویرایشگر صفحه گسترده برای حذف یک سلول استفاده کنید. این باعث می شود قانون "بررسی تمام ستون ها برای مقادیر از دست رفته" شکست بخورد.
تصویر زیر فایل CSV را قبل از تغییر نشان می دهد.
تصویر زیر فایل CSV تغییر یافته را نشان می دهد.
- ویرایش شده را ذخیره کنید
votes.csv
فایل و به خط فرمان یا ترمینال خود برگردید. - از AWS CLI برای آپلود فایل در سطل S3 خود یک بار دیگر استفاده کنید. شما از همان دستور قبلی استفاده می کنید:
- در کنسول Step Functions، به آخرین حالت اجرا شده دستگاه بروید تا آن را نظارت کنید.
اعتبارسنجی کیفیت داده با شکست مواجه میشود، و یک اعلان ایمیل SNS و خرابی عملکرد کلی دستگاه حالت اجرا میشود.
تصویر زیر گردش کار ماشین حالت شکست خورده را نشان می دهد.
تصویر زیر نمونه ای از ایمیل SNS را نشان می دهد.
- با انتخاب عبارت، می توانید شکست قانون را در کنسول DataBrew بررسی کنید
AWSGlueDataBrewProfileResults
مقدار در خروجی های پشته CloudFormation.
پاک کردن
برای جلوگیری از تحمیل هزینه در آینده، منابع را حذف کنید. در کنسول AWS CloudFormation، پشته نامگذاری شده را حذف کنید AWSBigDataBlogDataBrewDQSample
.
نتیجه
در این پست، نحوه ایجاد خطوط لوله تایید کیفیت داده خودکار و رویداد محور را یاد گرفتید. با DataBrew، می توانید قوانین کیفیت داده، آستانه ها و مجموعه قوانین را برای کسب و کار و الزامات فنی خود تعریف کنید. توابع Step، EventBridge و Amazon SNS به شما امکان میدهند خطوط لوله پیچیدهای را با مدیریت خطای قابل تنظیم و هشدار متناسب با نیازهای شما ایجاد کنید.
با مراجعه به سایت می توانید اطلاعات بیشتری در مورد این راه حل و کد منبع کسب کنید مخزن GitHub. برای کسب اطلاعات بیشتر در مورد قوانین کیفیت داده DataBrew، مراجعه کنید AWS Glue DataBrew اکنون به مشتریان اجازه می دهد تا قوانین کیفیت داده را برای تعریف و تأیید نیازهای تجاری خود ایجاد کنند یا رجوع به اعتبارسنجی کیفیت داده در AWS Glue DataBrew.
درباره نویسنده
لیث السعدون یک معمار اصلی نمونه سازی در تیم مهندسی Envision است. او نمونههای اولیه و راهحلهایی را با استفاده از هوش مصنوعی، یادگیری ماشین، اینترنت اشیا و محاسبات لبهای، تحلیل جریانی، روباتیک و محاسبات فضایی برای حل مشکلات مشتریان در دنیای واقعی میسازد. لیث در اوقات فراغت خود از فعالیت های خارج از منزل مانند عکاسی، پرواز با هواپیماهای بدون سرنشین، پیاده روی و پینت بال لذت می برد.
گوردون برگس یک مدیر ارشد محصول با AWS Glue DataBrew است. او مشتاق کمک به مشتریان برای کشف بینش از دادههایشان است و بر ایجاد تجربیات کاربر و عملکردهای غنی برای محصولات تحلیلی تمرکز میکند. گوردون خارج از محل کار از خواندن، قهوه و ساختن کامپیوتر لذت می برد.
- '
- &
- 100
- 107
- 7
- درباره ما
- حساب
- فعالیت ها
- نشانی
- AI
- معرفی
- آمازون
- علم تجزیه و تحلیل
- کاربرد
- معماری
- خودکار
- AWS
- ساختن
- بنا
- کسب و کار
- بار
- چک
- تمیز کاری
- رمز
- کشت
- ستون
- پیچیده
- کامپیوتر
- محاسبه
- کنسول
- مشتریان
- داده ها
- کیفیت داده
- روز
- كشف كردن
- وزوز
- لبه
- محاسبات لبه
- سردبیر
- پست الکترونیک
- به پایان می رسد
- مهندسی
- محیط
- حوادث
- مثال
- تجارب
- شکست
- سریعتر
- ویژگی
- مناسب
- پرواز
- یافت
- رایگان
- تابع
- توابع
- آینده
- در حال رشد
- اداره
- بهداشت و درمان
- کمک می کند
- پیاده روی
- چگونه
- چگونه
- HTTPS
- شناسایی
- تصویر
- انجام
- بینش
- بررسی
- اینترنت اشیا
- مسائل
- IT
- کار
- کلید
- بزرگ
- آخرین
- یاد گرفتن
- آموخته
- یادگیری
- لاین
- ارتباط دادن
- لینوکس
- محل
- فراگیری ماشین
- سازنده
- ML
- بیش
- نانو
- ضروری
- اخطار
- گزینه
- سفارش
- دیگر
- خارج از منزل
- عکاسی
- اصلی
- محصول
- محصولات
- مشخصات
- نمونه سازی
- ارائه دهنده
- کیفیت
- مطالعه
- كاهش دادن
- جایگزین کردن
- مورد نیاز
- منابع
- پاسخ
- نتایج
- بازده
- این فایل نقد می نویسید:
- رباتیک
- قوانین
- دویدن
- مقیاس
- بدون سرور
- خدمات
- تنظیم
- مشابه
- ساده
- So
- مزایا
- حل
- فضایی
- محاسبات فضایی
- به طور خاص
- صفحه گسترده
- دولت
- ارقام
- وضعیت
- ذخیره سازی
- جریان
- اشتراک، ابونمان
- موفقیت
- فنی
- پایانه
- آزمون
- منبع
- از طریق
- زمان
- ابزار
- دگرگونی
- تبدیل شدن
- آموزش
- ارزش
- چشم انداز
- مهاجرت کاری
- گردش کار