امروزه صدها هزار مشتری از دریاچه های داده برای تجزیه و تحلیل و یادگیری ماشینی استفاده می کنند. با این حال، مهندسان داده باید این داده ها را قبل از استفاده پاکسازی و آماده کنند. داده های اساسی باید دقیق و جدید باشد تا مشتری بتواند با اطمینان تصمیمات تجاری بگیرد. در غیر این صورت، مصرف کنندگان داده اعتماد خود را به داده ها از دست می دهند و تصمیمات نابهینه یا نادرست می گیرند. این یک وظیفه متداول برای مهندسان داده است که ارزیابی کنند آیا داده ها دقیق و جدید هستند یا خیر. امروزه ابزارهای مختلفی برای کیفیت داده ها وجود دارد. با این حال، ابزارهای رایج کیفیت داده معمولاً به فرآیندهای دستی برای نظارت بر کیفیت داده ها نیاز دارند.
AWS Glue Data Quality یکی از ویژگی های پیش نمایش است چسب AWS که کیفیت داده ها را اندازه گیری و نظارت می کند سرویس ذخیره سازی ساده آمازون دریاچه های داده (Amazon S3) و در AWS Glue کارهای استخراج، تبدیل و بارگذاری (ETL) انجام می شود. این یک ویژگی پیشنمایش باز است، بنابراین قبلاً در حساب شما فعال شده است مناطق موجود. به راحتی می توانید بررسی های کیفیت داده ها را در کنسول AWS Glue Studio بدون نوشتن کد تعریف و اندازه گیری کنید. این تجربه شما را از مدیریت کیفیت داده ها ساده می کند.
این پست قسمت 2 از یک سری چهار پستی برای توضیح نحوه عملکرد AWS Glue Data Quality است. پست قبلی این مجموعه را ببینید:
در این پست، نحوه ایجاد یک کار چسب AWS را نشان می دهیم که کیفیت داده خط لوله داده را اندازه گیری و نظارت می کند. ما همچنین نشان می دهیم که چگونه بر اساس نتایج کیفیت داده ها اقدام کنیم.
بررسی اجمالی راه حل
بیایید یک مورد استفاده مثالی را در نظر بگیریم که در آن یک مهندس داده باید یک خط لوله داده بسازد تا داده ها را از یک منطقه خام به یک منطقه انتخاب شده در یک دریاچه داده وارد کند. به عنوان یک مهندس داده، یکی از مسئولیت های کلیدی شما – در کنار استخراج، تبدیل و بارگذاری داده ها – اعتبارسنجی کیفیت داده ها است. شناسایی مسائل مربوط به کیفیت داده ها از قبل به شما کمک می کند از قرار دادن داده های بد در منطقه انتخاب شده جلوگیری کنید و از حوادث سخت خراب کردن داده ها جلوگیری کنید.
در این پست، نحوه راه اندازی آسان را یاد خواهید گرفت ساخته شده در و سفارشی اعتبار سنجی داده ها را در کار چسب AWS شما بررسی می کند تا از خراب کردن داده های بد داده های پایین دستی با کیفیت بالا جلوگیری کند.
مجموعه داده مورد استفاده برای این پست به صورت مصنوعی تولید شده است. تصویر زیر نمونه ای از داده ها را نشان می دهد.
منابع را با AWS CloudFormation تنظیم کنید
این پست شامل یک AWS CloudFormation قالب برای راه اندازی سریع شما می توانید آن را مطابق با نیاز خود بررسی و سفارشی کنید.
قالب CloudFormation منابع زیر را تولید می کند:
- یک سطل سرویس ذخیره سازی ساده آمازون (Amazon S3) (
gluedataqualitystudio-*
). - پیشوندها و اشیاء زیر در سطل S3:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- هویت AWS و مدیریت دسترسی کاربران، نقشها و خطمشیها (IAM). نقش IAM (
GlueDataQualityStudio-*
) اجازه خواندن و نوشتن از سطل S3 را دارد. - AWS لامبدا توابع و سیاست های IAM مورد نیاز آن توابع برای ایجاد و حذف این پشته.
برای ایجاد منابع خود، مراحل زیر را انجام دهید:
- ورود به سیستم کنسول AWS CloudFormation در
us-east-1
منطقه - را انتخاب کنید Stack را راه اندازی کنید:
- انتخاب کنید من تصدیق می کنم که AWS CloudFormation ممکن است منابع IAM را ایجاد کند.
- را انتخاب کنید پشته ایجاد کنید و منتظر بمانید تا مرحله ایجاد پشته کامل شود.
راه حل را اجرا کنید
برای شروع پیکربندی راه حل خود، مراحل زیر را انجام دهید:
- بر کنسول AWS Glue Studio، انتخاب کنید شغل ها در صفحه ناوبری
- انتخاب کنید تصویری با بوم خالی و انتخاب کنید ساختن.
- انتخاب جزئیات کار برگه برای پیکربندی کار.
- برای نام، وارد
GlueDataQualityStudio
. - برای نقش IAM، نقش را با شروع انتخاب کنید
GlueDataQualityStudio-*
. - برای نسخه چسب، انتخاب کنید چسب 3.0.
- برای نشانک شغل، انتخاب کنید از کار انداختن. این به شما امکان می دهد این کار را چندین بار با مجموعه داده ورودی یکسان اجرا کنید.
- برای تعداد تلاش های مجدد، وارد
0
. - در خواص پیشرفته بخش، سطل S3 ایجاد شده توسط الگوی CloudFormation (با شروع
gluedataqualitystudio-*
). - را انتخاب کنید ذخیره.
- پس از ذخیره کار، گزینه را انتخاب کنید بصری برگه و روی منبع منو ، انتخاب کنید آمازون S3.
- بر ویژگی های منبع داده - S3 برگه، برای نوع منبع S3، انتخاب کنید مکان S3.
- را انتخاب کنید S3 را مرور کنید و به پیشوند بروید
/datalake/raw/customer/
در سطل S3 با شروعgluedataqualitystudio-*
. - را انتخاب کنید استنباط طرحواره.
- بر عمل منو ، انتخاب کنید ارزیابی کیفیت داده ها.
- انتخاب ارزیابی کیفیت داده ها گره
بر دگرگون کردن اکنون می توانید قوانین کیفیت داده را ایجاد کنید. اولین قانونی که ایجاد می کنید این است که بررسی کنید که آیاCustomer_ID
منحصر به فرد است و با استفاده از آن پوچ نیستisPrimaryKey
قانون. - بر انواع قوانین تب از قانون ساز DQDLجستجو کنید
isprimarykey
و علامت مثبت را انتخاب کنید. - بر طرح تب از قانون ساز DQDL، علامت مثبت کناری را انتخاب کنید
Customer_ID
. - در ویرایشگر قوانین، حذف کنید
id
.
قانون بعدی که اضافه می کنیم بررسی می کند کهFirst_Name
مقدار ستون برای همه سطرها وجود دارد. - همچنین می توانید قوانین کیفیت داده ها را مستقیماً در ویرایشگر قوانین وارد کنید. یک کاما (،) اضافه کنید و وارد کنید
IsComplete "First_Name",
بعد از قانون اول
بعد، یک قانون سفارشی اضافه میکنید تا تأیید کنید که هیچ ردیفی بدون آن وجود نداردTelephone
orEmail
. - قانون سفارشی زیر را در ویرایشگر قوانین وارد کنید:
ویژگی ارزیابی کیفیت داده اقداماتی را برای مدیریت نتیجه یک کار بر اساس نتایج کیفیت کار ارائه می دهد. - برای این پست، انتخاب کنید هنگامی که کیفیت داده ها از بین می رود، کار شکست می خورد و انتخاب کنید شکست کار بدون بارگیری هدف داده ها اقدامات. در تنظیمات خروجی کیفیت داده بخش، را انتخاب کنید S3 را مرور کنید و به پیشوند بروید
dqresults
در سطل S3 با شروعgluedataqualitystudio-*
. - بر هدف منو ، انتخاب کنید آمازون S3.
- انتخاب هدف داده - سطل S3 گره
- بر ویژگی های هدف داده - S3 برگه، برای قالب، انتخاب کنید با چوب فرش کردن، و برای نوع فشرده سازی، انتخاب کنید اسنیپت.
- برای مکان هدف S3، انتخاب کنید S3 را مرور کنید و به پیشوند بروید
/datalake/curated/customer/
در سطل S3 با شروعgluedataqualitystudio-*
. - را انتخاب کنید ذخیره، پس از آن را انتخاب کنید دویدن.
میتوانید جزئیات اجرای کار را در تب Runs مشاهده کنید. در مثال ما، کار با پیام خطای «AssertionError: کار به دلیل شکست قوانین DQ برای گره شکست خورد: "
می توانید نتیجه کیفیت داده ها را در تب کیفیت داده ها بررسی کنید. در مثال ما، اعتبارسنجی کیفیت داده سفارشی ناموفق بود زیرا یکی از ردیفهای مجموعه داده هیچ نداشتTelephone
orEmail
ارزش.نتایج ارزیابی کیفیت داده نیز بر اساس پارامتر مکان نتیجه کیفیت داده گره در سطل S3 در قالب JSON نوشته می شود. - هدایت به
dqresults
پیشوند زیر سطل S3 شروع می شودgluedataqualitystudio-*
. خواهید دید که نتیجه کیفیت داده ها بر اساس تاریخ پارتیشن بندی شده است.
خروجی فایل JSON در زیر آمده است. می توانید از این خروجی فایل برای ساخت داشبوردهای تجسم کیفیت داده سفارشی استفاده کنید.
شما همچنین می توانید نظارت داشته باشید ارزیابی کیفیت داده ها گره از طریق CloudWatch آمازون معیارها و تنظیم آلارم برای ارسال اعلان در مورد نتایج کیفیت داده ها. برای کسب اطلاعات بیشتر در مورد نحوه تنظیم هشدارهای CloudWatch، به مراجعه کنید استفاده از آلارم های آمازون CloudWatch.
پاک کردن
برای جلوگیری از تحمیل هزینههای آتی و پاکسازی نقشها و خطمشیهای استفاده نشده، منابعی را که ایجاد کردهاید حذف کنید:
- حذف
GlueDataQualityStudio
شغلی که به عنوان بخشی از این پست ایجاد کردید. - در کنسول AWS CloudFormation، آن را حذف کنید
GlueDataQualityStudio
پشته.
نتیجه
AWS Glue Data Quality یک راه آسان برای اندازه گیری و نظارت بر کیفیت داده خط لوله ETL شما ارائه می دهد. در این پست، یاد گرفتید که چگونه اقدامات لازم را بر اساس نتایج کیفیت داده انجام دهید، که به شما کمک می کند استانداردهای داده بالا را حفظ کنید و تصمیمات تجاری مطمئنی بگیرید.
برای کسب اطلاعات بیشتر در مورد کیفیت داده چسب AWS، مستندات را بررسی کنید:
درباره نویسنده
دینبندو پراساد یک متخصص ارشد تجزیه و تحلیل در AWS، متخصص در خدمات داده های بزرگ است. او مشتاق کمک به مشتریان در ساخت معماری داده مدرن بر روی AWS Cloud است. او به مشتریان در هر اندازه کمک کرده است تا راه حل های مدیریت داده، انبار داده و دریاچه داده را پیاده سازی کنند.
یانیس منتکیدیس یک مهندس ارشد توسعه نرم افزار در تیم AWS Glue است.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- درباره ما
- دسترسی
- حساب
- دقیق
- اذعان
- عمل
- اقدامات
- پس از
- معرفی
- اجازه می دهد تا
- قبلا
- آمازون
- علم تجزیه و تحلیل
- و
- معماری
- AWS
- AWS CloudFormation
- چسب AWS
- بد
- داده های بد
- مستقر
- زیرا
- قبل از
- بزرگ
- بزرگ داده
- ساختن
- بنا
- کسب و کار
- مورد
- بار
- بررسی
- چک
- را انتخاب کنید
- ابر
- ستون
- مشترک
- کامل
- مطمئن
- در نظر بگیرید
- کنسول
- مصرف کنندگان
- فساد
- ایجاد
- ایجاد شده
- ایجاد
- سرپرستی
- سفارشی
- مشتری
- مشتریان
- سفارشی
- داده ها
- دریاچه دریاچه
- مدیریت اطلاعات
- تاریخ
- تصمیم گیری
- جزئیات
- پروژه
- مستقیما
- مستندات
- به آسانی
- سردبیر
- پست الکترونیک
- مهندس
- مورد تأیید
- وارد
- خطا
- اتر (ETH)
- ارزیابی
- مثال
- وجود دارد
- تجربه
- توضیح دهید
- عصاره
- ناموفق
- نتواند
- ویژگی
- پرونده
- نام خانوادگی
- پیروی
- قالب
- از جانب
- توابع
- آینده
- تولید
- تولید می کند
- گرفتن
- کمک کرد
- کمک
- کمک می کند
- زیاد
- با کیفیت بالا
- چگونه
- چگونه
- اما
- HTML
- HTTPS
- صدها نفر
- شناسایی
- هویت
- انجام
- in
- شامل
- ورودی
- مسائل
- IT
- کار
- شغل ها
- json
- کلید
- دریاچه
- یاد گرفتن
- آموخته
- یادگیری
- بار
- بارگیری
- محل
- از دست دادن
- دستگاه
- فراگیری ماشین
- حفظ
- ساخت
- مدیریت
- مدیریت
- مدیریت
- کتابچه راهنمای
- اندازه
- معیارهای
- فهرست
- پیام
- متریک
- قدرت
- مدرن
- مانیتور
- مانیتور
- بیش
- چندگانه
- هدایت
- جهت یابی
- لازم
- نیازهای
- بعد
- گره
- اطلاعیه ها
- اشیاء
- پیشنهادات
- ONE
- باز کن
- در غیر این صورت
- قطعه
- پارامتر
- بخش
- احساساتی
- اجازه
- خط لوله
- دادن
- افلاطون
- هوش داده افلاطون
- PlatoData
- به علاوه
- سیاست
- پست
- آماده
- در حال حاضر
- جلوگیری از
- پیش نمایش
- قبلی
- اصلی
- فرآیندهای
- املاک
- ارائه
- فراهم می کند
- کیفیت
- سریع
- خام
- خواندن
- اخیر
- منطقه
- نیاز
- ضروری
- منابع
- نتیجه
- نتایج
- این فایل نقد می نویسید:
- نقش
- نقش
- ROW
- قانون
- قوانین
- دویدن
- همان
- جستجو
- بخش
- سلسله
- سرویس
- خدمات
- تنظیم
- محیط
- برپایی
- نشان
- نشان می دهد
- امضاء
- ساده
- اندازه
- So
- نرم افزار
- توسعه نرم افزار
- راه حل
- مزایا
- منبع
- متخصص
- متخصص
- پشته
- استانداردهای
- شروع
- آغاز شده
- راه افتادن
- گام
- مراحل
- ذخیره سازی
- استودیو
- کت و شلوار
- مصنوعی
- گرفتن
- هدف
- کار
- تیم
- قالب
- La
- هزاران نفر
- از طریق
- بار
- به
- امروز
- ابزار
- دگرگون کردن
- تبدیل شدن
- اعتماد
- زیر
- اساسی
- منحصر به فرد
- استفاده نشده
- استفاده کنید
- مورد استفاده
- کاربران
- معمولا
- تصدیق
- اعتبار سنجی
- ارزش
- مختلف
- چشم انداز
- تجسم
- صبر کنيد
- چه
- که
- اراده
- بدون
- با این نسخهها کار
- نوشتن
- نوشته
- کتبی
- شما
- زفیرنت