آج، سیکڑوں ہزاروں صارفین تجزیات اور مشین لرننگ کے لیے ڈیٹا لیکس کا استعمال کرتے ہیں۔ تاہم، ڈیٹا انجینئرز کو اس ڈیٹا کو استعمال کرنے سے پہلے اسے صاف اور تیار کرنا ہوگا۔ پر اعتماد کاروباری فیصلے کرنے کے لیے کسٹمر کے لیے بنیادی ڈیٹا درست اور حالیہ ہونا چاہیے۔ بصورت دیگر، ڈیٹا صارفین ڈیٹا پر اعتماد کھو دیتے ہیں اور سب سے زیادہ یا غلط فیصلے کرتے ہیں۔ ڈیٹا انجینئرز کے لیے یہ جانچنا ایک عام کام ہے کہ آیا ڈیٹا درست اور حالیہ ہے یا نہیں۔ آج مختلف ڈیٹا کوالٹی ٹولز موجود ہیں۔ تاہم، عام ڈیٹا کوالٹی ٹولز کو عام طور پر ڈیٹا کے معیار کی نگرانی کے لیے دستی عمل کی ضرورت ہوتی ہے۔
AWS گلو ڈیٹا کوالٹی کی ایک پیش نظارہ خصوصیت ہے۔ AWS گلو جو کہ ڈیٹا کے معیار کی پیمائش اور نگرانی کرتا ہے۔ ایمیزون سادہ اسٹوریج سروس (Amazon S3) ڈیٹا لیکس اور ان AWS Glue ایکسٹریکٹ، ٹرانسفارم، اور لوڈ (ETL) جابز۔ یہ ایک کھلا پیش نظارہ خصوصیت ہے لہذا یہ آپ کے اکاؤنٹ میں پہلے سے ہی فعال ہے۔ دستیاب علاقے. آپ آسانی سے کوڈ لکھے بغیر AWS Glue Studio کنسول میں ڈیٹا کوالٹی چیک کی وضاحت اور پیمائش کر سکتے ہیں۔ یہ ڈیٹا کے معیار کو منظم کرنے کے آپ کے تجربے کو آسان بناتا ہے۔
یہ پوسٹ چار پوسٹ سیریز کا حصہ 2 ہے اس بات کی وضاحت کرنے کے لیے کہ AWS Glue Data Quality کیسے کام کرتا ہے۔ اس سلسلے کی پچھلی پوسٹ دیکھیں:
اس پوسٹ میں، ہم AWS Glue جاب بنانے کا طریقہ دکھاتے ہیں جو ڈیٹا پائپ لائن کے ڈیٹا کوالٹی کی پیمائش اور نگرانی کرتا ہے۔ ہم یہ بھی دکھاتے ہیں کہ ڈیٹا کے معیار کے نتائج کی بنیاد پر کارروائی کیسے کی جائے۔
حل جائزہ
آئیے ایک مثال کے استعمال کے معاملے پر غور کریں جس میں ایک ڈیٹا انجینئر کو ڈیٹا لیک میں خام زون سے کیوریٹڈ زون میں ڈیٹا داخل کرنے کے لیے ڈیٹا پائپ لائن بنانے کی ضرورت ہوتی ہے۔ ڈیٹا انجینئر کے طور پر، آپ کی اہم ذمہ داریوں میں سے ایک — ڈیٹا کو نکالنے، تبدیل کرنے اور لوڈ کرنے کے ساتھ — ڈیٹا کے معیار کو درست کرنا ہے۔ ڈیٹا کوالٹی کے مسائل کی پہلے سے نشاندہی کرنے سے آپ کو کیوریٹڈ زون میں خراب ڈیٹا رکھنے اور ڈیٹا کی بدعنوانی کے مشکل واقعات سے بچنے میں مدد ملتی ہے۔
اس پوسٹ میں، آپ آسانی سے سیٹ اپ کرنے کا طریقہ سیکھیں گے۔ تعمیر میں اور اپنی مرضی کے آپ کے AWS Glue جاب میں ڈیٹا کی توثیق کی جانچ پڑتال کرتا ہے تاکہ خراب ڈیٹا کو ڈاون اسٹریم ہائی کوالٹی ڈیٹا کو خراب کرنے سے روکا جا سکے۔
اس پوسٹ کے لیے استعمال ہونے والا ڈیٹا سیٹ مصنوعی طور پر تیار کیا گیا ہے۔ مندرجہ ذیل اسکرین شاٹ ڈیٹا کی ایک مثال دکھاتا ہے۔
AWS CloudFormation کے ساتھ وسائل مرتب کریں۔
اس پوسٹ میں شامل ہے۔ AWS کلاؤڈ فارمیشن فوری سیٹ اپ کے لیے ٹیمپلیٹ۔ آپ اپنی ضروریات کے مطابق اس کا جائزہ لے سکتے ہیں اور اسے اپنی مرضی کے مطابق بنا سکتے ہیں۔
CloudFormation ٹیمپلیٹ درج ذیل وسائل تیار کرتا ہے:
- ایک ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) بالٹی (
gluedataqualitystudio-*
). - S3 بالٹی میں درج ذیل سابقے اور اشیاء:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- AWS شناخت اور رسائی کا انتظام (IAM) صارفین، کردار، اور پالیسیاں۔ آئی اے ایم کا کردار (
GlueDataQualityStudio-*
) کو S3 بالٹی سے پڑھنے اور لکھنے کی اجازت ہے۔ - او ڈبلیو ایس لامبڈا۔ فنکشنز اور IAM پالیسیاں جو ان فنکشنز کو اس اسٹیک کو بنانے اور حذف کرنے کے لیے درکار ہیں۔
اپنے وسائل بنانے کے لیے، درج ذیل مراحل کو مکمل کریں:
- میں سائن ان کریں AWS CloudFormation کنسول میں
us-east-1
علاقہ - میں سے انتخاب کریں اسٹیک لانچ کریں۔:
- منتخب کریں میں تسلیم کرتا ہوں کہ AWS CloudFormation IAM وسائل پیدا کر سکتا ہے۔.
- میں سے انتخاب کریں اسٹیک بنائیں اور اسٹیک بنانے کا مرحلہ مکمل ہونے کا انتظار کریں۔
حل کو نافذ کریں۔
اپنے حل کی تشکیل شروع کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:
- پر AWS گلو اسٹوڈیو کنسولمنتخب کریں نوکریاں نیوی گیشن پین میں.
- منتخب کریں خالی کینوس کے ساتھ بصری اور منتخب کریں تخلیق کریں.
- منتخب کیجئیے کام کی تفصیلات کام کو ترتیب دینے کے لیے ٹیب۔
- کے لئے نام، داخل کریں
GlueDataQualityStudio
. - کے لئے آئی اے ایم کا کردارکے ساتھ شروع ہونے والے کردار کا انتخاب کریں۔
GlueDataQualityStudio-*
. - کے لئے گلو ورژنمنتخب کریں گلو 3.0.
- کے لئے جاب بک مارکمنتخب کریں غیر فعال کریں. یہ آپ کو ایک ہی ان پٹ ڈیٹاسیٹ کے ساتھ اس کام کو متعدد بار چلانے کی اجازت دیتا ہے۔
- کے لئے دوبارہ کوششوں کی تعداد، داخل کریں
0
. - میں اعلی درجے کی خصوصیات سیکشن، CloudFormation ٹیمپلیٹ کے ذریعہ تخلیق کردہ S3 بالٹی فراہم کریں (سے شروع کرتے ہوئے
gluedataqualitystudio-*
). - میں سے انتخاب کریں محفوظ کریں.
- کام محفوظ ہونے کے بعد، منتخب کریں۔ بصری ٹیب اور پر ماخذ مینو، منتخب کریں ایمیزون S3.
- پر ڈیٹا سورس کی خصوصیات - S3 ٹیب، کے لیے S3 ذریعہ کی قسممنتخب S3 مقام.
- میں سے انتخاب کریں S3 کو براؤز کریں۔ اور سابقہ پر تشریف لے جائیں۔
/datalake/raw/customer/
سے شروع ہونے والی S3 بالٹی میںgluedataqualitystudio-*
. - میں سے انتخاب کریں اسکیما کا اندازہ لگائیں۔.
- پر عمل مینو، منتخب کریں ڈیٹا کوالٹی کا اندازہ لگائیں۔.
- منتخب کیجئیے ڈیٹا کوالٹی کا اندازہ لگائیں۔ نوڈ.
پر تبدیل ٹیب، اب آپ ڈیٹا کوالٹی رولز بنانا شروع کر سکتے ہیں۔ آپ جو پہلا قاعدہ بناتے ہیں وہ یہ ہے کہ چیک کریں۔Customer_ID
کا استعمال کرتے ہوئے منفرد اور کالعدم نہیں ہے۔isPrimaryKey
حکمرانی - پر اصول کی اقسام کے ٹیب ڈی کیو ڈی ایل رول بلڈر، تلاش کریں
isprimarykey
اور جمع کا نشان منتخب کریں۔ - پر سکیم کے ٹیب ڈی کیو ڈی ایل رول بلڈر، آگے جمع کا نشان منتخب کریں۔
Customer_ID
. - رول ایڈیٹر میں، حذف کریں۔
id
.
اگلا قاعدہ ہم چیک کرتے ہیں کہFirst_Name
کالم کی قدر تمام قطاروں کے لیے موجود ہے۔ - آپ ڈیٹا کوالٹی کے اصول براہ راست رول ایڈیٹر میں بھی درج کر سکتے ہیں۔ ایک کوما (،) شامل کریں اور درج کریں۔
IsComplete "First_Name",
پہلے اصول کے بعد
اگلا، آپ اس بات کی توثیق کرنے کے لیے ایک حسب ضرورت اصول شامل کرتے ہیں کہ اس کے بغیر کوئی قطار موجود نہیں ہے۔Telephone
orEmail
. - اصول ایڈیٹر میں درج ذیل حسب ضرورت اصول درج کریں:
ڈیٹا کوالٹی کی تشخیص کی خصوصیت ملازمت کے معیار کے نتائج کی بنیاد پر کام کے نتائج کو منظم کرنے کے لیے اقدامات فراہم کرتی ہے۔ - اس پوسٹ کے لیے، منتخب کریں۔ ڈیٹا کوالٹی ناکام ہونے پر کام ناکام ہو جاتا ہے۔ اور منتخب کریں ٹارگٹ لوڈ کیے بغیر کام میں ناکام اعداد و شمار اعمال میں ڈیٹا کوالٹی آؤٹ پٹ سیٹنگ سیکشن کا انتخاب کریں، S3 کو براؤز کریں۔ اور سابقہ پر تشریف لے جائیں۔
dqresults
سے شروع ہونے والی S3 بالٹی میںgluedataqualitystudio-*
. - پر ہدف مینو، منتخب کریں ایمیزون S3.
- منتخب کیجئیے ڈیٹا کا ہدف - S3 بالٹی نوڈ.
- پر ڈیٹا ٹارگٹ پراپرٹیز – S3 ٹیب، کے لیے فارمیٹمنتخب کریں چھڑی، کے لئے کمپریشن کی قسممنتخب کریں پرسکون.
- کے لئے S3 ہدف کا مقاممنتخب کریں S3 کو براؤز کریں۔ اور سابقہ پر جائیں۔
/datalake/curated/customer/
سے شروع ہونے والی S3 بالٹی میںgluedataqualitystudio-*
. - میں سے انتخاب کریں محفوظ کریں، پھر منتخب کریں رن.
آپ رن ٹیب پر جاب رن کی تفصیلات دیکھ سکتے ہیں۔ ہماری مثال میں، کام غلطی کے پیغام کے ساتھ ناکام ہو جاتا ہے "AssertionError: نوڈ کے لیے DQ رولز میں ناکامی کی وجہ سے کام ناکام ہو گیا: "
آپ ڈیٹا کوالٹی ٹیب پر ڈیٹا کے معیار کے نتائج کا جائزہ لے سکتے ہیں۔ ہماری مثال میں، حسب ضرورت ڈیٹا کے معیار کی توثیق ناکام ہو گئی کیونکہ ڈیٹاسیٹ کی قطاروں میں سے ایک کا نمبر نہیں تھا۔Telephone
orEmail
قدر.ڈیٹا کوالٹی کے نتائج کا اندازہ کریں نوڈ کے ڈیٹا کوالٹی رزلٹ لوکیشن پیرامیٹر کی بنیاد پر JSON فارمیٹ میں S3 بالٹی پر بھی لکھا جاتا ہے۔ - پر تشریف لے جائیں
dqresults
شروع ہونے والی S3 بالٹی کے نیچے سابقہgluedataqualitystudio-*
. آپ دیکھیں گے کہ ڈیٹا کے معیار کا نتیجہ تاریخ کے لحاظ سے تقسیم کیا گیا ہے۔
ذیل میں JSON فائل کی آؤٹ پٹ ہے۔ آپ اس فائل آؤٹ پٹ کو حسب ضرورت ڈیٹا کوالٹی ویژولائزیشن ڈیش بورڈ بنانے کے لیے استعمال کر سکتے ہیں۔
آپ بھی نگرانی کر سکتے ہیں ڈیٹا کوالٹی کا اندازہ لگائیں۔ کے ذریعے نوڈ ایمیزون کلاؤڈ واچ ڈیٹا کے معیار کے نتائج کے بارے میں اطلاعات بھیجنے کے لیے میٹرکس اور الارم سیٹ کریں۔ CloudWatch کے الارم سیٹ اپ کرنے کے بارے میں مزید جاننے کے لیے، ملاحظہ کریں۔ Amazon CloudWatch کے الارم استعمال کرنا.
صاف کرو
مستقبل کے چارجز سے بچنے اور غیر استعمال شدہ کرداروں اور پالیسیوں کو صاف کرنے کے لیے، اپنے بنائے ہوئے وسائل کو حذف کریں:
- حذف کریں
GlueDataQualityStudio
نوکری جو آپ نے اس پوسٹ کے حصے کے طور پر بنائی ہے۔ - AWS CloudFormation کنسول پر، حذف کریں۔
GlueDataQualityStudio
اسٹیک
نتیجہ
AWS Glue ڈیٹا کوالٹی آپ کی ETL پائپ لائن کے ڈیٹا کے معیار کی پیمائش اور نگرانی کرنے کا ایک آسان طریقہ پیش کرتا ہے۔ اس پوسٹ میں، آپ نے ڈیٹا کے معیار کے نتائج کی بنیاد پر ضروری اقدامات کرنے کا طریقہ سیکھا، جس سے آپ کو ڈیٹا کے اعلیٰ معیار کو برقرار رکھنے اور پر اعتماد کاروباری فیصلے کرنے میں مدد ملتی ہے۔
AWS Glue Data Quality کے بارے میں مزید جاننے کے لیے، دستاویزات کو چیک کریں:
مصنفین کے بارے میں
دین بندھو پرساد AWS میں ایک سینئر تجزیاتی ماہر ہے، بڑی ڈیٹا سروسز میں مہارت رکھتا ہے۔ وہ AWS کلاؤڈ پر جدید ڈیٹا فن تعمیر میں صارفین کی مدد کرنے کا شوق رکھتا ہے۔ اس نے تمام سائز کے صارفین کو ڈیٹا مینجمنٹ، ڈیٹا ویئر ہاؤس، اور ڈیٹا لیک سلوشنز کو نافذ کرنے میں مدد کی ہے۔
Yannis Mentekidis AWS Glue ٹیم میں ایک سینئر سافٹ ویئر ڈویلپمنٹ انجینئر ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو بلاک چین۔ Web3 Metaverse Intelligence. علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- ہمارے بارے میں
- تک رسائی حاصل
- اکاؤنٹ
- درست
- تسلیم کرتے ہیں
- عمل
- اعمال
- کے بعد
- تمام
- کی اجازت دیتا ہے
- پہلے ہی
- ایمیزون
- تجزیاتی
- اور
- فن تعمیر
- AWS
- AWS کلاؤڈ فارمیشن
- AWS گلو
- برا
- خراب ڈیٹا
- کی بنیاد پر
- کیونکہ
- اس سے پہلے
- بگ
- بگ ڈیٹا
- تعمیر
- عمارت
- کاروبار
- کیس
- بوجھ
- چیک کریں
- چیک
- میں سے انتخاب کریں
- بادل
- کالم
- کامن
- مکمل
- اعتماد
- غور کریں
- کنسول
- صارفین
- فساد
- تخلیق
- بنائی
- مخلوق
- cured
- اپنی مرضی کے
- گاہک
- گاہکوں
- اپنی مرضی کے مطابق
- اعداد و شمار
- ڈیٹا لیک
- ڈیٹا مینجمنٹ
- تاریخ
- فیصلے
- تفصیلات
- ترقی
- براہ راست
- دستاویزات
- آسانی سے
- ایڈیٹر
- ای میل
- انجینئر
- انجینئرز
- درج
- خرابی
- Ether (ETH)
- اندازہ
- مثال کے طور پر
- موجود ہے
- تجربہ
- وضاحت
- نکالنے
- ناکام
- ناکام رہتا ہے
- نمایاں کریں
- فائل
- پہلا
- کے بعد
- فارمیٹ
- سے
- افعال
- مستقبل
- پیدا
- پیدا ہوتا ہے
- حاصل کرنے
- مدد
- مدد
- مدد کرتا ہے
- ہائی
- اعلی معیار کی
- کس طرح
- کیسے
- تاہم
- HTML
- HTTPS
- سینکڑوں
- کی نشاندہی
- شناختی
- پر عملدرآمد
- in
- شامل ہیں
- ان پٹ
- مسائل
- IT
- ایوب
- نوکریاں
- JSON
- کلیدی
- جھیل
- جانیں
- سیکھا ہے
- سیکھنے
- لوڈ
- لوڈ کر رہا ہے
- محل وقوع
- کھو
- مشین
- مشین لرننگ
- برقرار رکھنے کے
- بنا
- انتظام
- انتظام
- مینیجنگ
- دستی
- پیمائش
- اقدامات
- مینو
- پیغام
- پیمائش کا معیار
- شاید
- جدید
- کی نگرانی
- نظر رکھتا ہے
- زیادہ
- ایک سے زیادہ
- تشریف لے جائیں
- سمت شناسی
- ضروری
- ضروریات
- اگلے
- نوڈ
- اطلاعات
- اشیاء
- تجویز
- ایک
- کھول
- دوسری صورت میں
- پین
- پیرامیٹر
- حصہ
- جذباتی
- اجازت
- پائپ لائن
- رکھ
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- علاوہ
- پالیسیاں
- پوسٹ
- تیار
- حال (-)
- کی روک تھام
- پیش نظارہ
- پچھلا
- پرائمری
- عمل
- خصوصیات
- فراہم
- فراہم کرتا ہے
- معیار
- فوری
- خام
- پڑھیں
- حال ہی میں
- خطے
- کی ضرورت
- ضرورت
- وسائل
- نتیجہ
- نتائج کی نمائش
- کا جائزہ لینے کے
- کردار
- کردار
- ROW
- حکمرانی
- قوانین
- رن
- اسی
- تلاش کریں
- سیکشن
- سیریز
- سروس
- سروسز
- مقرر
- قائم کرنے
- سیٹ اپ
- دکھائیں
- شوز
- سائن ان کریں
- سادہ
- سائز
- So
- سافٹ ویئر کی
- سوفٹ ویئر کی نشوونما
- حل
- حل
- ماخذ
- ماہر
- مہارت
- ڈھیر لگانا
- معیار
- شروع کریں
- شروع
- شروع
- مرحلہ
- مراحل
- ذخیرہ
- سٹوڈیو
- سوٹ
- مصنوعی طور پر
- لے لو
- ہدف
- ٹاسک
- ٹیم
- سانچے
- ۔
- ہزاروں
- کے ذریعے
- اوقات
- کرنے کے لئے
- آج
- اوزار
- تبدیل
- تبدیل
- بھروسہ رکھو
- کے تحت
- بنیادی
- منفرد
- غیر استعمال شدہ
- استعمال کی شرائط
- استعمال کیس
- صارفین
- عام طور پر
- تصدیق کریں۔
- توثیق
- قیمت
- مختلف
- لنک
- تصور
- انتظار
- چاہے
- جس
- گے
- بغیر
- کام کرتا ہے
- لکھنا
- تحریری طور پر
- لکھا
- اور
- زیفیرنیٹ