فیصلہ سازی، رپورٹنگ، اور مشین لرننگ (ML) جیسے عمل کو چلانے کے لیے کاروبار ہر روز زیادہ سے زیادہ ڈیٹا اکٹھا کرتے ہیں۔ اپنے ڈیٹا کو صاف کرنے اور تبدیل کرنے سے پہلے، آپ کو یہ تعین کرنے کی ضرورت ہے کہ آیا یہ استعمال کے لیے موزوں ہے۔ غلط، گمشدہ، یا خراب ڈیٹا کے نیچے دھارے کے تجزیات اور ایم ایل کے عمل پر بڑے اثرات مرتب ہو سکتے ہیں۔ ڈیٹا کوالٹی چیک کرنے سے آپ کے ورک فلو میں پہلے مسائل کی نشاندہی کرنے میں مدد ملتی ہے تاکہ آپ انہیں تیزی سے حل کر سکیں۔ مزید برآں، ایونٹ پر مبنی فن تعمیر کا استعمال کرتے ہوئے یہ چیک کرنے سے آپ کو دستی ٹچ پوائنٹس کو کم کرنے اور ڈیٹا کی بڑھتی ہوئی مقدار کے ساتھ پیمانے میں مدد ملتی ہے۔
AWS گلو ڈیٹا بریو ایک بصری ڈیٹا کی تیاری کا ٹول ہے جو ڈیٹا کے معیار کے اعدادوشمار کو تلاش کرنا آسان بناتا ہے جیسے کہ ڈپلیکیٹ ویلیوز، گم شدہ ویلیوز، اور آپ کے ڈیٹا میں آؤٹ لیرز۔ آپ اپنی منفرد کاروباری ضروریات کی بنیاد پر مشروط چیک کرنے کے لیے DataBrew میں ڈیٹا کے معیار کے اصول بھی ترتیب دے سکتے ہیں۔ مثال کے طور پر، ایک کارخانہ دار کو اس بات کو یقینی بنانے کی ضرورت ہو سکتی ہے کہ خاص طور پر a میں کوئی ڈپلیکیٹ اقدار موجود نہیں ہیں۔ Part ID
کالم، یا صحت کی دیکھ بھال فراہم کرنے والا ان اقدار کی جانچ کر سکتا ہے۔ SSN
کالم ایک مخصوص لمبائی ہے. DataBrew کے ساتھ ان اصولوں کو بنانے اور ان کی توثیق کرنے کے بعد، آپ استعمال کر سکتے ہیں۔ ایمیزون ایونٹ برج, AWS اسٹیپ فنکشنز, او ڈبلیو ایس لامبڈا۔، اور ایمیزون سادہ نوٹیفکیشن سروس (Amazon SNS) ایک خودکار ورک فلو تخلیق کرنے اور جب کوئی قاعدہ توثیق کی جانچ میں ناکام ہوجاتا ہے تو ایک اطلاع بھیجنا۔
اس پوسٹ میں، ہم آپ کو اینڈ ٹو اینڈ ورک فلو اور اس حل کو نافذ کرنے کا طریقہ بتاتے ہیں۔ اس پوسٹ میں مرحلہ وار ٹیوٹوریل شامل ہے۔ AWS سرور لیس ایپلیکیشن ماڈل (AWS SAM) ٹیمپلیٹ، اور مثالی کوڈ جسے آپ اپنے AWS ماحول میں ایپلیکیشن کو تعینات کرنے کے لیے استعمال کر سکتے ہیں۔
حل جائزہ
اس پوسٹ میں حل یکجا ہے۔ سرورless ڈیٹا کے معیار کی توثیق کے لیے ایک مکمل طور پر خودکار، اختتام سے آخر تک ایونٹ سے چلنے والی پائپ لائن بنانے کے لیے AWS سروسز۔ درج ذیل خاکہ ہمارے حل کے فن تعمیر کو واضح کرتا ہے۔
حل ورک فلو میں درج ذیل مراحل شامل ہیں:
- جب آپ اپنے پر نیا ڈیٹا اپ لوڈ کرتے ہیں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) بالٹی، واقعات EventBridge کو بھیجے جاتے ہیں۔
- ایک EventBridge قاعدہ ایک سٹیپ فنکشنز سٹیٹ مشین کو چلانے کے لیے متحرک کرتا ہے۔
- ریاستی مشین ڈیٹا بریو پروفائل جاب شروع کرتی ہے، جسے ڈیٹا کوالٹی رول سیٹ اور قواعد کے ساتھ ترتیب دیا جاتا ہے۔ اگر آپ اسی طرح کا حل بنانے پر غور کر رہے ہیں، تو DataBrew پروفائل جاب آؤٹ پٹ لوکیشن اور سورس ڈیٹا S3 بالٹیاں منفرد ہونی چاہئیں۔ یہ کام کی تکرار سے روکتا ہے۔ ہم اپنے وسائل کو ایک کے ساتھ تعینات کرتے ہیں۔ AWS کلاؤڈ فارمیشن ٹیمپلیٹ، جو منفرد S3 بالٹیاں بناتا ہے۔
- لیمبڈا فنکشن ایمیزون S3 سے ڈیٹا کوالٹی کے نتائج پڑھتا ہے، اور اسٹیٹ مشین میں بولین جواب دیتا ہے۔ فنکشن واپس آتا ہے۔
false
اگر قواعد سیٹ میں ایک یا زیادہ قواعد ناکام ہو جاتے ہیں، اور واپس آ جاتے ہیں۔true
اگر تمام اصول کامیاب ہوتے ہیں۔ - اگر بولین جواب ہے۔
false
، ریاستی مشین ایمیزون SNS کے ساتھ ایک ای میل اطلاع بھیجتی ہے اور ریاستی مشین a میں ختم ہوتی ہے۔failed
حالت. اگر بولین جواب ہے۔true
، ریاستی مشین a میں ختم ہوتی ہے۔succeed
حالت. آپ کامیابی یا ناکامی پر دوسرے کاموں کو چلانے کے لیے اس مرحلے میں حل کو بھی بڑھا سکتے ہیں۔ مثال کے طور پر، اگر تمام اصول کامیاب ہو جاتے ہیں، تو آپ DataBrew میں ایک اور تبدیلی کے کام کو متحرک کرنے کے لیے ایک EventBridge پیغام بھیج سکتے ہیں۔
اس پوسٹ میں، آپ AWS CloudFormation کا استعمال کرتے ہیں تاکہ ایونٹ سے چلنے والے ڈیٹا کوالٹی کی توثیق کے حل کے مکمل کام کرنے والے ڈیمو کو تعینات کیا جا سکے۔ آپ Amazon S3 پر ایک درست کوما سے الگ کردہ اقدار (CSV) فائل اپ لوڈ کرکے حل کی جانچ کرتے ہیں، اس کے بعد ایک غلط CSV فائل ہوتی ہے۔
اقدامات مندرجہ ذیل ہیں:
- حل کے وسائل کو تعینات کرنے کے لیے CloudFormation اسٹیک لانچ کریں۔
- حل کی جانچ کریں:
- Amazon S3 پر ایک درست CSV فائل اپ لوڈ کریں اور ڈیٹا کوالٹی کی توثیق اور سٹیپ فنکشنز سٹیٹ مشین کامیاب ہونے کا مشاہدہ کریں۔
- Amazon S3 پر ایک غلط CSV فائل اپ لوڈ کریں اور ڈیٹا کوالٹی کی توثیق اور سٹیپ فنکشنز سٹیٹ مشین فیل ہونے کا مشاہدہ کریں، اور Amazon SNS سے ایک ای میل اطلاع موصول کریں۔
تمام نمونہ کوڈ میں پایا جا سکتا ہے GitHub ذخیرہ.
شرائط
اس واک تھرو کے لیے، آپ کے پاس درج ذیل شرائط ہونی چاہئیں:
AWS CloudFormation کا استعمال کرتے ہوئے حل کے وسائل کو تعینات کریں۔
آپ ایونٹ سے چلنے والے ڈیٹا کے معیار کی توثیق کے حل کے لیے درکار وسائل کو تعینات کرنے کے لیے CloudFormation اسٹیک استعمال کرتے ہیں۔ اسٹیک میں DataBrew میں ڈیٹاسیٹ اور رولسیٹ کی مثال شامل ہے۔
- اپنے AWS اکاؤنٹ میں سائن ان کریں اور پھر منتخب کریں۔ اسٹیک لانچ کریں۔:
- پر فوری تخلیق اسٹیک صفحہ، کے لیے ای میل اڈریس، Amazon SNS ای میل اطلاعات کے لیے ایک درست ای میل پتہ درج کریں۔
- باقی آپشنز کو ڈیفالٹس پر سیٹ رہنے دیں۔
- تسلیم شدہ چیک باکسز کو منتخب کریں۔
- میں سے انتخاب کریں اسٹیک بنائیں۔
CloudFormation اسٹیک تک پہنچنے میں تقریباً 5 منٹ لگتے ہیں۔ CREATE_COMPLETE
حیثیت.
- آپ کے فراہم کردہ ای میل ایڈریس کا ان باکس چیک کریں اور SNS سبسکرپشن قبول کریں۔
واک تھرو کے اختتام پر ای میل اطلاع کی خصوصیت کو ظاہر کرنے کے لیے آپ کو رکنیت کی تصدیق کا جائزہ لینے اور اسے قبول کرنے کی ضرورت ہے۔
پر نتائج اسٹیک کے ٹیب پر، آپ ڈیٹا بریو اور سٹیپ فنکشنز کے وسائل کو براؤز کرنے کے لیے یو آر ایل تلاش کر سکتے ہیں جو ٹیمپلیٹ نے بنائے ہیں۔ نیز مکمل شدہ AWS CLI کمانڈز کو بھی نوٹ کریں جو آپ بعد کے مراحل میں استعمال کرتے ہیں۔
اگر آپ کو منتخب کریں AWSGlueDataBrewRuleset
ویلیو لنک، آپ کو رولسیٹ تفصیلات کا صفحہ دیکھنا چاہیے، جیسا کہ درج ذیل اسکرین شاٹ میں ہے۔ اس واک تھرو میں، ہم تین اصولوں کے ساتھ ڈیٹا کوالٹی رول سیٹ بناتے ہیں جو گمشدہ اقدار، آؤٹ لیرز اور سٹرنگ کی لمبائی کو چیک کرتے ہیں۔
حل کی جانچ کریں۔
مندرجہ ذیل مراحل میں، آپ CSV فائل کے درست اور غلط ورژن اپ لوڈ کرنے کے لیے AWS CLI استعمال کرتے ہیں تاکہ ایونٹ سے چلنے والے ڈیٹا کے معیار کی توثیق کے حل کو جانچ سکیں۔
- ٹرمینل یا کمانڈ لائن پرامپٹ کھولیں اور نمونہ ڈیٹا ڈاؤن لوڈ کرنے کے لیے AWS CLI استعمال کریں۔ کلیدی نام کے ساتھ CloudFormation اسٹیک آؤٹ پٹ سے کمانڈ استعمال کریں۔
CommandToDownloadTestData
: - غیر تبدیل شدہ CSV فائل کو اپنی S3 بالٹی میں اپ لوڈ کرنے کے لیے AWS CLI دوبارہ استعمال کریں۔ تار کو تبدیل کریں۔ اپنے بالٹی کے نام کے ساتھ، یا CloudFormation ٹیمپلیٹ آؤٹ پٹ سے آپ کو فراہم کردہ کمانڈ کو کاپی اور پیسٹ کریں:
- سٹیپ فنکشنز کنسول پر، CloudFormation ٹیمپلیٹ کے ذریعے بنائی گئی سٹیٹ مشین کا پتہ لگائیں۔
آپ CloudFormation آؤٹ پٹس میں ایک URL تلاش کر سکتے ہیں جو پہلے ذکر کیا گیا تھا۔
- پر پھانسیاں۔ ٹیب، آپ کو ریاستی مشین کا ایک نیا رن دیکھنا چاہئے۔
- ریاستی مشین کا گراف دیکھنے اور اس کی پیشرفت کی نگرانی کے لیے رن کا URL منتخب کریں۔
مندرجہ ذیل تصویر ہماری ریاستی مشین کے ورک فلو کو ظاہر کرتی ہے۔
ڈیٹا کے معیار کے اصول کی ناکامی کو ظاہر کرنے کے لیے، آپ اس میں کم از کم ایک ترمیم کرتے ہیں۔ votes.csv
فائل.
- فائل کو اپنے پسندیدہ ٹیکسٹ ایڈیٹر یا اسپریڈشیٹ ٹول میں کھولیں، اور صرف ایک سیل کو حذف کریں۔
درج ذیل اسکرین شاٹس میں، میں لینکس پر GNU نینو ایڈیٹر استعمال کرتا ہوں۔ آپ سیل کو حذف کرنے کے لیے اسپریڈشیٹ ایڈیٹر بھی استعمال کر سکتے ہیں۔ اس کی وجہ سے "گم شدہ قدروں کے لیے تمام کالم چیک کریں" کا اصول ناکام ہو جاتا ہے۔
درج ذیل اسکرین شاٹ ترمیم سے پہلے CSV فائل کو دکھاتا ہے۔
درج ذیل اسکرین شاٹ تبدیل شدہ CSV فائل کو دکھاتا ہے۔
- ترمیم شدہ کو محفوظ کریں۔
votes.csv
فائل کریں اور اپنے کمانڈ پرامپٹ یا ٹرمینل پر واپس جائیں۔ - فائل کو اپنی S3 بالٹی میں ایک بار اور اپ لوڈ کرنے کے لیے AWS CLI استعمال کریں۔ آپ پہلے کی طرح وہی کمانڈ استعمال کرتے ہیں:
- اسٹیپ فنکشنز کنسول پر، اس کی نگرانی کے لیے جدید ترین سٹیٹ مشین رن پر جائیں۔
ڈیٹا کوالٹی کی توثیق ناکام ہو جاتی ہے، جس سے SNS ای میل نوٹیفکیشن شروع ہو جاتا ہے اور ریاستی مشین کے مجموعی طور پر چلنے میں ناکامی ہوتی ہے۔
مندرجہ ذیل تصویر ناکام ریاستی مشین کے ورک فلو کو دکھاتی ہے۔
درج ذیل اسکرین شاٹ SNS ای میل کی ایک مثال دکھاتا ہے۔
- آپ DataBrew کنسول پر قاعدہ کی ناکامی کی تحقیقات کر سکتے ہیں۔
AWSGlueDataBrewProfileResults
CloudFormation اسٹیک آؤٹ پٹس میں قدر۔
صاف کرو
مستقبل کے چارجز سے بچنے کے لیے، وسائل کو حذف کریں۔ AWS CloudFormation کنسول پر، نام کے اسٹیک کو حذف کریں۔ AWSBigDataBlogDataBrewDQSample
.
نتیجہ
اس پوسٹ میں، آپ نے خودکار، ایونٹ سے چلنے والے ڈیٹا کوالٹی کی توثیق پائپ لائنز بنانے کا طریقہ سیکھا۔ DataBrew کے ساتھ، آپ اپنے کاروبار اور تکنیکی تقاضوں کے لیے ڈیٹا کے معیار کے اصول، حد، اور قواعد کی وضاحت کر سکتے ہیں۔ اسٹیپ فنکشنز، ایونٹ برج، اور ایمیزون ایس این ایس آپ کو آپ کی ضروریات کے مطابق تخصیص کردہ غلطی سے نمٹنے اور الرٹ کرنے کے ساتھ پیچیدہ پائپ لائنز بنانے کی اجازت دیتے ہیں۔
آپ اس حل اور سورس کوڈ کے بارے میں مزید جان سکتے ہیں۔ GitHub ذخیرہ. DataBrew ڈیٹا کے معیار کے قواعد کے بارے میں مزید جاننے کے لیے، ملاحظہ کریں۔ AWS Glue DataBrew اب صارفین کو اپنی کاروباری ضروریات کی وضاحت اور توثیق کرنے کے لیے ڈیٹا کوالٹی کے اصول بنانے کی اجازت دیتا ہے۔ یا رجوع کریں۔ AWS Glue DataBrew میں ڈیٹا کے معیار کی توثیق کرنا.
مصنفین کے بارے میں
لیث السعدون اینویژن انجینئرنگ ٹیم میں پرنسپل پروٹو ٹائپنگ آرکیٹیکٹ ہیں۔ وہ حقیقی دنیا کے صارفین کے مسائل کو حل کرنے کے لیے AI، مشین لرننگ، IoT اور ایج کمپیوٹنگ، اسٹریمنگ اینالیٹکس، روبوٹکس اور مقامی کمپیوٹنگ کا استعمال کرتے ہوئے پروٹوٹائپس اور حل تیار کرتا ہے۔ اپنے فارغ وقت میں، لیتھ بیرونی سرگرمیوں سے لطف اندوز ہوتا ہے جیسے فوٹو گرافی، ڈرون پروازیں، پیدل سفر، اور پینٹبالنگ۔
گورڈن برجیس AWS Glue DataBrew کے ساتھ ایک سینئر پروڈکٹ مینیجر ہے۔ وہ صارفین کو ان کے ڈیٹا سے بصیرتیں دریافت کرنے میں مدد کرنے کے بارے میں پرجوش ہے، اور تجزیاتی مصنوعات کے لیے صارف کے تجربات اور بھرپور فعالیت بنانے پر توجہ مرکوز کرتا ہے۔ کام سے باہر، گورڈن کو پڑھنے، کافی اور کمپیوٹر بنانے کا شوق ہے۔
- '
- &
- 100
- 107
- 7
- ہمارے بارے میں
- اکاؤنٹ
- سرگرمیوں
- پتہ
- AI
- تمام
- ایمیزون
- تجزیاتی
- درخواست
- فن تعمیر
- آٹومیٹڈ
- AWS
- تعمیر
- عمارت
- کاروبار
- بوجھ
- چیک
- صفائی
- کوڈ
- کافی
- کالم
- پیچیدہ
- کمپیوٹر
- کمپیوٹنگ
- کنسول
- گاہکوں
- اعداد و شمار
- ڈیٹا کی معیار
- دن
- دریافت
- ڈرون
- ایج
- کنارے کمپیوٹنگ
- ایڈیٹر
- ای میل
- ختم ہو جاتا ہے
- انجنیئرنگ
- ماحولیات
- واقعات
- مثال کے طور پر
- تجربات
- ناکامی
- تیز تر
- نمایاں کریں
- فٹ
- پروازیں
- ملا
- مفت
- تقریب
- افعال
- مستقبل
- بڑھتے ہوئے
- ہینڈلنگ
- صحت کی دیکھ بھال
- مدد کرتا ہے
- لمبی پیدل سفر
- کس طرح
- کیسے
- HTTPS
- شناخت
- تصویر
- پر عملدرآمد
- بصیرت
- کی تحقیقات
- IOT
- مسائل
- IT
- ایوب
- کلیدی
- بڑے
- تازہ ترین
- جانیں
- سیکھا ہے
- سیکھنے
- لائن
- LINK
- لینکس
- محل وقوع
- مشین لرننگ
- ڈویلپر
- ML
- زیادہ
- نینو
- ضرورت
- نوٹیفیکیشن
- آپشنز کے بھی
- حکم
- دیگر
- بیرونی
- فوٹو گرافی
- پرنسپل
- مصنوعات
- حاصل
- پروفائل
- prototyping کے
- فراہم کنندہ
- معیار
- پڑھنا
- کو کم
- کی جگہ
- ضروریات
- وسائل
- جواب
- نتائج کی نمائش
- واپسی
- کا جائزہ لینے کے
- روبوٹکس
- قوانین
- رن
- پیمانے
- بے سرور
- سروسز
- مقرر
- اسی طرح
- سادہ
- So
- حل
- حل
- مقامی
- مقامی کمپیوٹنگ
- خاص طور پر
- سپریڈ شیٹ
- حالت
- کے اعداد و شمار
- درجہ
- ذخیرہ
- محرومی
- سبسکرائب
- کامیابی
- ٹیکنیکل
- ٹرمنل
- ٹیسٹ
- ماخذ
- کے ذریعے
- وقت
- کے آلے
- تبدیلی
- تبدیل
- سبق
- قیمت
- لنک
- کام
- کام کا بہاؤ