AWS گلو ایک سرور لیس ڈیٹا انٹیگریشن سروس ہے جو تجزیات، مشین لرننگ (ML) اور ایپلیکیشن ڈیولپمنٹ کے لیے ڈیٹا کو دریافت کرنا، تیار کرنا، اور یکجا کرنا آسان بناتی ہے۔ آپ ڈیٹا انضمام اور ETL (ایکسٹریکٹ، ٹرانسفارم، اور لوڈ) پائپ لائنز بنانے، چلانے اور مانیٹر کرنے کے لیے AWS Glue کا استعمال کر سکتے ہیں اور متعدد ڈیٹا اسٹورز میں اپنے اثاثوں کو کیٹلاگ کر سکتے ہیں۔
سیکڑوں ہزاروں صارفین ڈیٹا پر مبنی کاروباری فیصلے کرنے کے لیے تجزیات اور مشین لرننگ کے لیے ڈیٹا لیکس کا استعمال کرتے ہیں۔ ڈیٹا صارفین کا ڈیٹا پر اعتماد ختم ہو جاتا ہے اگر یہ درست اور حالیہ نہیں ہے، جس سے ڈیٹا کے معیار کو زیادہ سے زیادہ اور درست فیصلے کرنے کے لیے ضروری ہو جاتا ہے۔
ڈیٹا کی درستگی اور تازگی کا اندازہ انجینئرز کے لیے ایک عام کام ہے۔ فی الحال، ڈیٹا کے معیار کو جانچنے کے لیے مختلف ٹولز دستیاب ہیں۔ تاہم، ان ٹولز کو اکثر ڈیٹا کی دریافت کے دستی عمل اور ڈیٹا انجینئرنگ اور کوڈنگ میں مہارت کی ضرورت ہوتی ہے۔
ہمیں AWS گلو ڈیٹا کوالٹی کے عوامی پیش نظارہ کے آغاز کا اعلان کرتے ہوئے خوشی ہو رہی ہے۔ آپ آج اس خصوصیت تک رسائی حاصل کر سکتے ہیں بغیر کسی اضافی رسائی کی درخواست کے دستیاب علاقے. AWS Glue ڈیٹا کوالٹی AWS Glue کی ایک نئی پیش نظارہ خصوصیت ہے جو Amazon S3 پر مبنی ڈیٹا لیکس اور AWS Glue ETL جابز میں ڈیٹا کے معیار کی پیمائش اور نگرانی کرتی ہے۔ اسے ڈیٹا انجینئرنگ یا کوڈنگ میں کسی مہارت کی ضرورت نہیں ہے۔ یہ آپ کے ڈیٹا کے معیار کی نگرانی اور جائزہ لینے کے آپ کے تجربے کو آسان بناتا ہے۔
یہ پوسٹس کی چار حصوں کی سیریز کا حصہ 1 ہے جس کی وضاحت کرنے کے لیے کہ AWS Glue Data Quality کیسے کام کرتا ہے۔ سیریز کی اگلی پوسٹس دیکھیں:
اس پوسٹ میں، ہم AWS گلو ڈیٹا کوالٹی فیچر کو استعمال کرنے کی سادگی پر جائیں گے بذریعہ:
- ڈیٹا کے معیار کی سفارشات شروع کرنا اور AWS Glue Data Catalog میں آپ کے ڈیٹا پر چلتا ہے۔
- جب ڈیٹا کے معیار کے نتائج ایک خاص حد سے نیچے ہوں تو اطلاعات حاصل کرنے کے لیے Amazon CloudWatch الارم بنانا۔
- Amazon Athena کے ذریعے آپ کے AWS گلو ڈیٹا کوالٹی کے نتائج کا تجزیہ کرنا۔
AWS CloudFormation کے ساتھ وسائل مرتب کریں۔
فراہم کردہ CloudFormation اسکرپٹ آپ کے لیے درج ذیل وسائل تخلیق کرتا ہے:
- AWS گلو ڈیٹا کوالٹی کو چلانے کے لیے درکار IAM رول
- NYC ٹیکسی ڈیٹاسیٹ کو ذخیرہ کرنے کے لیے ایک Amazon Simple Storage Service (Amazon S3) بالٹی
- AWS Glue Data Quality کے نتائج کو ذخیرہ کرنے اور تجزیہ کرنے کے لیے ایک S3 بالٹی
- NYC ٹیکسی ڈیٹاسیٹ سے بنایا گیا AWS Glue ڈیٹا بیس اور ٹیبل
مراحل:
- AWS CloudFormation کنسول کھولیں۔
- میں سے انتخاب کریں اسٹیک بنائیں اور پھر منتخب کریں نئے وسائل کے ساتھ (معیاری).
- کے لئے سانچہ ماخذمنتخب کریں ٹیمپلیٹ فائل اپ لوڈ کریں۔، اور اوپر منسلک ٹیمپلیٹ فائل فراہم کریں۔ پھر منتخب کریں۔ اگلے.
- کے لئے اسٹیک کا نام, ڈیٹا کوالٹی ڈیٹا بیس، اور ڈیٹا کوالٹی ٹیبل، بطور ڈیفالٹ چھوڑ دیں۔ کے لیے DataQualityS3BucketName، اپنی S3 بالٹی کا نام درج کریں۔ پھر منتخب کریں۔ اگلے.
- آخری اسکرین پر، یہ تسلیم کرنا یقینی بنائیں کہ یہ اسٹیک آپ کے لیے IAM وسائل پیدا کرے گا، اور منتخب کریں۔ جمع کرائیں.
- ایک بار جب اسٹیک کامیابی سے بن جاتا ہے، اسٹیک کے ذریعہ تخلیق کردہ S3 بالٹی پر جائیں اور اپ لوڈ کریں yellow_tripdata_2022-01.parquet فائل.
AWS گلو ڈیٹا کیٹلاگ میں اپنے ڈیٹا پر AWS Glue ڈیٹا کوالٹی رن شروع کریں
اس پہلے حصے میں، ہم AWS Glue Data Quality Service سے ڈیٹا کوالٹی رول کی سفارشات تیار کریں گے۔ ان سفارشات کا استعمال کرتے ہوئے، ہم پھر اپنے ڈیٹا کا تجزیہ حاصل کرنے کے لیے اپنے ڈیٹاسیٹ کے خلاف ڈیٹا کوالٹی ٹاسک چلائیں گے۔
شروع کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:
- AWS Glue کنسول کھولیں۔
- میں سے انتخاب کریں میزیں کے تحت ڈیٹا کیٹلاگ.
- منتخب کریں ڈیٹا کوالٹی ٹیبل CloudFormation اسٹیک کے ذریعے تیار کردہ ٹیبل۔
- منتخب کریں ڈیٹا کا معیار ٹیب.
- میں سے انتخاب کریں قواعد کی سفارش کریں۔.
- پر ڈیٹا کوالٹی کے قواعد تجویز کریں۔ صفحہ، چیک کریں تجویز کردہ قواعد کو قواعد کے طور پر محفوظ کریں۔. یہ ہمیں اگلے مراحل میں استعمال کے لیے تجویز کردہ اصولوں کو خودکار طور پر ایک رول سیٹ میں محفوظ کرنے کی اجازت دے گا۔
- کے لئے آئی اے ایم کا کردار، IAM رول کا انتخاب کریں جو CloudFormation اسٹیک سے بنایا گیا تھا۔
- کے لئے اضافی کنفیگریشنز -اختیاری، کارکنوں کی ڈیفالٹ تعداد اور ٹائم آؤٹ چھوڑ دیں۔
- میں سے انتخاب کریں قواعد کی سفارش کریں۔. یہ کارکنوں کی دی گئی تعداد کے ساتھ ڈیٹا کوالٹی کی سفارشات کا آغاز کرے گا۔
- قواعد کے مکمل ہونے کا انتظار کریں۔
- ایک بار مکمل ہونے کے بعد، پر واپس جائیں۔ قواعد و ضوابط ٹیب آپ کو ایک کامیاب سفارش رن اور ایک رولسیٹ بنایا ہوا دیکھنا چاہیے۔
AWS گلو ڈیٹا کوالٹی کی سفارشات کو سمجھیں۔
AWS Glue ڈیٹا کوالٹی کی سفارشات AWS Glue ڈیٹا کوالٹی سروس کے ذریعہ تیار کردہ تجاویز ہیں اور یہ آپ کے ڈیٹا کی شکل پر مبنی ہیں۔ یہ سفارشات آپ کے ڈیٹا کے RowCounts، Mean، Standard Deviation وغیرہ جیسے پہلوؤں کو خود بخود مدنظر رکھتی ہیں، اور آپ کے لیے نقطہ آغاز کے طور پر استعمال کرنے کے لیے اصولوں کا ایک سیٹ تیار کرتی ہیں۔
یہاں استعمال ہونے والا ڈیٹاسیٹ NYC Taxi ڈیٹاسیٹ تھا۔ اس کی بنیاد پر، اس ڈیٹاسیٹ کے کالم، اور ان کالموں کی قدریں، AWS Glue Data Quality قواعد کے ایک سیٹ کی تجویز کرتی ہے۔ مجموعی طور پر، سفارشی سروس نے ڈیٹاسیٹ کے تمام کالموں کو خود بخود مدنظر رکھا، اور 55 قواعد تجویز کیے ہیں۔
ان میں سے کچھ قوانین یہ ہیں:
- "<> اور <> کے درمیان قطار کی گنتی" → اس نے جو ڈیٹا دیکھا اس کی بنیاد پر قطاروں کی تعداد کی توقع کریں
- [ ] میں "ColumnValues "VendorID" → توقع کریں کہ "VendorID" کالم قدروں کے مخصوص سیٹ کے اندر ہو۔
- IsComplete "VendorID" → توقع کریں کہ "VendorID" ایک غیر null قدر ہو
میں تجویز کردہ AWS گلو ڈیٹا کوالٹی کے اصول کیسے استعمال کروں؟
- سے قواعد و ضوابط سیکشن میں، آپ کو اپنا تیار کردہ اصول دیکھنا چاہیے۔ تیار کردہ قواعد کا انتخاب کریں، اور منتخب کریں۔ اصولوں کا اندازہ کریں۔.
- اگر آپ نے باکس کو چیک نہیں کیا۔ تجویز کردہ قواعد کو قواعد کے طور پر محفوظ کریں۔ جب آپ سفارش چلاتے ہیں، تب بھی آپ سفارشی ٹاسک رن پر کلک کر سکتے ہیں اور ایک نیا رول سیٹ بنانے کے لیے قواعد کو کاپی کر سکتے ہیں
- کے لئے ڈیٹا کے معیار کے اعمال کے تحت ڈیٹا کے معیار کی خصوصیاتمنتخب Amazon CloudWatch پر میٹرکس شائع کریں۔. اگر اس باکس کو نشان زد نہیں کیا جاتا ہے، تو ڈیٹا کوالٹی رن ایمیزون کلاؤڈ واچ پر میٹرکس شائع نہیں کرے گا۔
- کے لئے IAM کا کردار، منتخب GlueDataQualityBlogRole AWS CloudFormation اسٹیک میں بنایا گیا ہے۔
- کے لئے کارکنوں کی تعداد طلب کی۔ کے تحت اعلی درجے کی خصوصیات، بطور ڈیفالٹ چھوڑ دیں۔
- کے لئے ڈیٹا کے معیار کے نتائج کا مقامکی قدر منتخب کریں۔ GlueDataQuality ResultsS3 بالٹی وہ مقام جو AWS CloudFormation اسٹیک کے ذریعے بنایا گیا تھا۔
- میں سے انتخاب کریں اصولوں کا اندازہ کریں۔.
- ایک بار رن شروع ہونے کے بعد، آپ رن کی حالت دیکھ سکتے ہیں۔ ڈیٹا کے معیار کے نتائج ٹیب.
- رن کے کامیاب مرحلے تک پہنچنے کے بعد، مکمل شدہ ڈیٹا کوالٹی ٹاسک رن کو منتخب کریں، اور اس میں دکھائے گئے ڈیٹا کوالٹی کے نتائج دیکھیں نتائج چلائیں۔.
ہماری سفارشی سروس نے تجویز کیا کہ ہم کالم کی قدروں اور ہمارے NYC ٹیکسی ڈیٹاسیٹ کے اندر موجود ڈیٹا کی بنیاد پر 55 قواعد نافذ کریں۔ پھر ہم نے 55 قواعد کے مجموعہ کو رول سیٹ میں تبدیل کیا۔ پھر، ہم نے اپنے ڈیٹا سیٹ کے خلاف اپنے RuleSet کا استعمال کرتے ہوئے ڈیٹا کوالٹی ایویلیوایشن ٹاسک چلایا۔ ہمارے اوپر کے نتائج میں، ہم RuleSet کے اندر ہر ایک کی حیثیت دیکھتے ہیں۔
آپ بھی استعمال کر سکتے ہیں۔ AWS گلو ڈیٹا کوالٹی APIs ان اقدامات کو انجام دینے کے لیے۔
ایمیزون کلاؤڈ واچ کے الارم کے ذریعے میرے ناکام ہونے والے ڈیٹا کوالٹی کے لیے ایمیزون SNS اطلاعات حاصل کریں۔
ڈیٹا کیٹلاگ سے چلنے والی ہر AWS Glue ڈیٹا کوالٹی کی تشخیص، نامی میٹرکس کے ایک جوڑے کو خارج کرتی ہے۔ glue.data.quality.rules.passed (متعدد قواعد کی نشاندہی کرتے ہیں جو گزر چکے ہیں) اور glue.data.quality.rules.failed (ناکام قواعد کی تعداد کی نشاندہی کرتا ہے) فی ڈیٹا کوالٹی رن۔ اس خارج شدہ میٹرک کو صارفین کو الرٹ کرنے کے لیے الارم بنانے کے لیے استعمال کیا جا سکتا ہے اگر ڈیٹا کوالٹی کا ایک مقررہ حد سے نیچے گرتا ہے۔
ایک الارم ترتیب دینے کے ساتھ شروع کرنے کے لیے جو ایمیزون ایس این ایس نوٹیفکیشن کے ذریعے ای میل بھیجے گا، ذیل کے مراحل پر عمل کریں:
- Amazon CloudWatch کنسول کھولیں۔
- میں سے انتخاب کریں تمام میٹرکس کے تحت پیمائش کا معیار. آپ کو نیچے ایک اضافی نام کی جگہ نظر آئے گی۔ حسب ضرورت نام کی جگہیں۔ عنوان گلو ڈیٹا کوالٹی.
نوٹ: AWS گلو ڈیٹا کوالٹی رن شروع کرتے وقت، یقینی بنائیں Amazon CloudWatch پر میٹرکس شائع کریں۔ چیک باکس فعال ہے، جیسا کہ ذیل میں دکھایا گیا ہے۔ بصورت دیگر، اس مخصوص رن کے میٹرکس Amazon CloudWatch پر شائع نہیں کیے جائیں گے۔
- کے نیچے گلو ڈیٹا کوالٹی نام کی جگہ، آپ کو فی ٹیبل، فی اصول سیٹ میٹرکس کو خارج ہوتے دیکھنے کے قابل ہونا چاہیے۔ اپنے بلاگ کے مقصد کے لیے، ہم استعمال کریں گے۔ glue.data.quality.rules.failed اصول اور خطرے کی گھنٹی، اگر یہ قدر 1 سے زیادہ ہو جاتی ہے (اس بات کی نشاندہی کرتا ہے کہ، اگر ہم 1 سے زیادہ ناکام اصول کی تشخیص دیکھتے ہیں، تو ہم مطلع کرنا چاہیں گے)۔
- الارم بنانے کے لیے، منتخب کریں۔ تمام الارم الارم کے تحت.
- میں سے انتخاب کریں الارم بنائیں.
- میں سے انتخاب کریں میٹرک منتخب کریں۔.
- منتخب کریں glue.data.quality.rules.failed آپ نے جو ٹیبل بنایا ہے اس کے مطابق میٹرک، پھر منتخب کریں۔ میٹرک منتخب کریں۔.
- کے نیچے میٹرک اور شرائط کی وضاحت کریں۔ ٹیب، کے نیچے پیمائش کا معیار سیکشن:
- کے لئے اعدادوشمارمنتخب رقم.
- کے لئے دورانئےمنتخب 1 منٹ.
- کے نیچے شرائط سیکشن:
- کے لئے حد کی قسممنتخب کریں جامد.
- کے لئے جب بھی glue.data.quality.rules.failed ہوتا ہے…منتخب بڑا/برابر.
- کے لئے مقابلے…، حد کی قدر کے طور پر 1 درج کریں۔
- پھیلائیں اضافی کنفیگریشنز ڈراپ ڈاؤن اور منتخب کریں۔ گمشدہ ڈیٹا کو اچھا سمجھیں۔
ان انتخابوں کا مطلب ہے کہ اگر glue.data.quality.rules.failed میٹرک اس سے زیادہ یا اس کے برابر قدر خارج کرتا ہے۔ 1، ہم ایک الارم کو متحرک کریں گے۔ تاہم، اگر کوئی ڈیٹا نہیں ہے، تو ہم اسے قابل قبول سمجھیں گے۔
- میں سے انتخاب کریں اگلے.
- On اعمال کو ترتیب دیں:
- کے لئے الارم سٹیٹ ٹرگر سیکشن، منتخب کریں الارم میں .
- کے لئے درج ذیل SNS موضوع پر ایک اطلاع بھیجیں۔منتخب کریں ایک نیا موضوع بنائیں ایک نئے SNS موضوع کے ذریعے اطلاع بھیجنے کے لیے۔
- کے لئے ای میل اختتامی پوائنٹس جو اطلاع موصول کریں گے…، اپنا ای میل کا پتا لکھو. منتخب کریں۔ اگلے.
- کے لئے الارم کا نام، myFirstDQAlarm درج کریں، پھر منتخب کریں۔ اگلے.
- آخر میں، آپ کو پر تمام انتخابوں کا خلاصہ دیکھنا چاہئے۔ پیش نظارہ کریں اور تخلیق کریں۔ سکرین منتخب کریں۔ الارم بنائیں کے نیچے دیے گئے.
- اب آپ کو Amazon CloudWatch کے الارم ڈیش بورڈ سے بننے والے الارم کو دیکھنے کے قابل ہونا چاہیے۔
AWS Glue ڈیٹا کوالٹی کے الارم کو ظاہر کرنے کے لیے، ہم ایک حقیقی دنیا کے منظر نامے پر جانے جا رہے ہیں جہاں ہمارے پاس ڈیٹا کو خراب کیا جا رہا ہے، اور ہم اس کی اطلاع حاصل کرنے کے لیے AWS Glue ڈیٹا کوالٹی سروس کا استعمال کیسے کر سکتے ہیں، الارم کا استعمال کرتے ہوئے ہم پچھلے مراحل میں بنایا گیا ہے۔ اس مقصد کے لیے، ہم فراہم کردہ فائل کا استعمال کریں گے۔ malformed_yellow_taxi.parquet جس میں وہ ڈیٹا ہوتا ہے جسے جان بوجھ کر تبدیل کیا گیا ہے۔
- S3 مقام پر جائیں۔ DataQualityS3BucketName بلاگ پوسٹ کے آغاز میں فراہم کردہ CloudFormation ٹیمپلیٹ میں ذکر کیا گیا ہے۔
- اپ لوڈ کریں malformed_yellow_tripdata.parquet اس مقام پر فائل کریں۔ اس سے ہمیں اس بہاؤ کی تقلید کرنے میں مدد ملے گی جہاں ہمارے پاس ڈیٹا کی خراب کوالٹی والی فائل ہمارے ETL پروسیس کے ذریعے ہماری ڈیٹا لیکس میں آتی ہے۔
- AWS Glue Data Catalog کنسول پر جائیں، demo_nyc_taxi_data_input کو منتخب کریں جو فراہم کردہ AWS CloudFormation ٹیمپلیٹ کے ذریعے تخلیق کیا گیا تھا اور پھر نیویگیٹ کریں ڈیٹا کا معیار ٹیب.
- رول سیٹ کو منتخب کریں جو ہم نے پہلے سیکشن میں بنایا تھا۔ پھر منتخب کریں۔ اصولوں کا اندازہ کریں۔.
- سے ڈیٹا کوالٹی اسکرین کا اندازہ کریں۔:
- باکس کو چیک کریں Amazon CloudWatch پر میٹرکس شائع کریں۔ اس چیک باکس کی ضرورت ہے اس بات کو یقینی بنانے کے لیے کہ ناکامی کے میٹرکس Amazon CloudWatch میں خارج کیے گئے ہیں۔
- AWS CloudFormation ٹیمپلیٹ کے ذریعے تخلیق کردہ IAM کردار کو منتخب کریں۔
- اختیاری طور پر، اپنے AWS گلو ڈیٹا کوالٹی کے نتائج شائع کرنے کے لیے ایک S3 مقام منتخب کریں۔
- منتخب کریں اصولوں کا اندازہ کریں۔
- پر تشریف لے جائیں ڈیٹا کوالٹی کے نتائج ٹیب اب آپ کو دو رنز نظر آنے چاہئیں، ایک اس بلاگ کے پچھلے مراحل سے اور ایک جو ہم نے فی الحال شروع کیا ہے۔ موجودہ رن مکمل ہونے کا انتظار کریں۔
- جیسا کہ آپ دیکھ رہے ہیں، ہمارے پاس AWS گلو ڈیٹا کوالٹی رن کا ایک ناکام نتیجہ ہے، ہمارے اصل 52 قوانین میں سے صرف 55 گزرے ہیں۔ یہ ناکامیاں اس نئی فائل سے منسوب ہیں جو ہم نے S3 پر اپ لوڈ کی ہے۔
- Amazon CloudWatch کنسول پر جائیں اور اس سیکشن کے آغاز میں ہم نے جو الارم بنایا تھا اسے منتخب کریں۔
- جیسا کہ آپ دیکھ سکتے ہیں، ہم نے الارم کو ہر بار فائر کرنے کے لیے ترتیب دیا ہے۔ glue.data.quality.rules.failed میٹرک 1 کی حد کو عبور کرتا ہے۔ مندرجہ بالا AWS Glue Data Quality کے چلنے کے بعد، ہم دیکھتے ہیں کہ 3 قواعد ناکام ہوتے ہیں، جس نے الارم کو متحرک کیا۔ اس کے علاوہ، آپ کو الارم کی فائرنگ کی تفصیل کے ساتھ ایک ای میل بھی ملنی چاہیے تھی۔
اس طرح ہم نے ایک مثال کا مظاہرہ کیا ہے جہاں آنے والے خراب اعداد و شمار، ہمارے ڈیٹا لیکس میں آنے کی شناخت AWS Glue Data Quality کے قواعد کے ذریعے کی جا سکتی ہے، اور مناسب افراد کو مطلع کرنے کے لیے بعد میں الرٹ کرنے کا طریقہ کار بنایا جا سکتا ہے۔
Amazon Athena کے ذریعے اپنے AWS گلو ڈیٹا کوالٹی کے نتائج کا تجزیہ کریں۔
ایسے منظرناموں میں جہاں آپ کے پاس ڈیٹاسیٹ کے خلاف متعدد AWS Glue Data Quality کے نتائج ہوتے ہیں، ایک وقفہ کے ساتھ، آپ ایک مدت کے دوران ڈیٹاسیٹ کے معیار کے رجحانات کو ٹریک کرنا چاہیں گے۔ اس کو حاصل کرنے کے لیے، ہم اپنے AWS Glue Data Quality run کے نتائج کو S3 میں ایکسپورٹ کر سکتے ہیں، اور Amazon Athena کو ایکسپورٹ شدہ رن کے خلاف تجزیاتی سوالات چلانے کے لیے استعمال کر سکتے ہیں۔ اس کے بعد نتائج کو مزید Amazon QuickSight میں ڈیش بورڈ بنانے کے لیے استعمال کیا جا سکتا ہے تاکہ آپ کے ڈیٹا کے معیار کے رجحانات کی گرافیکل نمائندگی ہو سکے۔
اس پوسٹ کے تیسرے حصے میں، ہم آپ کے ڈیٹاسیٹ کے معیار پر ڈیٹا کو ٹریک کرنا شروع کرنے کے لیے درکار اقدامات دیکھیں گے:
- ہمارے ڈیٹا کے معیار کے لیے جو ہم نے پچھلے حصوں میں ترتیب دیا ہے، ہم سیٹ کرتے ہیں۔ ڈیٹا کے معیار کے نتائج کا مقام AWS CloudFormation اسٹیک کے ذریعہ مخصوص کردہ بالٹی کے مقام کا پیرامیٹر۔
- ہر کامیاب رن کے بعد، آپ کو اس مخصوص رن کے مطابق، آپ کے منتخب کردہ S3 مقام پر ایک JSONL فائل برآمد ہوتی نظر آنی چاہیے۔
- ایمیزون ایتھینا کنسول کھولیں۔
- استفسار ایڈیٹر میں، مندرجہ ذیل CREATE TABLE بیان کو چلائیں (کی جگہ لے لیں۔ ایک متعلقہ قدر کے ساتھ، اور کے ساتھ سیکشن
GlueDataQualityResultsS3Bucket
فراہم کردہ AWS CloudFormation ٹیمپلیٹ سے قدر: - مندرجہ بالا جدول بننے کے بعد، آپ کو اپنے ڈیٹا کے معیار کے نتائج کا تجزیہ کرنے کے لیے سوالات چلانے کے قابل ہونا چاہیے۔
مثال کے طور پر، مندرجہ ذیل استفسار پر غور کریں جو مجھے دکھاتا ہے کہ ناکام AWS Glue Data Quality میرے ٹیبل کے خلاف چلتا ہے demo_nyc_taxi_data_input
ٹائم ونڈو کے اندر:
مندرجہ بالا استفسار کا آؤٹ پٹ مجھے "نتیجہ" = 'ناکام' کے ساتھ ان تمام رنز کے بارے میں تفصیلات دکھاتا ہے جو میرے NYC ٹیکسی ڈیٹاسیٹ ٹیبل ( "tablename" = 'demo_nyc_taxi_data_input' ) کے خلاف چلتے ہیں۔ آؤٹ پٹ مجھے ناکامی کی وجہ کے بارے میں بھی معلومات فراہم کرتا ہے ( failurereason
) اور جن اقدار کے خلاف اس کا جائزہ لیا گیا تھا ( evaluatedmetrics
).
جیسا کہ آپ دیکھ سکتے ہیں، ہم S3 پر اپ لوڈ کردہ رن کے نتائج کے ذریعے، اپنے AWS Glue Data Quality run کے بارے میں تفصیلی معلومات حاصل کرنے، مزید تفصیلی تجزیہ کرنے اور ڈیٹا کے اوپر ڈیش بورڈ بنانے کے قابل ہیں۔
صاف کرو
- ایمیزون ایتھینا کنسول پر جائیں اور ڈیٹا کے معیار کے تجزیہ کے لیے بنائے گئے ٹیبل کو حذف کریں۔
- Amazon CloudWatch کنسول پر جائیں اور بنائے گئے الارم کو حذف کریں۔
- اگر آپ نے نمونہ CloudFormation اسٹیک کو تعینات کیا ہے، تو CloudFormation اسٹیک کو AWS CloudFormation کنسول کے ذریعے حذف کریں۔ آپ کو ضرورت ہو گی S3 بالٹی کو خالی کریں۔ اس سے پہلے کہ آپ بالٹی کو حذف کریں۔
- اگر آپ نے اپنے AWS Glue Data Quality کو S3 پر آؤٹ پٹ کرنے کے لیے رن کو فعال کر دیا ہے، تو وہ بالٹیاں بھی خالی کریں۔
نتیجہ
اس پوسٹ میں، ہم نے AWS Glue ڈیٹا کوالٹی فیچر کا استعمال کرتے ہوئے آپ کے AWS Glue Data Catalog ٹیبلز میں ڈیٹا کوالٹی کے اصولوں کو شامل کرنے کی آسانی اور رفتار کے بارے میں بات کی۔ ہم نے اس بارے میں بھی بات کی کہ سفارشات کیسے چلائیں اور آپ کے ٹیبلز کے مقابلے میں ڈیٹا کے معیار کا اندازہ کیسے لگایا جائے۔ اس کے بعد ہم نے Amazon Athena کے ذریعے ڈیٹا کے معیار کے نتائج کا تجزیہ کرنے، اور Amazon CloudWatch کے ذریعے الارم لگانے کے عمل پر بات کی تاکہ صارفین کو ڈیٹا کے ناکام معیار کے بارے میں مطلع کیا جا سکے۔
AWS Glue Data Quality APIs میں غوطہ لگانے کے لیے، پر ایک نظر ڈالیں۔ AWS گلو ڈیٹا کوالٹی API دستاویزات
AWS گلو ڈیٹا کوالٹی کے بارے میں مزید جاننے کے لیے، چیک کریں۔ AWS گلو ڈیٹا کوالٹی ڈویلپر گائیڈ
مصنفین کے بارے میں
انیکیت جدی گودر AWS Glue ٹیم میں ایک بڑا ڈیٹا آرکیٹیکٹ ہے۔
جوزف بارلان AWS Glue میں فرنٹ اینڈ انجینئر ہے۔ اس کے پاس 5 سال سے زیادہ کا تجربہ ہے جو ٹیموں کو دوبارہ قابل استعمال UI اجزاء بنانے میں مدد کرتا ہے اور وہ فرنٹ اینڈ ڈیزائن سسٹمز کے بارے میں پرجوش ہے۔ اپنے فارغ وقت میں، وہ پینسل ڈرائنگ اور ٹی وی شوز دیکھنے سے لطف اندوز ہوتا ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو بلاک چین۔ Web3 Metaverse Intelligence. علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-from-the-aws-glue-data-catalog/
- 000
- 1
- 10
- 100
- 11
- 420
- a
- قابلیت
- ہمارے بارے میں
- اوپر
- قابل قبول
- تک رسائی حاصل
- اکاؤنٹ
- درستگی
- درست
- حاصل
- تسلیم کرتے ہیں
- کے پار
- اعمال
- ایڈیشنل
- پتہ
- اعلی درجے کی
- کے بعد
- کے خلاف
- الارم
- انتباہ
- تمام
- ایمیزون
- ایمیزون ایتینا
- ایمیزون کوئیک سائٹ
- تجزیہ
- تجزیاتی
- تجزیاتی
- تجزیے
- تجزیہ
- اور
- اعلان کریں
- اپاچی
- اے پی آئی
- APIs
- درخواست
- درخواست کی ترقی
- مناسب
- پہلوؤں
- اثاثے
- خود کار طریقے سے
- دستیاب
- AWS
- AWS کلاؤڈ فارمیشن
- AWS گلو
- واپس
- کی بنیاد پر
- اس سے پہلے
- شروع
- کیا جا رہا ہے
- نیچے
- کے درمیان
- بگ
- بگ ڈیٹا
- بلاگ
- پایان
- باکس
- تعمیر
- کاروبار
- لے جانے کے
- کیٹلوگ
- کچھ
- چیک کریں
- میں سے انتخاب کریں
- درجہ بندی
- کوڈنگ
- مجموعہ
- کالم
- کالم
- جمع
- آنے والے
- کامن
- مکمل
- مکمل
- اجزاء
- حالات
- غور کریں
- غور
- کنسول
- صارفین
- پر مشتمل ہے
- تبدیل
- اسی کے مطابق
- خراب
- سکتا ہے
- تخلیق
- بنائی
- پیدا
- موجودہ
- اس وقت
- گاہکوں
- ڈیش بورڈ
- اعداد و شمار
- اعداد و شمار پر مبنی ہے
- ڈیٹا بیس
- فیصلے
- پہلے سے طے شدہ
- مظاہرہ
- demonstrated,en
- تعینات
- ڈیزائن
- ڈیزائن کے نظام
- تفصیلی
- تفصیلات
- ڈیولپر
- ترقی
- انحراف
- دریافت
- دریافت
- بات چیت
- ڈرائنگ
- ہر ایک
- ایڈیٹر
- ای میل
- انجینئر
- انجنیئرنگ
- انجینئرز
- کو یقینی بنانے کے
- درج
- ضروری
- وغیرہ
- Ether (ETH)
- اندازہ
- اندازہ
- تشخیص
- اندازہ
- مثال کے طور پر
- توقع ہے
- تجربہ
- مہارت
- وضاحت
- برآمد
- بیرونی
- نکالنے
- ناکام
- ناکامی
- آبشار
- نمایاں کریں
- فائل
- فائنل
- آگ
- فائرنگ
- پہلا
- بہاؤ
- پر عمل کریں
- کے بعد
- فارمیٹ
- سے
- فرنٹ اینڈ
- مزید
- پیدا
- پیدا
- حاصل
- حاصل کرنے
- دی
- فراہم کرتا ہے
- Go
- جاتا ہے
- جا
- زیادہ سے زیادہ
- مدد
- مدد
- یہاں
- چھتہ
- کس طرح
- کیسے
- تاہم
- HTML
- HTTPS
- کی نشاندہی
- in
- موصولہ
- شامل کرنا
- معلومات
- انضمام
- IT
- نوکریاں
- JSON
- شروع
- جانیں
- سیکھنے
- چھوڑ دو
- لوڈ
- محل وقوع
- دیکھو
- کھو
- مشین
- مشین لرننگ
- بنا
- بناتا ہے
- بنانا
- دستی
- اقدامات
- میٹرک۔
- پیمائش کا معیار
- شاید
- لاپتہ
- ML
- کی نگرانی
- نگرانی
- نظر رکھتا ہے
- زیادہ
- ایک سے زیادہ
- نام
- تشریف لے جائیں
- ضرورت ہے
- نئی
- اگلے
- نوٹیفیکیشن
- اطلاعات
- تعداد
- NYC
- ایک
- زیادہ سے زیادہ
- حکم
- اصل
- دوسری صورت میں
- پیرامیٹر
- حصہ
- خاص طور پر
- منظور
- پاسنگ
- جذباتی
- انجام دینے کے
- مدت
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- خوش ہوں
- پوائنٹ
- غریب
- پوسٹ
- مراسلات
- تیار
- پیش نظارہ
- پچھلا
- عمل
- عمل
- فراہم
- فراہم
- عوامی
- شائع
- شائع
- مقصد
- معیار
- پہنچتا ہے
- حقیقی دنیا
- وجہ
- وصول
- حال ہی میں
- سفارش
- سفارشات
- سفارش کی
- تجویز ہے
- متعلقہ
- مرمت
- کی جگہ
- نمائندگی
- کی ضرورت
- ضرورت
- وسائل
- نتیجہ
- نتائج کی نمائش
- قابل اعتماد
- کردار
- ROW
- حکمرانی
- قوانین
- رن
- محفوظ کریں
- منظرنامے
- سکرین
- سیکشن
- سیکشنز
- منتخب
- سیریز
- بے سرور
- سروس
- مقرر
- قائم کرنے
- شکل
- ہونا چاہئے
- دکھایا گیا
- شوز
- سادہ
- سادگی
- ایک
- مخصوص
- مخصوص
- تیزی
- ڈھیر لگانا
- اسٹیج
- معیار
- شروع کریں
- شروع
- شروع
- حالت
- بیان
- درجہ
- مراحل
- ابھی تک
- ذخیرہ
- ذخیرہ
- ذخیرہ
- پردہ
- بعد میں
- کامیاب
- کامیابی کے ساتھ
- خلاصہ
- فراہم کی
- سسٹمز
- ٹیبل
- لے لو
- ٹاسک
- ٹیم
- ٹیموں
- سانچے
- ۔
- تھرڈ
- ہزاروں
- حد
- کے ذریعے
- وقت
- ٹائمسٹیمپ
- کرنے کے لئے
- آج
- اوزار
- سب سے اوپر
- موضوع
- کل
- ٹریک
- ٹریکنگ
- تبدیل
- علاج
- رجحانات
- ٹرگر
- متحرک
- بھروسہ رکھو
- tv
- ui
- کے تحت
- اپ لوڈ کردہ
- us
- استعمال کی شرائط
- صارفین
- استعمال
- قیمت
- اقدار
- مختلف
- کی طرف سے
- لنک
- انتظار
- دیکھ
- جس
- گے
- کے اندر
- بغیر
- کارکنوں
- کام کرتا ہے
- گا
- سال
- اور
- زیفیرنیٹ