نئی جاب آبزرویبلٹی میٹرکس کا استعمال کرتے ہوئے AWS Glue جابز کے لیے نگرانی اور ڈیبگنگ کو بہتر بنائیں۔ ایمیزون ویب سروسز

نئی جاب آبزرویبلٹی میٹرکس کا استعمال کرتے ہوئے AWS Glue جابز کے لیے نگرانی اور ڈیبگنگ کو بہتر بنائیں۔ ایمیزون ویب سروسز

ماخذ نوڈ: 2391543

کسی بھی جدید ڈیٹا سے چلنے والی کمپنی کے لیے، ہموار ڈیٹا انٹیگریشن پائپ لائنز کا ہونا بہت ضروری ہے۔ یہ پائپ لائنیں مختلف ذرائع سے ڈیٹا کھینچتی ہیں، اسے تبدیل کرتی ہیں، اور اسے تجزیات اور رپورٹنگ کے لیے منزل کے نظام میں لوڈ کرتی ہیں۔ صحیح طریقے سے چلانے پر، یہ بروقت اور قابل اعتماد معلومات فراہم کرتا ہے۔ تاہم، چوکسی کے بغیر، ڈیٹا کی مختلف مقدار، خصوصیات، اور ایپلیکیشن کا رویہ ڈیٹا پائپ لائنوں کو غیر موثر اور پریشانی کا باعث بن سکتا ہے۔ کارکردگی سست ہو سکتی ہے یا پائپ لائنیں ناقابل اعتبار ہو سکتی ہیں۔ ناقابل شناخت غلطیوں کے نتیجے میں ڈیٹا خراب ہوتا ہے اور بہاو تجزیہ پر اثر پڑتا ہے۔ اسی لیے درج ذیل چار شعبوں میں ڈیٹا پائپ لائنز کے لیے مضبوط نگرانی اور خرابیوں کا ازالہ ضروری ہے۔

  • وشوسنییتا
  • کارکردگی
  • انحصار
  • وسائل استعمال

ایک ساتھ، نگرانی کے یہ چار پہلو ڈیٹا پائپ لائن اور اس کے کاموں پر سرے سے آخر تک مرئیت اور کنٹرول فراہم کرتے ہیں۔

آج ہمیں ایک نئی کلاس کا اعلان کرتے ہوئے خوشی ہو رہی ہے۔ ایمیزون کلاؤڈ واچ کے اوپر بنی ہوئی آپ کی پائپ لائنوں کے ساتھ رپورٹ کردہ میٹرکس AWS گلو اپاچی اسپارک ملازمتوں کے لیے۔ نئے میٹرکس آپ کے کام کے چلنے اور ڈیٹا پر کارروائی کرنے کی صحت اور آپریشنز کے بارے میں مجموعی اور عمدہ بصیرت فراہم کرتے ہیں۔ بصیرت سے بھرپور ڈیش بورڈ فراہم کرنے کے علاوہ، میٹرکس غلطیوں کی درجہ بندی فراہم کرتے ہیں، جو کارکردگی کی رکاوٹوں اور غلطی کی تشخیص کے بنیادی سبب کے تجزیہ میں مدد کرتی ہے۔ اس تجزیہ کے ساتھ، آپ اپنی ملازمتوں اور پائپ لائنوں کی تعمیر کے لیے تجویز کردہ اصلاحات اور بہترین طریقوں کا جائزہ لے سکتے ہیں اور ان کا اطلاق کر سکتے ہیں۔ نتیجے کے طور پر، آپ کو Apache Spark ورک بوجھ کے لیے اپنے AWS Glue کے لیے زیادہ دستیابی، بہتر کارکردگی، اور کم قیمت کا فائدہ حاصل ہوتا ہے۔

یہ پوسٹ ظاہر کرتی ہے کہ کس طرح نئے بہتر میٹرکس آپ کو AWS Glue جابز کی نگرانی اور ڈیبگ کرنے میں مدد کرتے ہیں۔

نئے میٹرکس کو فعال کریں۔

نئے میٹرکس کو جاب پیرامیٹر کے ذریعے ترتیب دیا جا سکتا ہے۔ enable-observability-metrics.

نئے میٹرکس AWS Glue Studio کنسول پر بطور ڈیفالٹ فعال ہوتے ہیں۔ AWS Glue Studio کنسول پر میٹرکس کو ترتیب دینے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. AWS Glue کنسول پر، منتخب کریں۔ ETL نوکریاں نیوی گیشن پین میں.
  2. کے تحت آپ کی نوکریاں، اپنی ملازمت کا انتخاب کریں۔
  3. پر ملازمت کی تفصیلات ٹیب، پھیلائیں۔ اعلی درجے کی خصوصیات.
  4. کے تحت ملازمت کے مشاہدے کے میٹرکسمنتخب جب یہ کام چلتا ہے تو اضافی مشاہداتی CloudWatch میٹرکس کی تخلیق کو فعال کریں۔.

AWS Glue میں نئے میٹرکس کو فعال کرنے کے لیے CreateJob اور StartJobRun APIs، میں درج ذیل پیرامیٹرز سیٹ کریں۔ DefaultArguments جائیداد:

  • کلیدی - --enable-observability-metrics
  • قدر - true

میں نئے میٹرکس کو فعال کرنے کے لیے AWS کمانڈ لائن انٹرفیس (AWS CLI)، اسی کام کے پیرامیٹرز کو میں سیٹ کریں۔ --default-arguments دلیل.

کیس استعمال کریں۔

Apache Spark جابز کے لیے AWS Glue کے لیے ایک عام کام کا بوجھ ایس کیو ایل پر مبنی تبدیلیوں کے ساتھ ایک متعلقہ ڈیٹا بیس سے ڈیٹا لیک پر لوڈ کرنا ہے۔ ذیل میں ایک مثالی ملازمت کی بصری نمائندگی ہے جہاں کارکنوں کی تعداد 10 ہے۔

جب مثال کی نوکری چلی، the workerUtilization میٹرکس نے درج ذیل رجحان کو دکھایا۔

یاد رکھیں کہ workerUtilization پوری مدت کے لیے 0.20 (20%) اور 0.40 (40%) کے درمیان اقدار دکھائیں۔ یہ عام طور پر اس وقت ہوتا ہے جب ملازمت کی گنجائش بہت زیادہ ہو اور بہت سے اسپارک ایگزیکیوٹرز بیکار تھے، جس کے نتیجے میں غیر ضروری لاگت آتی ہے۔ وسائل کے استعمال کی کارکردگی کو بہتر بنانے کے لیے، اسے فعال کرنا اچھا خیال ہے۔ AWS گلو آٹو اسکیلنگ. مندرجہ ذیل اسکرین شاٹ وہی دکھاتا ہے۔ workerUtilization میٹرکس گراف جب AWS Glue Auto Scaling اسی کام کے لیے فعال ہو۔

workerUtilization AWS Glue Auto Scaling کی وجہ سے شروع میں 1.0 ظاہر ہوا اور کام کے بوجھ کی ضروریات کی بنیاد پر 0.75 (75%) اور 1.0 (100%) کے درمیان رجحان رہا۔

CloudWatch میں میٹرکس کا استفسار اور تصور کریں۔

CloudWatch کنسول پر استفسار کرنے اور میٹرکس کو دیکھنے کے لیے درج ذیل مراحل کو مکمل کریں:

  1. CloudWatch کنسول پر، منتخب کریں۔ تمام میٹرکس نیوی گیشن پین میں.
  2. کے تحت حسب ضرورت نام کی جگہیں۔منتخب کریں چپکانا.
  3. میں سے انتخاب کریں مشاہداتی میٹرکس (یا مشاہداتی میٹرکس فی ماخذ، یا مشاہداتی میٹرکس فی سنک).
  4. مخصوص میٹرک نام، جاب کا نام، جاب رن آئی ڈی، اور مشاہداتی گروپ تلاش کریں اور منتخب کریں۔
  5. پر گراف شدہ میٹرکس ٹیب، اپنے پسندیدہ اعدادوشمار، مدت، وغیرہ کو ترتیب دیں۔

AWS CLI کا استعمال کرتے ہوئے میٹرکس سے استفسار کریں۔

AWS CLI کا استعمال کرتے ہوئے استفسار کرنے کے لیے درج ذیل مراحل کو مکمل کریں (اس مثال کے لیے، ہم کارکن کے استعمال کے میٹرک سے استفسار کرتے ہیں):

  1. ایک میٹرک ڈیفینیشن JSON فائل بنائیں (اپنے AWS Glue جاب کا نام اور جاب رن ID فراہم کریں):
    $ cat multiplequeries.json
    [ { "Id": "avgWorkerUtil_0", "MetricStat" : { "Metric" : { "Namespace": "Glue", "MetricName": "glue.driver.workerUtilization", "Dimensions": [ { "Name": "JobName", "Value": "<your-Glue-job-name-A>" }, { "Name": "JobRunId", "Value": "<your-Glue-job-run-id-A>" }, { "Name": "Type", "Value": "gauge" }, { "Name": "ObservabilityGroup", "Value": "resource_utilization" } ] }, "Period": 1800, "Stat": "Minimum", "Unit": "None" } }, { "Id": "avgWorkerUtil_1", "MetricStat" : { "Metric" : { "Namespace": "Glue", "MetricName": "glue.driver.workerUtilization", "Dimensions": [ { "Name": "JobName", "Value": "<your-Glue-job-name-B>" }, { "Name": "JobRunId", "Value": "<your-Glue-job-run-id-B>" }, { "Name": "Type", "Value": "gauge" }, { "Name": "ObservabilityGroup", "Value": "resource_utilization" } ] }, "Period": 1800, "Stat": "Minimum", "Unit": "None" } }
    ]

  2. چلائیں get-metric-data کمانڈ:
    $ aws cloudwatch get-metric-data --metric-data-queries file://multiplequeries.json --start-time '2023-10-28T18:20' --end-time '2023-10-28T19:10' --region us-east-1
    { "MetricDataResults": [ { "Id": "avgWorkerUtil_0", "Label": "<your label A>", "Timestamps": [ "2023-10-28T18:20:00+00:00" ], "Values": [ 0.06718750000000001 ], "StatusCode": "Complete" }, { "Id": "avgWorkerUtil_1", "Label": "<your label B>", "Timestamps": [ "2023-10-28T18:20:00+00:00" ], "Values": [ 0.5959183673469387 ], "StatusCode": "Complete" } ], "Messages": []
    }

CloudWatch الارم بنائیں

آپ مختلف میٹرکس کے لیے جامد حد پر مبنی الارم بنا سکتے ہیں۔ ہدایات کے لیے، رجوع کریں۔ جامد حد کی بنیاد پر CloudWatch الارم بنائیں.

مثال کے طور پر، ترچھی پن کے لیے، آپ اس کے لیے الارم سیٹ کر سکتے ہیں۔ skewness.stage 1.0 کی حد کے ساتھ، اور skewness.job 0.5 کی حد کے ساتھ۔ یہ حد صرف ایک سفارش ہے۔ آپ اپنے مخصوص استعمال کے معاملے کی بنیاد پر حد کو ایڈجسٹ کر سکتے ہیں (مثال کے طور پر، کچھ ملازمتوں کے متزلزل ہونے کی توقع ہے اور اس کے لیے گھبرانے کا کوئی مسئلہ نہیں ہے)۔ ہماری تجویز یہ ہے کہ غیر متضاد اقدار کو کوالیفائی کرنے اور حد کو خطرے کی گھنٹی پر ترتیب دینے سے پہلے کچھ وقت کے لیے اپنی ملازمت کی میٹرک اقدار کا جائزہ لیں۔

دیگر بہتر میٹرکس

AWS Glue جابز کے ساتھ دستیاب دیگر بہتر میٹرکس کی مکمل فہرست کے لیے، رجوع کریں۔ AWS گلو آبزرویبلٹی میٹرکس کے ساتھ مانیٹرنگ. یہ میٹرکس آپ کو اپنی ملازمتوں کی آپریشنل بصیرت کو حاصل کرنے کی اجازت دیتے ہیں، جیسے کہ وسائل کا استعمال (میموری اور ڈسک)، معمول کی خرابی کی کلاسیں جیسے تالیف اور نحو، صارف یا سروس کی خرابیاں، اور ہر سورس یا سنک (ریکارڈز، فائلز، پارٹیشنز) کے لیے تھرو پٹ۔ ، اور بائٹس پڑھے یا لکھے گئے)۔

جاب آبزرویبلٹی ڈیش بورڈز

آپ بصیرت میٹرکس کے لیے ڈیش بورڈز کا استعمال کرتے ہوئے اپنی AWS Glue جابز کے لیے مشاہداتی صلاحیت کو مزید آسان بنا سکتے ہیں ایمیزون کے زیر انتظام گرافانا، اور کے ساتھ رجحانات کے تصور اور تجزیہ کو فعال کریں۔ ایمیزون کوئیک سائٹ.

نتیجہ

اس پوسٹ نے یہ ظاہر کیا کہ کس طرح نئی بہتر کردہ CloudWatch میٹرکس آپ کو AWS Glue جابز کی نگرانی اور ڈیبگ کرنے میں مدد کرتی ہے۔ ان بہتر میٹرکس کے ساتھ، آپ حقیقی وقت میں مسائل کی آسانی سے شناخت اور ان کا ازالہ کر سکتے ہیں۔ اس کے نتیجے میں AWS Glue ملازمتیں ملتی ہیں جو زیادہ اپ ٹائم، تیز پروسیسنگ، اور کم اخراجات کا تجربہ کرتی ہیں۔ آپ کے لیے آخری فائدہ Apache Spark کے کام کے بوجھ کے لیے زیادہ موثر اور بہتر AWS Glue ہے۔ میٹرکس تمام AWS Glue تعاون یافتہ علاقوں میں دستیاب ہیں۔ اس کی جانچ پڑتال کر!


مصنفین کے بارے میں

نوریٹاکا سیکیاما AWS Glue ٹیم میں ایک پرنسپل بگ ڈیٹا آرکیٹیکٹ ہے۔ وہ صارفین کی مدد کے لیے سافٹ ویئر کے نمونے بنانے کا ذمہ دار ہے۔ اپنے فارغ وقت میں، وہ اپنی نئی روڈ بائیک کے ساتھ سائیکل چلانے کا لطف اٹھاتا ہے۔

شینوڈا گورگوئس AWS Glue ٹیم میں ایک سینئر سافٹ ویئر ڈویلپمنٹ انجینئر ہے۔ اس کا جنون توسیع پذیر اور تقسیم شدہ ڈیٹا انفراسٹرکچر/ پروسیسنگ سسٹم بنانے میں ہے۔ جب اسے موقع ملتا ہے، شینوڈا کو پڑھنے اور فٹ بال کھیلنے کا مزہ آتا ہے۔

شان ما AWS Glue ٹیم میں پرنسپل پروڈکٹ مینیجر ہے۔ اس کے پاس انٹرپرائز پروڈکٹس کو اختراع کرنے اور فراہم کرنے کا 18+ سال کا ٹریک ریکارڈ ہے جو صارفین کے لیے ڈیٹا کی طاقت کو غیر مقفل کرتے ہیں۔ کام سے باہر، شان سکوبا ڈائیونگ اور کالج فٹ بال سے لطف اندوز ہوتا ہے۔

موہت سکسینہ AWS Glue ٹیم میں ایک سینئر سافٹ ویئر ڈویلپمنٹ مینیجر ہے۔ ان کی ٹیم تقسیم شدہ نظاموں کی تعمیر پر توجہ مرکوز کرتی ہے تاکہ صارفین کو انٹرایکٹو اور آسان استعمال کرنے والے انٹرفیسز کے ساتھ ایمیزون S3 پر ڈیٹا لیکس، ڈیٹا بیسز اور کلاؤڈ پر ڈیٹا گوداموں میں بغیر کسی رکاوٹ کے ڈیٹا کے پیٹا بائٹس کو مؤثر طریقے سے منظم اور تبدیل کر سکیں۔

ٹائم اسٹیمپ:

سے زیادہ AWS بگ ڈیٹا