خود شفا یابی کے نظام کے بارے میں فن تعمیر ہمیں کیا سکھا سکتا ہے۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

DevOps ٹیمیں اور سائٹ ریلائیبلٹی انجینئرز (SREs) روزانہ کوڈ سے نمٹتے ہیں۔ ایسا کرنے سے وہ اپنی دنیا کی جانچ پڑتال، ہوشیار مشاہدہ کرنے اور غیر متوقع روابط قائم کرنا سکھاتا ہے۔ سب کے بعد، اگرچہ فطرت میں انتہائی منطقی اور ریاضیاتی ہے، سافٹ ویئر کی ترقی، کم از کم جزوی طور پر، آرٹ کی شکل ہے.

اس بیان سے غیر مطمئن؟ تاریخ کے سب سے نمایاں فن تعمیراتی کارناموں اور جدید سافٹ ویئر انجینئرنگ کے درمیان مماثلتوں پر غور کریں۔ یہ ایک مناسب موازنہ ہے: بالکل سوفٹ ویئر انجینئرنگ کی طرح، فن تعمیر کچھ خوبصورت بنانے کے لیے پیچیدہ ریاضیاتی حسابات کو ملازمت دیتا ہے۔ اور دونوں شعبوں میں، تھوڑی سی غلط فہمی اہم نتائج کا باعث بن سکتی ہے۔ دلچسپ بات یہ ہے کہ بہت سی مشہور آرکیٹیکچرل غلطیاں ان مسائل سے ملتی جلتی ہیں جو ہمیں کوڈ میں ملتی ہیں۔

یاد رکھیں، الہام ہر جگہ ہے – جب تک کہ آپ جانتے ہوں کہ کہاں دیکھنا ہے۔ یہاں چند اسباق ہیں جو سافٹ ویئر انجینئرز صدیوں کے دوران آرکیٹیکچرل ایپی فینی سے سیکھ سکتے ہیں، خاص طور پر خود کو شفا دینے والے نظام کے مستقبل کے بارے میں۔

سبق 1: ایج کیسز ہمیشہ سسٹم کی کمزوریوں سے فائدہ اٹھائیں گے۔

Citicorp ٹاور - جسے اب 601 Lexington کہا جاتا ہے - 1977 میں نیویارک شہر میں تعمیر مکمل ہوا، اس وقت یہ دنیا کی ساتویں بلند ترین عمارت تھی۔ فلک بوس عمارت کے جدید ترین ڈیزائن میں 100 سے زیادہ فٹ کے تین اسٹیلٹس شامل تھے۔ یہ مکمل ہونے پر ایک عجوبہ تھا۔ تاہم، ایک انڈر گریجویٹ طالب علم نے جلد ہی کچھ پریشان کن دریافت کیا: تیز ہوائیں عمارت کی سالمیت کو خطرے میں ڈال سکتا ہے۔. خاص طور پر، اگر طاقتور چوتھائی ہوائیں Citicorp ٹاور کے کونے کونے سے ٹکراتی ہیں، تو ڈھانچہ منہدم ہو سکتا تھا - ایک لفظی ایج کیس.

ٹاور کے ہر سال گرنے کا 16 میں سے ایک موقع تھا۔ یہ مشکلات جوئے کی میز پر بیٹھے ہوئے کسی کو آمادہ کر سکتی ہیں، لیکن سٹی کارپ ٹاور کے پیچھے آرکیٹیکٹس اور ساختی انجینئرز کے لیے یہ منظر سنگین تھا۔ شکر ہے، تکنیکی ماہرین عمارت کے بولڈ جوڑوں کو مضبوط کرنے کے قابل تھے۔ تباہی سے بچا گیا۔

ساختی انجینئرز جانتے تھے کہ Citicorp ٹاور کو آخر کار اتنی تیز ہوا کا سامنا کرنا پڑے گا کہ وہ اپنے بیرنگ سے سمجھوتہ کر لے۔ اسی طرح، تجربہ کار سافٹ ویئر انجینئر جانتے ہیں کہ مضبوط ایپلیکیشن پرفارمنس مانیٹرنگ (APM) اور ایونٹ مینجمنٹ سسٹم کو ناگزیر ایج کیسز سے بچانے کے لیے کافی نہیں ہیں۔ اس کی وجہ یہ ہے کہ بغیر جامد نظام مشین لرننگ (ایم ایل) صلاحیتیں غیر متوقع اور غیر منصوبہ بند نئی صورت حال کو سنبھال نہیں سکتیں، جیسے سہ ماہی ہواؤں کو۔ مکمل طور پر مانیٹرنگ ٹولز پر انحصار کرتے وقت، ایک انسانی منتظم کو غلطیوں کو سمجھنا چاہیے اور واقعے کے انتظام کے عمل کو بڑھانا چاہیے۔

بازیافت کرنے کے درمیانی وقت کو کم کرنے کے لیے (MTTR)/معیٰن وقت کا پتہ لگانے کے لیے (MTTD)، DevOps ٹیموں کو ایج کیسز کے زیادہ امکانات کو قبول کرنا چاہیے اور خود سیکھنے کے حل کو پہلے سے طے کرنے کے لیے کام کرنا چاہیے۔ یہ سبق بہت طویل ہے، کیوں کہ انجینئرنگ میں دور اندیشی اہم ہے۔

سبق 2: "ہوائی جہاز کو اڑتے ہی بنانا" کبھی نہ ختم ہونے والا سائیکل بناتا ہے۔

المناک واقعات نے کئی کو پہنچایا ہے۔ ہوا بازی کی تاریخ کا سب سے اہم سبق. جب 1954 میں ایک ہوائی جہاز کو دورانِ پرواز بہت زیادہ ڈیکمپریشن کا سامنا کرنا پڑا اور وہ گر کر تباہ ہو گیا تو انجینئرز نے اس بات کی تصدیق کی کہ مربع مسافر کی کھڑکیاں ایک غیر ضروری تناؤ کا مقام تھا۔ اب سے، ہوائی جہاز گول کھڑکیوں سے لیس تھے۔. جہاز میں آگ لگنے کی وجہ سے انخلاء میں آسانی کو ترجیح دیتے ہوئے بیٹھنے کے نئے انتظامات ہوئے۔ ان تبدیلیوں نے بے شمار جانیں بچائی ہیں۔

بہت سی صنعتوں میں – ہوا بازی بھی شامل ہے – کسی پروڈکٹ کو مکمل طور پر تناؤ کی جانچ کرنے کا کوئی طریقہ نہیں ہے۔ جیسا کہ پہلے ذکر کیا گیا ہے، کنارے کے معاملات ناگزیر ہیں۔ یہاں سب سے بڑا فائدہ یہ ہے کہ سافٹ ویئر انجینئرز کو اپنے نظام کی کمزوریوں پر دھیان دینا چاہیے جب وہ خود کو پیش کرتے ہیں۔ وہاں سے، انہیں فوری طور پر ان سے خطاب کرنا ہوگا. ایسا کرنے کے لیے دو چیزوں کی ضرورت ہے: (1) درست کلیدی کارکردگی کے اشارے (KPIs) کی شناخت اور ان کا سراغ لگانا اور (2) متعلقہ میٹرکس کی بنیاد پر نظام کو بہتر بنانے میں وقت اور وسائل کی سرمایہ کاری۔

اوسط انجینئرنگ ٹیم 16 سے 40 مانیٹرنگ ٹولز میں سرمایہ کاری کرتی ہے، پھر بھی وہ اکثر اس نشان سے محروم رہتے ہیں جس پر میٹرکس کامیابی کا مظاہرہ کرتے ہیں۔ 15% سے بھی کم ٹیمیں MTTD کو ٹریک کرتی ہیں، اس لیے وہ 66% واقعاتی لائف سائیکل سے محروم رہتی ہیں۔ اور ایک چوتھائی ٹیمیں رپورٹ کرتی ہیں۔ ان کے سروس لیول کے معاہدوں (SLAs) سے محروم دستیابی سے باخبر رہنے میں اہم سرمایہ کاری کے باوجود۔ یہ ہمیں بتاتا ہے کہ ڈیٹا اکٹھا کرنے کے لیے اسے کم کرنے کے لیے مکمل، منظم تجزیہ کی ضرورت ہے- نکاتی حل اب کافی نہیں ہیں۔

سافٹ ویئر انجینئرز، DevOps ٹیموں، اور SREs کو ایسے عمل اور ٹولز کو ترجیح دینی چاہیے جو دستیابی کے بارے میں معلومات کی بہت زیادہ مقدار سے قیمت نکالیں۔ محض ایک اہم غلطی کا مشاہدہ کرنے کے بجائے، انہیں ایوی ایشن انجینئر کی کتاب سے ایک صفحہ لینا چاہیے اور تیزی سے اہم فیصلے کرنے چاہئیں۔ ایسا کرنے کا راز AI میں مضمر ہے۔

سبق 3: AI خود شفا یابی کے نظام کے لیے ایک بنیادی تعمیراتی بلاک ہے۔

ایک مکمل خود مختار، مکمل طور پر کام کرنے والا، خود کو شفا دینے والا نظام کسی بھی سافٹ ویئر انجینئر کے لیے مثالی ہے۔ وہ سسٹم جو خود کو پیوند کرتے ہیں وہ گاہک کی اطمینان کے لیے اچھے ہوتے ہیں، کیونکہ وہ مہنگے صارفین کو درپیش ڈاؤن ٹائم کو ختم کرتے ہیں۔ مزید برآں، وہ IT سروس مینجمنٹ (ITSM) فنکشنز کے لیے ناقابل یقین حد تک فائدہ مند ہیں، کیونکہ وہ ٹکٹوں کے مشکل انتظام کی ضرورت کو نمایاں طور پر کم کرتے ہیں۔ اس طرح کے نظام کو بنانے کے لیے کئی اجزاء کی ضرورت ہوتی ہے، جن میں سے بہت سے فی الحال پہنچ سے باہر ہیں۔ لیکن ہم خود کو ٹھیک کرنے والی حقیقت کے اس سے زیادہ قریب ہیں جتنا کہ کچھ لوگ محسوس کر سکتے ہیں۔

بڑے پیمانے پر AI کو اپنانے کی کمی سب سے بڑی رکاوٹ بنی ہوئی ہے جس کا آج خود علاج کرنے والے نظاموں کو سامنا ہے۔ اگرچہ بہت سے کاروباروں نے ابتدائی AI یا ML پر مبنی ٹولز کو اپنایا ہے، لیکن ان ٹولز کی سالمیت پر سوالیہ نشان ہے۔ کہنے کا مطلب یہ ہے کہ بہت سے انجینئرز ڈیل کرتے ہیں۔ آئی ٹی آپریشنز کے لیے مصنوعی ذہانت (AIOps) ٹیکنالوجیز جو خود مختار AI الگورتھم کے بجائے قواعد پر مبنی آٹومیشن منطق کی پیروی کرتی ہیں۔ یہ فرق معمولی لگ سکتا ہے، لیکن عملی طور پر، یہ ضائع ہونے والی پیداواری صلاحیت کے گھنٹوں اور ممکنہ نقصانات میں لاکھوں کے درمیان فرق ہے۔

بات یہ ہے کہ قواعد پر مبنی AIOps ٹولز مختلف نکات کے حل کے درمیان تعامل کا تجزیہ کرتے ہیں اور ممکنہ طور پر عام ڈیٹا کی غلطیوں کی نشاندہی کر سکتے ہیں۔ لیکن آٹومیشن پر مبنی نظام وقت کے ساتھ مکمل طور پر نئی غلطیوں کے ارتقاء پر کارروائی نہیں کر سکتے اور نہ ہی وہ ڈیٹا میں نئی خرابیوں کی پیش گوئی کر سکتے ہیں۔ اس کی وجہ یہ ہے کہ ان افعال کو کوڈ کرنے والے انسانی منتظمین سسٹم سے کہتے ہیں کہ وہ ایک کی پیروی کرے۔ اگر یہ، تو وہ منطق پیٹرن. حقیقی طور پر موثر AIOps ٹولز ان غلطیوں کو کم کرتے ہیں جو چاروں کلاسک ٹیلی میٹری پوائنٹس پر پیدا ہوتی ہیں - پتہ لگانے سے لے کر ریزولوشن تک - نئے اور مشکل نمونوں کی درجہ بندی کرکے اس سے پہلے کہ انسانی تکنیکی ماہرین ان کے وجود سے واقف ہوں۔

جب کہ ہم انتظار کر رہے ہیں۔ AI کی آسنن تیسری لہر, AIOps کا یہ ورژن ہمارے پاس خود شفا یابی کے نظام کے قریب ترین ہے۔ یہ جاننا دلچسپ ہوگا کہ موجودہ AIOps ایپلی کیشنز AI کے مستقبل میں کس طرح خون بہاتی ہیں، جس میں مکمل طور پر محسوس شدہ آٹومیشن اور آزادانہ سوچ کے امکانات شامل ہوں گے۔ ہو سکتا ہے کہ پھر ساختی انجینئرز بھی، AI پر مبنی، خود شفا یابی کے نظام کے انعامات حاصل کریں۔