جنگلی میں AI کیوں ناکام ہوتا ہے۔

ماخذ نوڈ: 751360

کیا آپ اپنی زندگی کے ساتھ AI پر بھروسہ کریں گے؟

نیورل نیٹ ورک ماڈل کے بارے میں AI تحقیقی حلقوں میں ایک قدرے مشہور کہانی ہے۔ بھیڑیوں اور بھوسیوں میں فرق کرنے کی تربیت دی جاتی ہے۔. ماڈل نے کامیابی کے ساتھ ان کی شناخت کرنا سیکھا، جب ایسی تصاویر دی گئیں جو اس کی تربیت کے لیے استعمال نہیں کی گئی تھیں تو اعلیٰ درستگی حاصل کی۔

تاہم، یہ جلد ہی ظاہر ہو گیا کہ کچھ غلط ہو رہا ہے — کچھ بہت واضح تصاویر کو غلط درجہ بندی کیا جا رہا ہے۔ جب انہوں نے اس بات پر غور کیا کہ نیورل نیٹ ورک اس طرح کی سنگین غلطیاں کیوں کر رہا ہے، تو محققین نے اندازہ لگایا کہ ماڈل نے تصویر کی درجہ بندی کرنا سیکھا ہے اس بنیاد پر کہ آیا اس میں برف ہے - تربیت میں استعمال ہونے والی بھیڑیوں کی تمام تصاویر کے پس منظر میں برف تھی، جبکہ huskies کی نہیں. حیرت کی بات نہیں، ماڈل ناکام ہو رہا تھا۔

اب، تصور کریں کہ ہم مدد کرنے کے قابل ہونا چاہتے ہیں۔ جنگل میں آوارہ بھوسیوں کو پکڑو، لہذا ہم کسی نہ کسی طرح ماڈل کو ٹھیک کرتے ہیں، اور اسے بھیڑیوں اور بھوسیوں کے درمیان صحیح طریقے سے فرق کرنا سکھاتے ہیں، پس منظر کے رنگ سے قطع نظر۔ ہم اسے کیمروں والے آلات میں سرایت کرتے ہیں، جسے ہم رضاکاروں اور دوستوں میں بانٹتے ہیں۔ ہم اپنے ماڈل پر بھروسہ کرتے ہیں کہ یہ نہ کہے کہ یہ ایک بھیڑیا ہے، لیکن ہم کتنے پراعتماد ہیں کہ کوئی اور چیز اس ماڈل کو نہیں توڑ سکے گی؟ اگر ماڈل کویووٹ دیکھے تو کیا ہوگا؟ کیا یہ سائز کی بنیاد پر اسے بھیڑیے کے طور پر درجہ بندی کرے گا؟ لومڑی کے بارے میں کیا خیال ہے؟ ایک ریچھ؟ کیا ہم اپنے دوستوں سے رابطہ کرنے کا خطرہ مول لیتے ہیں، یہ امید کرتے ہوئے کہ وہ ایک اچھے رسیلی سٹیک کے ساتھ گاڑی سے باہر نکلنے سے پہلے یہ جان لیں گے کہ بھٹکا دراصل ایک ریچھ ہے؟

مشین لرننگ کیا؟

مشین لرننگ کی تکنیک، خاص طور پر نیورل نیٹ ورکس، نے بہت سارے مسائل کے ساتھ زبردست کامیابی حاصل کی ہے، جن میں ترجمے اور تقریر کی پہچان جیسے بدنام زمانہ مشکل مسائل بھی شامل ہیں۔ ان کی افادیت ناقابل تردید ہے، اور اس طرح وہ مختلف ایپلی کیشنز میں ہر جگہ عام ہو چکے ہیں۔

پچھلے 12 سالوں میں کامیابیوں کے ایک سلسلے کے باوجود، AI ریسرچ کمیونٹی میں موجودہ پریکٹس اضافی تحقیق کرنا ہے۔ بڑے ماڈلز اور زیادہ ڈیٹا کا استعمال کرکے AI سسٹمز میں بہتری حاصل کی جا رہی ہے، جیسا کہ میری ساتھی کیٹرینا نے پچھلے مضمون میں بے نقاب کیا تھا۔. کارکردگی میں حاصلات جزوی ہیں، اور اسکور بورڈز کی موجودگی نے مشق کی حوصلہ افزائی کی ہے۔

یہ اسکور بورڈز متعدد قدرتی زبان پروسیسنگ (NLP) کاموں کے لیے عوامی ڈیٹا سیٹس پیش کرتے ہیں، جیسے سوال جواب، جذبات کا تجزیہ، سیمنٹک مماثلت وغیرہ۔ یہ دراصل ایک بہت اچھا اقدام ہے کیونکہ یہ محققین کو تقابلی نظام بنانے کی ترغیب دیتا ہے۔ تاہم، یہ محققین کو ان ڈیٹاسیٹس کے لیے اپنے سسٹمز کو بہت زیادہ تیار کرتا ہے۔ ایسا نہیں ہے کہ یہ پہلے نہیں ہوا تھا، لیکن AI کے ارد گرد تمام ہائپ کے درمیان، یہ ہاتھ سے نکل گیا ہے.

جیسا کہ بھیڑیا بمقابلہ ہسکی کنڈرم میں ہے، مسئلہ یہ ہے کہ زیادہ سے زیادہ ماڈل ڈیٹا میں محاورات سیکھ کر اعلیٰ کارکردگی حاصل کر رہے ہیں۔ نیورل ماڈل بلیک بکس کی طرح ہوتے ہیں، جس کی وجہ سے اس بات کی تصدیق کرنا مشکل ہو جاتا ہے کہ آیا ماڈل ٹاسک کے بجائے ڈیٹا کو حل کر رہا ہے۔ کافی لوگ اس بارے میں بہت زیادہ فکر مند نظر آتے ہیں، اور اس لیے یہ ماڈلز وقت سے پہلے ہی حقیقی زندگی کے استعمال کے معاملات میں لاگو ہو جاتے ہیں، اور جب تک کسی کو معلوم ہوتا ہے کہ برف ایک عنصر ہے، نقصان ہو چکا ہے۔

ان حد سے زیادہ اصلاح کے مسائل کی دو اہم وجوہات ہیں۔

1. غلط چیز کے لیے اصلاح کرنا

ماڈلز کو ایک ایسے میٹرک کے لیے بہتر بنایا گیا ہے جس کی گنتی کرنا آسان اور تیز ہو، اور جو کسی حد تک، مطلوبہ ہدف (یا کامیابی کی "پیمانہ") سے منسلک ہو۔ مطلوبہ ہدف کو آسانی سے قابل پیمائش مقدار میں نقشہ بنانے کا مسئلہ کئی شعبوں میں کئی دہائیوں سے تسلیم کیا جاتا رہا ہے، خاص طور پر 1975 میں، جب ماہر اقتصادیات چارلس گڈ ہارٹ نے اقتصادی ضابطے پر ایک مقالہ شائع کیا جس نے اسے مقبول کیا جسے گڈ ہارٹ کے قانون کے نام سے جانا جاتا ہے:

"جب کوئی پیمانہ میٹرک بن جاتا ہے، تو یہ ایک اچھا پیمانہ بننا بند ہو جاتا ہے۔"

کم دلکش: "کوئی بھی مشاہدہ شدہ شماریاتی باقاعدگی ایک بار گر جائے گی جب کنٹرول کے مقاصد کے لیے اس پر دباؤ ڈالا جائے گا۔" وضع قطع سے قطع نظر، قانون کا مطلب یہ ہے کہ، جب بھی ہماری کارکردگی کو کسی عدد کے لحاظ سے ماپا جاتا ہے، ہم اس نمبر کے لیے بہتر بناتے ہیں۔ دوسرے لفظوں میں، ہم میٹرک کھیلتے ہیں۔

نیورل نیٹ ورک کے ماڈل ایک ہی کام کرتے ہیں۔ وہ جس میٹرک کے لیے بہتر بنائے گئے ہیں وہ کارکردگی کے حقیقی پیمائش کے لیے صرف ایک پراکسی ہے۔ اس بات کی ضمانت دینے کا کوئی طریقہ نہیں ہے کہ ماڈل حقیقی دنیا میں متوقع کارکردگی کا نقشہ بنائے گا۔

نیورل مشین ٹرانسلیشن ماڈلز، مثال کے طور پر، BLEU کے لیے بہتر بنائے گئے ہیں، جو ایک میٹرک ہے جو ماڈل کے آؤٹ پٹ کا موازنہ ایک حوالہ ترجمہ، لفظ بہ لفظ سے کرتا ہے۔ حقیقی دنیا میں، جو چیز اہمیت رکھتی ہے وہ ایک روانی اور درست ترجمہ ہے، چاہے اسے اصل جملے سے مختلف انداز میں بیان کیا جائے۔

2. غیر نمائندہ ڈیٹا کے ساتھ اصلاح کرنا

جیسا کہ برف کا پتہ لگانے کی کہانی میں ہے، طاقتور ماڈلز صرف تربیتی ڈیٹا میں محاورات سیکھ کر اعلیٰ (میٹرک) کارکردگی حاصل کر سکتے ہیں۔ لیکن حقیقی ڈیٹا کچھ مختلف ہو سکتا ہے اور اس میں اصطلاحات، کلاسز، پس منظر وغیرہ کی ایک جیسی محاورات یا مجموعی تعدد شامل نہیں ہو سکتا۔ جب حقیقی دنیا کے منظرناموں پر تعینات کیا جاتا ہے، تو ایسے ماڈلز لامحالہ اس نمائندگی کی طرف متعصب ہوں گے جو انہوں نے تربیتی ڈیٹا سے سیکھا ہے۔ سبز منظر میں ایک بھیڑیا آسانی سے بھوسی بن جائے گا۔

جب تربیت کے لیے غیر نمائندہ ڈیٹا کا استعمال کیا جاتا ہے، بعض اوقات اس بات پر کوئی غور نہیں کیا جاتا کہ تربیتی ڈیٹا کیسے اکٹھا کیا گیا یا یہ کہاں سے آیا، یہ بہت مشکل ہو سکتا ہے کہ ماڈل کو ان سے مختلف حالات میں لاگو کیا جائے جنہیں وہ جانتا ہے۔ ماڈل متعصب ہو جاتا ہے۔ اور جب کہ یہ واضح طور پر سیکھا جانے والا تعصب اس خاص صورت حال میں اتنا مشکل نہیں لگتا ہے (جب تک کہ، یقیناً، کسی کو نقصان نہیں پہنچایا جاتا ہے)، جب یہ قرض کی درخواستوں، ہاؤسنگ ٹیکس کریڈٹس، یہاں تک کہ ملازمت کے انٹرویوز کے ساتھ ہوتا ہے، مضمرات کے بارے میں سوچنا خوفناک ہے۔.

پچھلے سال، کیلیفورنیا کی ریاستی عدالت نے فیصلہ کیا کہ نقد ضمانت کی رقم کا فیصلہ کرنے میں بہت زیادہ انسانی تعصب تھا۔ اس تعصب کو دور کرنے کی دلیل کے ساتھ، انہوں نے ایک قانون پاس کیا جس میں ایک الگورتھم کے استعمال کو لازمی قرار دیا گیا تاکہ کسی شخص کے عدالت میں پیش نہ ہونے کے خطرے کا اندازہ لگایا جا سکے۔، جو انہوں نے فرض کیا کہ وہ ایک معروضی نقطہ نظر فراہم کرے گا۔ لیکن اس الگورتھم کے لیے تربیت کا ڈیٹا کہاں سے آ رہا ہے؟ غالباً تاریخی ریکارڈوں سے، جس میں وہی تعصب ہوتا ہے جس سے الگورتھم کو گریز کرنا چاہیے۔

جنگلی میں

عصبی نیٹ ورکس اپنی پیشین گوئیوں پر پراعتماد ہوتے ہیں یہاں تک کہ جب اس کا کوئی مطلب نہیں ہوتا۔

بھیڑیا بمقابلہ ہسکی ماڈل کو ٹھیک کرنے کے بعد بھی، ہمیں اب بھی ایک مسئلہ تھا۔ یہ کیا پیشین گوئی کرے گا جب اسے کوئیوٹ، لومڑی، یا ریچھ کی تصویر کھلائی جائے گی؟

ہم جانتے ہیں کہ ہمارا بھیڑیا بمقابلہ ہسکی ماڈل ریچھ کو نہیں جانتا جب وہ اسے دیکھتا ہے۔ یہ اسے بھیڑیا یا بھوسی کے طور پر درجہ بندی کرنے کی کوشش کرے گا۔ لیکن عام طور پر اعصابی ماڈلز کے ساتھ مسئلہ یہ ہے کہ وہ کسی دیے گئے آؤٹ پٹ کو جو امکان تفویض کرتے ہیں وہ اس پیشین گوئی پر ان کے اعتماد کی عکاسی نہیں کرتا ہے۔ امکانات کو اعتماد کے اندازے کے طور پر نہیں لیا جا سکتا۔ اعصابی نیٹ ورک اپنی پیشین گوئیوں پر پراعتماد ہوتے ہیں یہاں تک کہ جب اس کا کوئی مطلب نہیں ہوتا، اور یہاں تک کہ جب ان پٹ ٹریننگ کے دوران ماڈل کی نظر آنے والی کسی بھی چیز سے کافی حد تک مختلف ہو۔ جب ماڈل کا سامنا ریچھ کی تصویر سے ہوتا ہے، تو آؤٹ پٹ 100% بھیڑیے سے لے کر 100% husky تک کچھ بھی ہو سکتا ہے۔ کیا یہ راحت کی بات نہیں ہوگی اگر ہمارا ماڈل 50%/50% آؤٹ پٹ کرے گا؟ اس کے بعد ہم قریب آنے سے بچنے کے لیے تمام احتیاطی اقدامات کر سکتے تھے۔

ہم جو چاہیں گے وہ یہ ہے کہ ہمارے ماڈلز ان خطوں میں ڈیٹا سے نمٹنے کے دوران انتہائی غیر یقینی صورتحال کا مظاہرہ کریں جو انہوں نے پہلے نہیں دیکھا تھا۔ "ہم چاہتے ہیں کہ پیداوار میں استعمال ہونے پر وہ 'خوبصورتی سے ناکام' ہوں۔"جیسا کہ اننت جین نے میڈیم پر اپنی پوسٹ میں لکھا ہے۔ یہ ہمیں اپنے ماڈل کی پیشین گوئیوں پر بھروسہ کرنے کی اجازت دے گا۔

بدقسمتی سے، موجودہ طرز عمل ایک ماڈل پر بھروسہ کرنا ہے جس کی کارکردگی اس نے a کے تحت حاصل کی ہے۔ واحد میٹرک over a غیر نمائندہ ڈیٹا سیٹ.

کیا کوئی امید ہے؟

ان مسائل میں سے کوئی بھی آسانی سے حل نہیں ہو سکتا۔ انہیں محققین، انجینئرز، ریگولیٹرز، فیصلہ کن اور پالیسی سازوں سے محنت اور وقت درکار ہوتا ہے۔ لیکن امید ہے۔

ایک واحد پراکسی میٹرک پر اوور فٹنگ سے بچنے کے لیے جو حقیقی مطلوبہ پیمائش میں ظاہر نہ ہو، ہم تکمیلی میٹرکس کا استعمال کرتے ہوئے ماڈلز کو تربیت دے سکتے ہیں۔ بہترین ماڈل وہ ہونا چاہئے جو ان سب پر یکساں طور پر اچھی کارکردگی کا مظاہرہ کرے۔ مزید برآں، ہمیں حقیقی دنیا میں وقتاً فوقتاً کارکردگی کی پیمائش کرنے کے لیے کچھ خاص کوشش کرنی چاہیے، چاہے صرف کچھ جزوی مثالوں کے لیے (چونکہ اس کے لیے عام طور پر انسانی کام کی ضرورت ہوتی ہے)۔

ممکنہ حد تک مضمر تعصب کو کم کرنے کے لیے، زیادہ نمائندہ تربیتی ڈیٹا ظاہر ہے مدد کرے گا۔ تاہم، یہ جاننا کہ کون سا ڈیٹا زیادہ نمائندہ ہے بذات خود ایک چیلنج ہے۔ جو چیز واقعی مددگار ثابت ہوگی وہ یہ ہے کہ ایسے ماڈلز ہوں جو قابل وضاحت ہوں، یا جو ان کی پیشین گوئی کی وضاحت کرنے کے قابل ہوں۔ یہ بالکل وہی ہے جو ہمیں فوری طور پر بھیڑیا برف کے تعصب کی نشاندہی کرنے کی اجازت دیتا ہے۔

آخر میں، ماڈلز کی پیشن گوئی پر بھروسہ کرنے کے قابل ہونا AI کے زیادہ محفوظ ایپلی کیشنز کی اجازت دے گا۔ جب بھی اعتماد کی ایک خاص حد تک نہ پہنچی ہو تو انسان مداخلت کر سکتے ہیں، اس طرح ماڈلز کو اس ڈیٹا سے نمٹنے کے لیے اپنا بہترین کام کرنے کی اجازت دیتا ہے جس کے لیے وہ صحیح معنوں میں تیار کیے گئے ہیں۔

Unbabel میں، ہم مسلسل بھوسیوں، بھیڑیوں اور ریچھوں سے ملتے رہتے ہیں۔ لیکن انسانوں کو لوپ میں رکھ کر، اپنے ماڈلز کی غلطیوں کو ٹھیک کرنے اور جو کچھ ہم فراہم کرتے ہیں اس کے حقیقی معیار کا جائزہ لے کر، ہم اپنے ماڈلز کو بہتر بناتے رہتے ہیں اور ہم خود بخود ان کا اندازہ کیسے لگاتے ہیں۔.

لسانی ٹیکنالوجیز کے ہمارے VP کی وضاحت کرتے ہوئے، ایلون لاوی:

ہمارے لیے سب سے اہم عملی [حقیقت] یہ ہے کہ تجرباتی نتائج جو ہم حاصل کرتے ہیں وہ عام نہیں ہوتے جیسا کہ ہم فرض کرتے ہیں اور یہ عملی طور پر ہمارے ترجمہ کے منظر نامے کے نمائندہ نہیں ہیں۔ یہ ہر وقت ہوتا ہے۔

AI یہاں رہنے کے لیے ہے، اور ہم نے پہلے ہی اس سے بہت سے فوائد حاصل کیے ہیں۔ لیکن ہم ایک ایسے ٹپنگ پوائنٹ پر پہنچ رہے ہیں جہاں نیورل نیٹ ورک اس قدر وسیع پیمانے پر استعمال ہوتے ہیں کہ ہمیں ان کی تربیت کے طریقہ کار میں زیادہ ذمہ دار بننے کی ضرورت ہے۔ ہم زیادہ سے زیادہ بھیڑیوں کو دیکھ رہے ہیں، برف پگھل رہی ہے، اور ہمارے دوست باہر ہیں۔ ہوسکتا ہے کہ ہمیں بہت دیر ہونے سے پہلے جو ٹوٹا ہے اسے ٹھیک کرنے پر توجہ دینی چاہیے۔

ماخذ: https://unbabel.com/blog/artificial-intelligence-fails/

ٹائم اسٹیمپ:

سے زیادہ غیربل