کس طرح ارتقائی انتخاب زیادہ قابل خود ڈرائیونگ کاروں کو تربیت دے سکتا ہے۔

ماخذ نوڈ: 749900

ویمو میں ارتقاء

پہلے تجربات جو DeepMind اور Waymo نے ایک ایسے نیٹ ورک کو تربیت دینے میں تعاون کیا جو ہمارے سینسرز کے ذریعے پائے جانے والے پیدل چلنے والوں، بائیسکل سواروں اور موٹر سائیکل سواروں کے ارد گرد باکس تیار کرتا ہے – جسے "علاقہ پروپوزل نیٹ ورک" کا نام دیا گیا ہے۔ اس کا مقصد اس بات کی تحقیقات کرنا تھا کہ آیا PBT پیدل چلنے والوں کا پتہ لگانے کے لیے اعصابی جال کی صلاحیت کو دو طریقوں سے بہتر بنا سکتا ہے: یاد کرنا (منظر میں پیدل چلنے والوں کی کل تعداد سے زیادہ پیدل چلنے والوں کا حصہ) اور درستگی (پہلے جانے والے پیدل چلنے والوں کا حصہ درحقیقت پیدل چلنے والے، اور جعلی نہیں "جھوٹے مثبت")۔ Waymo کی گاڑیاں متعدد نیورل نیٹ اور دیگر طریقوں کا استعمال کرتے ہوئے ان سڑک استعمال کرنے والوں کا پتہ لگاتی ہیں، لیکن اس تجربے کا مقصد اس واحد نیورل نیٹ کو تربیت دینا تھا تاکہ 99 فیصد سے زیادہ یاد کو برقرار رکھا جا سکے، جبکہ آبادی پر مبنی تربیت کا استعمال کرتے ہوئے غلط مثبت کو کم کیا جائے۔

ہم نے اس تجربے سے بہت کچھ سیکھا۔ سب سے پہلے، ہم نے دریافت کیا کہ ہمیں نیٹ ورکس کے لیے ایک حقیقت پسندانہ اور مضبوط تشخیص کرنے کی ضرورت ہے تاکہ ہم جان سکیں کہ کیا حقیقی دنیا میں مختلف حالات میں ایک نیورل نیٹ صحیح معنوں میں بہتر کارکردگی کا مظاہرہ کرے گا۔ اس تشخیص نے اس مقابلے کی بنیاد بنائی جسے PBT ایک جیتنے والے نیورل نیٹ کو دوسرے پر لینے کے لیے استعمال کرتا ہے۔ اس بات کو یقینی بنانے کے لیے کہ اعصابی جال عام طور پر اچھی کارکردگی کا مظاہرہ کرتے ہیں، اور تربیت کے دوران دیکھی گئی مثالوں کے جوابات کو محض حفظ نہ کریں، ہمارے پی بی ٹی مقابلے کی تشخیص میں مثالوں کے ایک سیٹ ("توثیق سیٹ") کا استعمال کیا جاتا ہے جو کہ تربیت میں استعمال ہونے والی مثالوں سے مختلف ہوتی ہے۔ "ٹریننگ سیٹ۔") حتمی کارکردگی کی توثیق کرنے کے لیے، ہم مثالوں کا ایک تیسرا سیٹ بھی استعمال کرتے ہیں ("تشخیصی سیٹ") جسے نیورل نیٹس نے تربیت یا مقابلے میں کبھی نہیں دیکھا۔

دوم، ہم نے سیکھا کہ ہمیں متواتر ارتقائی مقابلے کی حمایت کے لیے تیز تشخیص کی ضرورت ہے۔ محققین تربیت کے دوران شاذ و نادر ہی اپنے ماڈلز کا جائزہ لیتے ہیں، اور جب وہ ایسا کرتے ہیں، تو تشخیص کبھی کبھار ہی کیا جاتا ہے۔ PBT مطلوبہ ماڈلز کا ہر 15 منٹ بعد جائزہ لیا جائے۔ اس کو حاصل کرنے کے لیے، ہم نے سینکڑوں تقسیم شدہ مشینوں میں تشخیص کو متوازی بنانے کے لیے Google کے ڈیٹا سینٹرز کا فائدہ اٹھایا۔

ارتقائی مقابلے میں تنوع کی طاقت

ان تجربات کے دوران، ہم نے محسوس کیا کہ PBT کی طاقت میں سے ایک - بہتر کارکردگی کا مظاہرہ کرنے والے نیٹ ورکس کے لیے زیادہ وسائل مختص کرنا بھی کمزوری ہو سکتی ہے، کیونکہ PBT موجودہ وقت کے لیے بہتر بناتا ہے اور طویل مدتی نتائج پر غور کرنے میں ناکام رہتا ہے۔ یہ ایک مسئلہ ہو سکتا ہے کیونکہ یہ دیر سے کھلنے والوں کو نقصان پہنچاتا ہے، اس لیے ہائپر پیرامیٹر والے اعصابی جال جو طویل مدت میں بہتر کارکردگی کا مظاہرہ کرتے ہیں ان کے پختہ ہونے اور کامیاب ہونے کا موقع نہیں ہوتا ہے۔ اس کا مقابلہ کرنے کا ایک طریقہ یہ ہے کہ آبادی کے تنوع کو بڑھایا جائے، جسے محض ایک بڑی آبادی کو تربیت دے کر حاصل کیا جا سکتا ہے۔ اگر آبادی کافی زیادہ ہے، تو دیر سے کھلنے والے ہائپر پیرامیٹر والے نیٹ ورکس کے زندہ رہنے اور بعد کی نسلوں میں پکڑے جانے کا زیادہ امکان ہے۔

ان تجربات میں، ہم "طاق" کہلانے والی ذیلی آبادیوں کو بنا کر تنوع میں اضافہ کرنے میں کامیاب ہوئے، جہاں عصبی جالوں کو صرف ان کے اپنے ذیلی گروپوں میں ہی مقابلہ کرنے کی اجازت دی گئی تھی۔ ہم نے "فٹنس شیئرنگ" نامی تکنیک کے ذریعے تنوع کو براہ راست انعام دینے کی بھی کوشش کی، جہاں ہم آبادی کے اراکین کے درمیان فرق کی پیمائش کرتے ہیں اور مقابلے میں مزید منفرد نیورل نیٹس کو برتری دیتے ہیں۔ زیادہ تنوع PBT کو ایک بڑی ہائپر پیرامیٹر جگہ تلاش کرنے کی اجازت دیتا ہے۔

نتائج کی نمائش

PBT نے ماڈل کی کارکردگی میں ڈرامائی بہتری کو فعال کیا۔ مندرجہ بالا تجربے کے لیے، ہمارے PBT ماڈلز اس کے ہاتھ سے بنائے گئے مساوی کے مقابلے میں جھوٹے مثبت کو 24% کم کر کے اعلیٰ درستگی حاصل کرنے کے قابل تھے، جبکہ یاد کرنے کی اعلی شرح کو برقرار رکھتے ہوئے۔ پی بی ٹی جیسے ارتقائی طریقوں کا ایک اہم فائدہ یہ ہے کہ وہ من مانی پیچیدہ میٹرکس کو بہتر بنا سکتے ہیں۔ روایتی طور پر، اعصابی جالوں کو صرف سادہ اور ہموار نقصان کے افعال کا استعمال کرتے ہوئے تربیت دی جا سکتی ہے، جو اس چیز کے لیے ایک پراکسی کے طور پر کام کرتے ہیں جس کی ہمیں واقعی پرواہ ہے۔ PBT نے ہمیں نیورل نیٹ کی تربیت کے لیے استعمال کیے جانے والے اپ ڈیٹ کے اصول سے آگے جانے کے قابل بنایا، اور ان خصوصیات کے لیے زیادہ پیچیدہ میٹرکس کو بہتر بنانے کی طرف جن کا ہم خیال رکھتے ہیں، جیسے کہ اعلیٰ یاد کرنے کی شرح کے تحت زیادہ سے زیادہ درستگی۔

PBT وقت اور وسائل کی بھی بچت کرتا ہے۔ PBT کے تربیت یافتہ نیٹ کے ساتھ دریافت ہونے والے ہائپر پیرامیٹر شیڈول نے تربیت کے نصف وقت اور وسائل کے ساتھ Waymo کے پچھلے نیٹ سے بہتر کارکردگی کا مظاہرہ کیا۔ مجموعی طور پر، PBT بہتر ہائپر پیرامیٹر کے نظام الاوقات کو مؤثر طریقے سے دریافت کرنے کے لیے بے ترتیب متوازی تلاش کے ذریعے استعمال ہونے والے نصف کمپیوٹیشنل وسائل استعمال کرتا ہے۔ یہ محققین کے لیے بھی وقت بچاتا ہے- پی بی ٹی کو براہ راست Waymo کے تکنیکی ڈھانچے میں شامل کر کے، پوری کمپنی کے محققین ایک بٹن کے کلک کے ساتھ اس طریقہ کو لاگو کر سکتے ہیں، اور اپنی سیکھنے کی شرح کو کم کرنے میں کم وقت صرف کر سکتے ہیں۔ ان تجربات کی تکمیل کے بعد سے، PBT کو بہت سے مختلف Waymo ماڈلز پر لاگو کیا گیا ہے، اور سڑک کے لیے زیادہ قابل گاڑیاں بنانے میں مدد کرنے کے لیے بہت سارے وعدے کیے گئے ہیں۔


تعاون کنندگان: یہاں بیان کردہ کام Waymo کے Yu-hsin Chen اور Matthieu Devin، اور Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta اور DeepMind کے Oriol Vinyals کے درمیان ایک تحقیقی تعاون تھا۔ پروجیکٹ کے مشیروں میں ڈیپ مائنڈ سے میکس جیڈربرگ، ویلنٹائن ڈالیبارڈ، میئر فارٹوناٹو اور جیکسن بروشیر شامل ہیں۔

ماخذ: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

ٹائم اسٹیمپ:

سے زیادہ ڈیپ مائنڈ - تازہ ترین پوسٹ