گہری کمک سیکھنا

ماخذ نوڈ: 802633

ہم نے بعد میں DQN الگورتھم کو کئی طریقوں سے بہتر کیا ہے: مزید مستحکم کرنا سیکھنے حرکیات; کو ترجیح دینا دوبارہ چلائے گئے تجربات; معمول بنانا, جمع کرنا اور دوبارہ اسکیلنگ آؤٹ پٹ ان میں سے کئی بہتریوں کو ایک ساتھ ملانے سے اٹاری گیمز میں اوسط اسکور میں 300% بہتری آئی۔ انسانی سطح کی کارکردگی اب تقریباً تمام اٹاری گیمز میں حاصل کی گئی ہے۔ یہاں تک کہ ہم تربیت دے سکتے ہیں۔ واحد اعصابی نیٹ ورک کے بارے میں جاننے کے لئے متعدد اٹاری گیمز. ہم نے بڑے پیمانے پر تقسیم شدہ ڈیپ آر ایل سسٹم بھی بنایا ہے، جسے کہا جاتا ہے۔ گوریلہجو کہ گوگل کلاؤڈ پلیٹ فارم کو تربیت کے وقت کو تیز کرنے کے لیے استعمال کرتا ہے۔ یہ سسٹم Google کے اندر تجویز کنندہ سسٹمز پر لاگو کیا گیا ہے۔

تاہم، گہری Q-نیٹ ورکس گہرے RL مسئلے کو حل کرنے کا صرف ایک طریقہ ہیں۔ ہم نے حال ہی میں غیر مطابقت پذیر RL پر مبنی ایک اور بھی زیادہ عملی اور موثر طریقہ متعارف کرایا ہے۔ یہ نقطہ نظر معیاری CPUs کی ملٹی تھریڈنگ صلاحیتوں سے فائدہ اٹھاتا ہے۔ خیال یہ ہے کہ ہمارے ایجنٹ کی متعدد مثالوں کو متوازی طور پر، لیکن مشترکہ ماڈل کا استعمال کرتے ہوئے عمل میں لایا جائے۔ یہ تجربہ ری پلے کا ایک قابل عمل متبادل فراہم کرتا ہے، کیونکہ متوازی عمل بھی ڈیٹا کو متنوع اور سجا دیتا ہے۔ ہمارا متضاد اداکار نقاد الگورتھم، اکینکس ایکس، کارروائیوں کو منتخب کرنے کے لیے ایک گہری پالیسی نیٹ ورک کے ساتھ ایک گہرے Q-نیٹ ورک کو جوڑتا ہے۔ یہ DQN کے تربیتی وقت کا ایک حصہ اور گوریلا کے وسائل کی کھپت کا ایک حصہ استعمال کرتے ہوئے، جدید ترین نتائج حاصل کرتا ہے۔ ناول کے نقطہ نظر کی تعمیر کے ذریعے اندرونی حوصلہ افزائی اور عارضی طور پر تجریدی منصوبہ بندی، ہم نے انتہائی بدنام زمانہ چیلنجنگ اٹاری گیمز میں بھی کامیابی حاصل کی ہے، جیسا کہ مونٹیزوما کا بدلہ۔

جب کہ اٹاری گیمز بہت زیادہ تنوع کا مظاہرہ کرتے ہیں، وہ 2D سپرائٹ پر مبنی ویڈیو گیمز تک محدود ہیں۔ ہم نے حال ہی میں Labyrinth: 3D نیویگیشن اور پہیلی حل کرنے والے ماحول کا ایک چیلنجنگ سوٹ متعارف کرایا ہے۔ ایک بار پھر، ایجنٹ اپنے فوری فیلڈ آف ویو سے صرف پکسل پر مبنی ان پٹس کا مشاہدہ کرتا ہے، اور انعامات کو دریافت کرنے اور اس کا فائدہ اٹھانے کے لیے نقشہ کا پتہ لگانا چاہیے۔

ماخذ: https://deepmind.com/blog/article/deep-reinforcement-learning

ٹائم اسٹیمپ:

سے زیادہ ڈیپ مائنڈ - تازہ ترین پوسٹ