ما متعاقباً الگوریتم DQN را از طرق مختلف بهبود بخشیم: تثبیت بیشتر یادگیری دینامیک; اولویت بندی تجارب تکرار شده; عادی سازی, جمع کردن و پوسته پوسته شدن مجدد خروجی ها ترکیب چندین مورد از این پیشرفت ها با هم منجر به بهبود 300 درصدی میانگین امتیاز در بازی های آتاری شد. عملکرد در سطح انسان در حال حاضر تقریباً در تمام بازی های آتاری به دست آمده است. ما حتی می توانیم آموزش دهیم شبکه عصبی تک برای یادگیری در مورد چند بازی آتاری. ما همچنین یک سیستم RL عمیق با توزیع گسترده ساخته ایم که به نام شناخته می شود گوریل، که از پلتفرم Google Cloud برای سرعت بخشیدن به زمان آموزش با مرتبه بزرگی استفاده می کند. این سیستم برای سیستم های توصیه گر در گوگل اعمال شده است.
با این حال، شبکه های Q-deep تنها یک راه برای حل مشکل RL عمیق هستند. ما اخیراً یک روش حتی کاربردی تر و مؤثرتر بر اساس RL ناهمزمان معرفی کرده ایم. این رویکرد از قابلیت های چند رشته ای CPU های استاندارد بهره برداری می کند. ایده این است که بسیاری از نمونه های عامل خود را به صورت موازی، اما با استفاده از یک مدل مشترک اجرا کنیم. این یک جایگزین مناسب برای بازپخش تجربه فراهم میکند، زیرا موازیسازی نیز دادهها را متنوع میکند و از هم مرتبط میکند. الگوریتم ناهمزمان بازیگر- منتقد ما، A3C، یک شبکه Q عمیق را با یک شبکه سیاست عمیق برای انتخاب اقدامات ترکیب می کند. با استفاده از کسری از زمان آموزش DQN و کسری از مصرف منابع Gorila، به نتایج پیشرفتهای دست مییابد. با ساختن رویکردهای بدیع به انگیزه ذاتی و برنامه ریزی انتزاعی زمانی، ما همچنین در چالش برانگیزترین بازی های آتاری مانند Montezuma's Revenge به نتایج مهمی دست یافته ایم.
در حالی که بازیهای آتاری تنوع گستردهای را نشان میدهند، آنها به بازیهای ویدئویی مبتنی بر جن دوبعدی محدود میشوند. ما به تازگی مجموعه ای چالش برانگیز از ناوبری سه بعدی و محیط های حل پازل را معرفی کرده ایم. باز هم، عامل فقط ورودی های مبتنی بر پیکسل را از میدان دید فوری خود مشاهده می کند و باید نقشه را برای کشف و بهره برداری از پاداش ها کشف کند.
منبع: https://deepmind.com/blog/article/deep-reinforcement-learning