یادگیری تقویت عمیق

گره منبع: 802633

ما متعاقباً الگوریتم DQN را از طرق مختلف بهبود بخشیم: تثبیت بیشتر یادگیری دینامیک; اولویت بندی تجارب تکرار شده; عادی سازی, جمع کردن و پوسته پوسته شدن مجدد خروجی ها ترکیب چندین مورد از این پیشرفت ها با هم منجر به بهبود 300 درصدی میانگین امتیاز در بازی های آتاری شد. عملکرد در سطح انسان در حال حاضر تقریباً در تمام بازی های آتاری به دست آمده است. ما حتی می توانیم آموزش دهیم شبکه عصبی تک برای یادگیری در مورد چند بازی آتاری. ما همچنین یک سیستم RL عمیق با توزیع گسترده ساخته ایم که به نام شناخته می شود گوریل، که از پلتفرم Google Cloud برای سرعت بخشیدن به زمان آموزش با مرتبه بزرگی استفاده می کند. این سیستم برای سیستم های توصیه گر در گوگل اعمال شده است.

با این حال، شبکه های Q-deep تنها یک راه برای حل مشکل RL عمیق هستند. ما اخیراً یک روش حتی کاربردی تر و مؤثرتر بر اساس RL ناهمزمان معرفی کرده ایم. این رویکرد از قابلیت های چند رشته ای CPU های استاندارد بهره برداری می کند. ایده این است که بسیاری از نمونه های عامل خود را به صورت موازی، اما با استفاده از یک مدل مشترک اجرا کنیم. این یک جایگزین مناسب برای بازپخش تجربه فراهم می‌کند، زیرا موازی‌سازی نیز داده‌ها را متنوع می‌کند و از هم مرتبط می‌کند. الگوریتم ناهمزمان بازیگر- منتقد ما، A3C، یک شبکه Q عمیق را با یک شبکه سیاست عمیق برای انتخاب اقدامات ترکیب می کند. با استفاده از کسری از زمان آموزش DQN و کسری از مصرف منابع Gorila، به نتایج پیشرفته‌ای دست می‌یابد. با ساختن رویکردهای بدیع به انگیزه ذاتی و برنامه ریزی انتزاعی زمانی، ما همچنین در چالش برانگیزترین بازی های آتاری مانند Montezuma's Revenge به نتایج مهمی دست یافته ایم.

در حالی که بازی‌های آتاری تنوع گسترده‌ای را نشان می‌دهند، آنها به بازی‌های ویدئویی مبتنی بر جن دوبعدی محدود می‌شوند. ما به تازگی مجموعه ای چالش برانگیز از ناوبری سه بعدی و محیط های حل پازل را معرفی کرده ایم. باز هم، عامل فقط ورودی های مبتنی بر پیکسل را از میدان دید فوری خود مشاهده می کند و باید نقشه را برای کشف و بهره برداری از پاداش ها کشف کند.

منبع: https://deepmind.com/blog/article/deep-reinforcement-learning

تمبر زمان:

بیشتر از Deep Mind - آخرین پست