لقد قمنا لاحقًا بتحسين خوارزمية DQN بعدة طرق: زيادة استقرار تعلم دينامية؛ ترتيب أولويات أعاد التجارب; تطبيع, تجميع و إعادة التحجيم النواتج. أدى الجمع بين العديد من هذه التحسينات معًا إلى تحسن بنسبة 300٪ في متوسط النقاط عبر ألعاب Atari ؛ تم الآن تحقيق أداء على مستوى الإنسان في جميع ألعاب Atari تقريبًا. يمكننا حتى تدريب أ شبكة عصبية واحدة لمعرفة المزيد عن ألعاب أتاري متعددة. لقد قمنا أيضًا ببناء نظام RL العميق الموزع على نطاق واسع ، والمعروف باسم غوريلا، التي تستخدم منصة Google Cloud لتسريع وقت التدريب بترتيب من حيث الحجم ؛ تم تطبيق هذا النظام على أنظمة التوصية داخل Google.
ومع ذلك ، فإن شبكات Q العميقة ليست سوى طريقة واحدة لحل مشكلة RL العميقة. قدمنا مؤخرًا طريقة أكثر عملية وفعالية تعتمد على RL غير المتزامن. يستغل هذا الأسلوب إمكانات تعدد مؤشرات الترابط لوحدات المعالجة المركزية القياسية. الفكرة هي تنفيذ العديد من مثيلات وكيلنا بالتوازي ، ولكن باستخدام نموذج مشترك. يوفر هذا بديلاً قابلاً للتطبيق لتجربة إعادة التشغيل ، نظرًا لأن التوازي أيضًا ينوع البيانات ويزينها. خوارزمية الممثل-الناقد غير المتزامن لدينا ، A3C، يجمع بين شبكة Q عميقة وشبكة سياسة عميقة لاختيار الإجراءات. إنه يحقق أحدث النتائج ، باستخدام جزء صغير من وقت تدريب DQN وجزء صغير من استهلاك موارد Gorila. من خلال بناء مناهج جديدة ل الدوافع الذاتية و التخطيط المجرد مؤقتا، لقد حققنا أيضًا نتائج مذهلة في أكثر ألعاب Atari تحديًا ، مثل Montezuma's Revenge.
بينما تُظهر ألعاب Atari درجة كبيرة من التنوع ، فإنها تقتصر على ألعاب الفيديو ثنائية الأبعاد القائمة على العفاريت. لقد أدخلنا مؤخرًا Labyrinth: مجموعة صعبة من بيئات التنقل ثلاثية الأبعاد وحل الألغاز. مرة أخرى ، لا يلاحظ الوكيل سوى المدخلات المستندة إلى البكسل من مجال رؤيته المباشر ، ويجب عليه تحديد الخريطة لاكتشاف المكافآت واستغلالها.
المصدر: https://deepmind.com/blog/article/deep-reinforcement-learning