التعلم المعزز العميق

عقدة المصدر: 802633

لقد قمنا لاحقًا بتحسين خوارزمية DQN بعدة طرق: زيادة استقرار تعلم دينامية؛ ترتيب أولويات أعاد التجارب; تطبيع, تجميع و إعادة التحجيم النواتج. أدى الجمع بين العديد من هذه التحسينات معًا إلى تحسن بنسبة 300٪ في متوسط ​​النقاط عبر ألعاب Atari ؛ تم الآن تحقيق أداء على مستوى الإنسان في جميع ألعاب Atari تقريبًا. يمكننا حتى تدريب أ شبكة عصبية واحدة لمعرفة المزيد عن ألعاب أتاري متعددة. لقد قمنا أيضًا ببناء نظام RL العميق الموزع على نطاق واسع ، والمعروف باسم غوريلا، التي تستخدم منصة Google Cloud لتسريع وقت التدريب بترتيب من حيث الحجم ؛ تم تطبيق هذا النظام على أنظمة التوصية داخل Google.

ومع ذلك ، فإن شبكات Q العميقة ليست سوى طريقة واحدة لحل مشكلة RL العميقة. قدمنا ​​مؤخرًا طريقة أكثر عملية وفعالية تعتمد على RL غير المتزامن. يستغل هذا الأسلوب إمكانات تعدد مؤشرات الترابط لوحدات المعالجة المركزية القياسية. الفكرة هي تنفيذ العديد من مثيلات وكيلنا بالتوازي ، ولكن باستخدام نموذج مشترك. يوفر هذا بديلاً قابلاً للتطبيق لتجربة إعادة التشغيل ، نظرًا لأن التوازي أيضًا ينوع البيانات ويزينها. خوارزمية الممثل-الناقد غير المتزامن لدينا ، A3C، يجمع بين شبكة Q عميقة وشبكة سياسة عميقة لاختيار الإجراءات. إنه يحقق أحدث النتائج ، باستخدام جزء صغير من وقت تدريب DQN وجزء صغير من استهلاك موارد Gorila. من خلال بناء مناهج جديدة ل الدوافع الذاتية و التخطيط المجرد مؤقتا، لقد حققنا أيضًا نتائج مذهلة في أكثر ألعاب Atari تحديًا ، مثل Montezuma's Revenge.

بينما تُظهر ألعاب Atari درجة كبيرة من التنوع ، فإنها تقتصر على ألعاب الفيديو ثنائية الأبعاد القائمة على العفاريت. لقد أدخلنا مؤخرًا Labyrinth: مجموعة صعبة من بيئات التنقل ثلاثية الأبعاد وحل الألغاز. مرة أخرى ، لا يلاحظ الوكيل سوى المدخلات المستندة إلى البكسل من مجال رؤيته المباشر ، ويجب عليه تحديد الخريطة لاكتشاف المكافآت واستغلالها.

المصدر: https://deepmind.com/blog/article/deep-reinforcement-learning

الطابع الزمني:

اكثر من ديب مايند - آخر مشاركة