التعلم المعزز العميق

أعاد نشره أفلاطون

المتابعون: 0

لقد قمنا لاحقًا بتحسين خوارزمية DQN بعدة طرق: زيادة استقرار تعلم دينامية؛ ترتيب أولويات أعاد التجارب; تطبيع, تجميع و إعادة التحجيم النواتج. أدى الجمع بين العديد من هذه التحسينات معًا إلى تحسن بنسبة 300٪ في متوسط النقاط عبر ألعاب Atari ؛ تم الآن تحقيق أداء على مستوى الإنسان في جميع ألعاب Atari تقريبًا. يمكننا حتى تدريب أ شبكة عصبية واحدة لمعرفة المزيد عن ألعاب أتاري متعددة. لقد قمنا أيضًا ببناء نظام RL العميق الموزع على نطاق واسع ، والمعروف باسم غوريلا، التي تستخدم منصة Google Cloud لتسريع وقت التدريب بترتيب من حيث الحجم ؛ تم تطبيق هذا النظام على أنظمة التوصية داخل Google.

ومع ذلك ، فإن شبكات Q العميقة ليست سوى طريقة واحدة لحل مشكلة RL العميقة. قدمنا مؤخرًا طريقة أكثر عملية وفعالية تعتمد على RL غير المتزامن. يستغل هذا الأسلوب إمكانات تعدد مؤشرات الترابط لوحدات المعالجة المركزية القياسية. الفكرة هي تنفيذ العديد من مثيلات وكيلنا بالتوازي ، ولكن باستخدام نموذج مشترك. يوفر هذا بديلاً قابلاً للتطبيق لتجربة إعادة التشغيل ، نظرًا لأن التوازي أيضًا ينوع البيانات ويزينها. خوارزمية الممثل-الناقد غير المتزامن لدينا ، A3C، يجمع بين شبكة Q عميقة وشبكة سياسة عميقة لاختيار الإجراءات. إنه يحقق أحدث النتائج ، باستخدام جزء صغير من وقت تدريب DQN وجزء صغير من استهلاك موارد Gorila. من خلال بناء مناهج جديدة ل الدوافع الذاتية و التخطيط المجرد مؤقتا، لقد حققنا أيضًا نتائج مذهلة في أكثر ألعاب Atari تحديًا ، مثل Montezuma's Revenge.

بينما تُظهر ألعاب Atari درجة كبيرة من التنوع ، فإنها تقتصر على ألعاب الفيديو ثنائية الأبعاد القائمة على العفاريت. لقد أدخلنا مؤخرًا Labyrinth: مجموعة صعبة من بيئات التنقل ثلاثية الأبعاد وحل الألغاز. مرة أخرى ، لا يلاحظ الوكيل سوى المدخلات المستندة إلى البكسل من مجال رؤيته المباشر ، ويجب عليه تحديد الخريطة لاكتشاف المكافآت واستغلالها.

المصدر: https://deepmind.com/blog/article/deep-reinforcement-learning

الطابع الزمني: 16 حزيران، 2016

الطابع الزمني: مارس 7 ،2019

التعلم المعزز العميق

أعاد نشره أفلاطون

اكثر من ديب مايند - آخر مشاركة

استجابة DeepMind الصحية لتقرير المراجعين المستقلين 2018

الحلقة 7: نحو المستقبل

أوراق DeepMind @ NIPS (الجزء 3)

تعلم التنقل في المدن بدون خريطة

التنقل مع تمثيلات تشبه الشبكة في العوامل الاصطناعية

الحُصين كخريطة تنبؤية

يمكن أن يعزز التعلم الآلي قيمة طاقة الرياح

تعلم القواعد التفسيرية من البيانات الصاخبة

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي