مسابقات Procgen و MineRL

عقدة المصدر: 768080

يسعدنا أن نعلن أن OpenAI تشارك في تنظيم مسابقتين NeurIPS 2020 مع أيكرود, جامعة كارنيجي ميلونو العقل العميق، وذلك باستخدام مؤشر بروكجين و منجم. نحن نعتمد بشدة على هذه البيئات داخليًا للبحث في التعلم المعزز ، ونتطلع إلى رؤية التقدم الذي يحرزه المجتمع في هذه المسابقات الصعبة.

مسابقة بروكجين

قم بالتسجيل في Procgen

مسابقة بروكجين يركز على تحسين كفاءة العينة والتعميم في التعلم المعزز. سيحاول المشاركون تحقيق أقصى قدر من أداء الوكلاء باستخدام عدد ثابت من تفاعلات البيئة. سيتم تقييم الوكلاء في كل من البيئات الـ 16 التي تم نشرها بالفعل في مؤشر بروكجين، وكذلك في أربع بيئات اختبار سرية تم إنشاؤها خصيصًا لهذه المنافسة. من خلال تجميع الأداء عبر العديد من البيئات المتنوعة ، نحصل على مقاييس عالية الجودة للحكم على الخوارزميات الأساسية. يمكن العثور على مزيد من المعلومات حول تفاصيل كل جولة هنا.

نظرًا لأن كل المحتوى يتم إنشاؤه إجرائيًا ، تتطلب كل بيئة Procgen بشكل جوهري وكلاء للتعميم في المواقف التي لم يسبق رؤيتها. لذلك توفر هذه البيئات اختبارًا قويًا لقدرة الوكيل على التعلم في العديد من البيئات المتنوعة. علاوة على ذلك ، قمنا بتصميم بيئات Procgen لتكون سريعة وسهلة الاستخدام. سيتمكن المشاركون الذين لديهم موارد حاسوبية محدودة من إعادة إنتاج نتائجنا الأساسية بسهولة وإجراء تجارب جديدة. نأمل أن يؤدي ذلك إلى تمكين المشاركين من التكرار السريع حول الأساليب الجديدة لتحسين كفاءة العينة والتعميم في RL.

مسابقة MineRL

قم بالتسجيل في MineRL

العديد من النجاحات الأخيرة المشهورة للذكاء الاصطناعي ، مثل AlphaStar و AlphaGo ، و الخاصة بنا أوبن إيه آي خمسة، الاستفادة من التعلم المعزز العميق لتحقيق أداء على مستوى الإنسان أو فوق الإنسان في مهام صنع القرار المتسلسلة. هذه التحسينات التي أدخلت على أحدث ما تتطلب حتى الآن يتزايد باطراد كمية عينات الحوسبة والمحاكاة ، وبالتالي من الصعب تطبيق العديد من هذه الأنظمة مباشرة على مشاكل العالم الحقيقي حيث تكون عينات البيئة باهظة الثمن. إحدى الطرق المعروفة لتقليل تعقيد عينة البيئة هي الاستفادة من الرؤى البشرية وعروض السلوك المطلوب.

تقديم تقديم المركز الأول من مسابقة MineRL 1 للحصول على معول حديد.

لمزيد من تحفيز البحث في هذا الاتجاه ، فإننا نشارك في تنظيم مسابقة MineRL 2020 والذي يهدف إلى تعزيز تطوير الخوارزميات التي يمكنها الاستفادة بكفاءة من العروض البشرية للحد بشكل كبير من عدد العينات اللازمة لحل البيئات المعقدة والتسلسل الهرمي والمتناثر. تحقيقا لهذه الغاية ، سيتنافس المشاركون على تطوير أنظمة يمكنها الحصول على الماس ماين كرافت من وحدات البكسل الخام باستخدام 8,000,000،XNUMX،XNUMX عينة فقط من محاكاة MineRL و 4 أيام من التدريب على جهاز GPU واحد. سيتم تزويد المشاركين بمجموعة بيانات MineRL-v0 (موقع الكتروني, ورقة) ، مجموعة واسعة النطاق من أكثر من 60 مليون إطار من المظاهرات البشرية ، مما يمكنهم من استخدام مسارات الخبراء لتقليل تفاعلات الخوارزميات الخاصة بهم مع محاكاة Minecraft.

هذه المسابقة هي متابعة ل مسابقة MineRL 2019 في اي وكيل الفريق الأعلى كان قادرا على الحصول على معول الحديد (الهدف قبل الأخير من المسابقة) في إطار ميزانية الحوسبة والتفاعل المحاكي المحدودة للغاية. ضع في الاعتبار أن أنظمة التعلم المعززة القياسية الحديثة تتطلب مئات الملايين من تفاعلات البيئة على أنظمة GPU الكبيرة المتعددة لتحقيق نفس الهدف. نتوقع هذا العام أن يدفع المنافسون أحدث التقنيات إلى أبعد من ذلك.

لضمان أن يقوم المنافسون بتطوير خوارزميات فعالة بالفعل ، يقوم منظمو مسابقة MineRL بتدريب نماذج الجولة النهائية للفريق الأعلى من الصفر مع قيود صارمة على الأجهزة والحوسبة وتفاعل المحاكاة المتاحة. تتميز مسابقة MineRL 2020 أيضًا بمقياس جديد لتجنب ميزات هندسة اليد وحلول تجهيز المجال. يمكن العثور على مزيد من التفاصيل حول هيكل المنافسة هنا.

المصدر: https://openai.com/blog/procgen-minerl-competitions/

الطابع الزمني:

اكثر من OpenAI