مسابقات Procgen و MineRL

گره منبع: 768080

ما مشتاقیم اعلام کنیم که OpenAI دو مسابقه NeurIPS 2020 را با همکاری سازماندهی می کند. AIcrowd, دانشگاه کارنگی ملونو Deepmindبا استفاده از معیار پروکگن و MineRL. ما به شدت به این محیط ها در داخل برای تحقیق در مورد یادگیری تقویتی متکی هستیم و مشتاقانه منتظر پیشرفت جامعه در این مسابقات چالش برانگیز هستیم.

مسابقه Procgen

برای Procgen ثبت نام کنید

La مسابقه Procgen بر بهبود کارایی نمونه و تعمیم در یادگیری تقویتی تمرکز دارد. شرکت کنندگان تلاش خواهند کرد تا با استفاده از تعداد ثابتی از تعاملات محیطی، عملکرد عوامل را به حداکثر برسانند. عوامل در هر یک از 16 محیطی که قبلاً به صورت عمومی منتشر شده بودند، ارزیابی خواهند شد معیار پروکگنو همچنین در چهار محیط تست مخفی که مخصوص این مسابقه ایجاد شده است. با تجمیع عملکرد در بسیاری از محیط‌های متنوع، معیارهایی با کیفیت بالا برای قضاوت در مورد الگوریتم‌های زیربنایی به دست می‌آوریم. اطلاعات بیشتر در مورد جزئیات هر دور را می توان یافت اینجا کلیک نمایید.

از آنجایی که تمام محتوا به صورت رویه ای تولید می شود، هر محیط Procgen ذاتاً به عواملی نیاز دارد که به موقعیت هایی که قبلاً دیده نشده اند تعمیم دهند. بنابراین این محیط‌ها یک آزمون قوی از توانایی یک عامل برای یادگیری در بسیاری از تنظیمات مختلف ارائه می‌دهند. علاوه بر این، ما محیط های Procgen را به گونه ای طراحی کردیم که استفاده از آن سریع و ساده باشد. شرکت‌کنندگانی که منابع محاسباتی محدودی دارند می‌توانند به راحتی نتایج پایه ما را بازتولید کنند و آزمایش‌های جدیدی را اجرا کنند. ما امیدواریم که این به شرکت‌کنندگان اجازه دهد تا به سرعت روی روش‌های جدید برای بهبود کارایی نمونه و تعمیم در RL تکرار کنند.

مسابقه MineRL

برای MineRL ثبت نام کنید

بسیاری از موفقیت‌های اخیر و مشهور هوش مصنوعی، مانند AlphaStar، AlphaGo، و خودمان. OpenAI Five، از یادگیری تقویتی عمیق برای دستیابی به عملکرد سطح انسانی یا فوق انسانی در وظایف تصمیم گیری متوالی استفاده کنید. این پیشرفت‌ها در زمینه‌های پیشرفته تا کنون مستلزم این بوده است به طور تصاعدی افزایش می یابد تعداد نمونه‌های محاسباتی و شبیه‌ساز، و بنابراین، اعمال بسیاری از این سیستم‌ها به‌طور مستقیم در مسائل دنیای واقعی که نمونه‌های محیطی گران هستند، دشوار است. یکی از راه های شناخته شده برای کاهش پیچیدگی نمونه محیط، استفاده از اولویت های انسانی و نمایش رفتار مورد نظر است.

رندر ارسالی رتبه اول از مسابقه MineRL 1 دریافت کلنگ آهنی.

برای تسریع بیشتر تحقیقات در این جهت، ما در حال سازماندهی مشترک هستیم مسابقه MineRL 2020 هدف آن تقویت توسعه الگوریتم‌هایی است که می‌توانند به طور موثر از نمایش‌های انسانی برای کاهش شدید تعداد نمونه‌های مورد نیاز برای حل محیط‌های پیچیده، سلسله مراتبی و پراکنده استفاده کنند. برای این منظور، شرکت کنندگان برای توسعه سیستم هایی که می توانند الماس را در آن به دست آورند، رقابت خواهند کرد های کنکوری از پیکسل های خام تنها با استفاده از 8,000,000 نمونه از شبیه ساز MineRL و 4 روز آموزش روی یک دستگاه GPU. به شرکت کنندگان مجموعه داده MineRL-v0 (سایت اینترنتی, مقاله)، مجموعه ای در مقیاس بزرگ از بیش از 60 میلیون فریم از نمایش های انسانی، که آنها را قادر می سازد از مسیرهای متخصص برای به حداقل رساندن تعامل الگوریتم خود با شبیه ساز Minecraft استفاده کنند.

این مسابقه در ادامه مسابقه MineRL 2019 که در آن نماینده تیم برتر قادر بود یک کلنگ آهنی بدست آورید (هدف ماقبل آخر مسابقه) تحت این بودجه بسیار محدود محاسباتی و شبیه ساز-تعامل. در چشم انداز، سیستم های یادگیری تقویتی پیشرفته به صدها میلیون تعامل محیطی در سیستم های چند GPU بزرگ برای رسیدن به همان هدف نیاز دارند. امسال، ما پیش‌بینی می‌کنیم که رقبای پیشرفته‌تر را حتی بیشتر از این پیش ببرند.

برای تضمین اینکه رقبا الگوریتم‌های واقعاً کارآمدی را توسعه می‌دهند، سازمان‌دهندگان مسابقه MineRL مدل‌های دور نهایی تیم برتر را از ابتدا با محدودیت‌های سخت‌افزاری، محاسباتی و تعامل شبیه‌ساز در دسترس آموزش می‌دهند. مسابقه MineRL 2020 همچنین دارای معیار جدیدی برای جلوگیری از ویژگی‌های مهندسی دست و تطبیق بیش از حد راه‌حل‌ها برای دامنه است. جزئیات بیشتر در مورد ساختار مسابقه را می توان یافت اینجا کلیک نمایید.

منبع: https://openai.com/blog/procgen-minerl-competitions/

تمبر زمان:

بیشتر از OpenAI

GPT-4

گره منبع: 2009180
تمبر زمان: مار 14، 2023