Конкурси Procgen і MineRL

Вихідний вузол: 768080

Ми раді повідомити, що OpenAI спільно з організаторами двох змагань NeurIPS 2020 AIcrowd, Університет Карнегі-Меллона та Deepmind, Використовуючи Тест Procgen та MineRL. Ми значною мірою покладаємося на ці внутрішні середовища для досліджень навчання з підкріпленням і з нетерпінням чекаємо прогресу спільноти в цих складних змаганнях.

Конкурс Procgen

Зареєструйтеся в Procgen

Команда Конкурс Procgen фокусується на покращенні ефективності вибірки та узагальнення в навчанні з підкріпленням. Учасники намагатимуться максимізувати продуктивність агентів, використовуючи фіксовану кількість взаємодій із середовищем. Агенти будуть оцінюватися в кожному з 16 середовищ, у яких уже відкрито доступ Тест Procgen, а також у чотирьох секретних тестових середовищах, створених спеціально для цього конкурсу. Агрегуючи продуктивність у багатьох різноманітних середовищах, ми отримуємо високоякісні показники для оцінки основних алгоритмів. Додаткову інформацію про деталі кожного раунду можна знайти тут.

Оскільки весь вміст генерується процедурно, кожне середовище Procgen за своєю суттю потребує від агентів узагальнення для ніколи раніше не бачених ситуацій. Таким чином, ці середовища забезпечують надійну перевірку здатності агента навчатися в багатьох різноманітних умовах. Крім того, ми розробили середовища Procgen, щоб бути швидкими та простими у використанні. Учасники з обмеженими обчислювальними ресурсами зможуть легко відтворити наші базові результати та запустити нові експерименти. Ми сподіваємося, що це дасть учасникам можливість швидко повторювати нові методи для підвищення ефективності вибірки та узагальнення в RL.

Конкурс MineRL

Зареєструйтеся в MineRL

Багато нещодавніх відзначених успіхів штучного інтелекту, як-от AlphaStar, AlphaGo та наш власний OpenAI п'ять, використовувати глибоке навчання з підкріпленням, щоб досягти людського або надлюдського рівня продуктивності в послідовних завданнях прийняття рішень. Ці удосконалення сучасного рівня техніки наразі вимагали експоненціально зростаючий кількість зразків обчислень і симуляторів, і тому важко застосувати багато з цих систем безпосередньо до проблем реального світу, де зразки середовища є дорогими. Одним із добре відомих способів зменшення складності вибірки середовища є використання попереднього досвіду людини та демонстрації бажаної поведінки.

Візуалізація заявки, яка посіла 1 місце на конкурсі MineRL 2019, отримавши залізну кирку.

Для подальшого каталізації досліджень у цьому напрямку ми спільно організовуємо Конкурс MineRL 2020 яка спрямована на сприяння розробці алгоритмів, які можуть ефективно використовувати людські демонстрації, щоб різко зменшити кількість зразків, необхідних для вирішення складних, ієрархічних і розріджених середовищ. З цією метою учасники будуть змагатися за розробку систем, які можуть отримати діамант Minecraft із необроблених пікселів, використовуючи лише 8,000,000 XNUMX XNUMX зразків із Симулятор MineRL і 4 дні навчання на одній машині GPU. Учасникам буде надано набір даних MineRL-v0 (сайт, папір), великомасштабна колекція з понад 60 мільйонів кадрів людських демонстрацій, що дозволяє їм використовувати експертні траєкторії, щоб мінімізувати взаємодію їхнього алгоритму з симулятором Minecraft.

Цей конкурс є продовженням Конкурс MineRL 2019 в якій агент топ команди зміг отримати залізну кирку (передостання мета змагання) за цього надзвичайно обмеженого бюджету на обчислення та взаємодію із симулятором. У перспективі найсучасніші стандартні системи навчання з підкріпленням потребують сотень мільйонів взаємодій із середовищем у великих системах із кількома GPU для досягнення тієї самої мети. Цього року ми очікуємо, що конкуренти просуватимуть новітні технології ще далі.

Щоб гарантувати, що учасники розроблятимуть справді зразкові ефективні алгоритми, організатори конкурсу MineRL тренують моделі фінального раунду найкращої команди з нуля із суворими обмеженнями на доступне апаратне забезпечення, обчислення та взаємодію із симулятором. У конкурсі MineRL 2020 також представлено новий захід, щоб уникнути ручного проектування та надмірного оснащення рішень для домену. Детальніше про структуру конкурсу можна дізнатися тут.

Джерело: https://openai.com/blog/procgen-minerl-competitions/

Часова мітка:

Більше від OpenAI

Jukebox

Вихідний вузол: 747766
Часова мітка: Квітень 30, 2020