Конкурсы Procgen и MineRL

Исходный узел: 768080

Мы рады объявить, что OpenAI совместно организует два конкурса NeurIPS 2020 с AIcrowd, Университет Карнеги-Меллонакачества DeepMind, С помощью Тест Procgen и Минерл, Мы в значительной степени полагаемся на эти среды внутри страны для проведения исследований по обучению с подкреплением, и мы с нетерпением ждем прогресса, достигнутого сообществом в этих сложных соревнованиях.

Конкурс Procgen

Подпишитесь на Procgen

Ассоциация Конкурс Procgen фокусируется на повышении эффективности выборки и обобщении в обучении с подкреплением. Участники будут пытаться максимизировать производительность агентов, используя фиксированное количество взаимодействий со средой. Агенты будут оцениваться в каждой из 16 сред, уже опубликованных в Тест Procgen, а также в четырех секретных тестовых средах, созданных специально для этого конкурса. Агрегируя производительность во многих различных средах, мы получаем высококачественные метрики для оценки лежащих в основе алгоритмов. Более подробную информацию о деталях каждого раунда можно найти здесь.

Поскольку весь контент генерируется процедурно, каждая среда Procgen по своей сути требует, чтобы агенты обобщались на невиданные ранее ситуации. Таким образом, эти среды обеспечивают надежную проверку способности агента обучаться в самых разных условиях. Более того, мы разработали среды Procgen, чтобы они были быстрыми и простыми в использовании. Участники с ограниченными вычислительными ресурсами смогут легко воспроизвести наши базовые результаты и провести новые эксперименты. Мы надеемся, что это даст участникам возможность быстро перебирать новые методы для повышения эффективности выборки и обобщения в RL.

Конкурс MineRL

Зарегистрируйтесь в MineRL

Многие из недавних, знаменитых успехов искусственного интеллекта, таких как AlphaStar, AlphaGo и наши собственные OpenAI Пятьиспользовать глубокое подкрепление обучения для достижения человеческого или сверхчеловеческого уровня производительности в последовательных задачах принятия решений Эти усовершенствования уровня техники до сих пор требовали экспоненциально возрастающий количество вычислительных и имитирующих выборок, и поэтому трудно применить многие из этих систем непосредственно к реальным задачам, когда выборки из среды дороги. Один из хорошо известных способов уменьшить сложность образца среды - использовать человеческие приоритеты и демонстрации желаемого поведения.

Предоставление 1-го места от конкурса MineRL 2019 с получением железной кирки.

Для дальнейшей активизации исследований в этом направлении мы совместно организуем Конкурс MineRL 2020 которая направлена ​​на содействие разработке алгоритмов, которые могут эффективно использовать демонстрации на людях для значительного сокращения количества выборок, необходимых для решения сложных, иерархических и разреженных сред. С этой целью участники будут соревноваться в разработке систем, которые могут получить алмаз в Minecraft из необработанных пикселей, используя только 8,000,000 XNUMX XNUMX образцов из Симулятор MineRL и 4 дня тренировок на одном компьютере с графическим процессором. Участникам будет предоставлен набор данных MineRL-v0 (веб-сайт, бумаги), крупномасштабная коллекция из более чем 60 миллионов кадров человеческих демонстраций, что позволяет им использовать экспертные траектории, чтобы минимизировать взаимодействие своего алгоритма с симулятором Minecraft.

Этот конкурс является продолжением Конкурс MineRL 2019 в котором агент топ-команды был способен получить железную кирку (предпоследняя цель соревнования) в рамках этого крайне ограниченного бюджета вычислений и взаимодействия симуляторов. В перспективе, современные стандартные системы обучения усилению требуют сотен миллионов взаимодействий среды в больших системах с несколькими графическими процессорами для достижения той же цели. В этом году мы ожидаем, что конкуренты будут продвигать современное состояние еще дальше.

Чтобы гарантировать, что конкуренты разрабатывают по-настоящему эффективные алгоритмы, организаторы соревнований MineRL с нуля обучают модели финального раунда топ-команды со строгими ограничениями на доступность взаимодействия с оборудованием, вычислениями и симуляторами. В конкурсе MineRL 2020 также предусмотрены новые меры, позволяющие избежать ручного инжиниринга и переоснащения решений в данной области. Более подробную информацию о структуре конкурса можно найти здесь.

Источник: https://openai.com/blog/procgen-minerl-competitions/

Отметка времени:

Больше от OpenAI