Competiciones de Procgen y MineRL

Reeditado por Platón

seguidores: 0

Nos complace anunciar que OpenAI está coorganizando dos competencias NeurIPS 2020 con multitud, Carnegie Mellon Universityy Mente profunda, utilizando Benchmark de Procgen y MineRL. Dependemos en gran medida de estos entornos internamente para la investigación sobre el aprendizaje por refuerzo, y esperamos ver el progreso que hace la comunidad en estas desafiantes competencias.

Competencia Procgen

Regístrese en Procgen

El Competencia Procgen se centra en mejorar la eficiencia de la muestra y la generalización en el aprendizaje por refuerzo. Los participantes intentarán maximizar el desempeño de los agentes utilizando un número fijo de interacciones ambientales. Los agentes serán evaluados en cada uno de los 16 entornos ya publicados públicamente en Benchmark de Procgen, así como en cuatro entornos de prueba secretos creados específicamente para esta competencia. Al agregar el rendimiento en tantos entornos diversos, obtenemos métricas de alta calidad para juzgar los algoritmos subyacentes. Se puede encontrar más información sobre los detalles de cada ronda. esta página.

Dado que todo el contenido se genera mediante procedimientos, cada entorno de Procgen requiere intrínsecamente que los agentes se generalicen a situaciones nunca antes vistas. Por lo tanto, estos entornos proporcionan una prueba sólida de la capacidad de un agente para aprender en muchos entornos diversos. Además, diseñamos entornos Procgen para que sean rápidos y fáciles de usar. Los participantes con recursos computacionales limitados podrán reproducir fácilmente nuestros resultados de referencia y ejecutar nuevos experimentos. Esperamos que esto ayude a los participantes a iterar rápidamente sobre nuevos métodos para mejorar la eficiencia de la muestra y la generalización en RL.

Competencia MineRL

Regístrese en MineRL

Muchos de los éxitos recientes y celebrados de la inteligencia artificial, como AlphaStar, AlphaGo y el nuestro OpenAI cinco, utilizan el aprendizaje por refuerzo profundo para lograr un desempeño a nivel humano o sobrehumano en tareas secuenciales de toma de decisiones. Hasta ahora, estas mejoras del estado de la técnica han requerido una aumentando exponencialmente cantidad de muestras de cómputo y simulador y, por lo tanto, es difícil aplicar muchos de estos sistemas directamente a problemas del mundo real donde las muestras de entorno son caras. Una forma bien conocida de reducir la complejidad de la muestra del entorno es aprovechar los antecedentes humanos y las demostraciones del comportamiento deseado.

[Contenido incrustado]

Una representación de la presentación del primer lugar de la competencia MineRL 1 obteniendo un pico de hierro.

Para catalizar aún más la investigación en esta dirección, estamos coorganizando Concurso MineRL 2020 cuyo objetivo es fomentar el desarrollo de algoritmos que puedan aprovechar de manera eficiente las demostraciones humanas para reducir drásticamente la cantidad de muestras necesarias para resolver entornos complejos, jerárquicos y dispersos. Con ese fin, los participantes competirán para desarrollar sistemas que puedan obtener un diamante en Minecraft a partir de píxeles sin procesar utilizando solo 8,000,000 de muestras del Simulador MineRL y 4 días de formación en una sola máquina GPU. A los participantes se les proporcionará el conjunto de datos MineRL-v0 (página web, ), una colección a gran escala de más de 60 millones de fotogramas de demostraciones humanas, lo que les permite utilizar trayectorias de expertos para minimizar las interacciones de su algoritmo con el simulador de Minecraft.

Este concurso es una continuación del Concurso MineRL 2019 en el que la agente del equipo superior fue capaz de obtener un pico de hierro (el penúltimo objetivo de la competencia) bajo este presupuesto extremadamente limitado de cómputo y simulador-interacción. En perspectiva, los sistemas de aprendizaje por refuerzo estándar de última generación requieren cientos de millones de interacciones ambientales en grandes sistemas de múltiples GPU para lograr el mismo objetivo. Este año, anticipamos que los competidores impulsarán aún más el estado de la técnica.

Para garantizar que los competidores desarrollen algoritmos verdaderamente eficientes de muestra, los organizadores de la competencia MineRL entrenan los modelos de la ronda final del equipo superior desde cero con restricciones estrictas en el hardware, la computación y la interacción del simulador disponible. La Competencia MineRL 2020 también presenta una medida novedosa para evitar características de ingeniería manual y soluciones de sobreajuste al dominio. Se pueden encontrar más detalles sobre la estructura de la competencia. esta página.

Fuente: https://openai.com/blog/procgen-minerl-competitions/

Sello de tiempo: Sábado, Junio 9, 2020