Concours Procgen et MineRL

Nœud source: 768080

Nous sommes ravis d'annoncer qu'OpenAI co-organise deux concours NeurIPS 2020 avec Foule, Carnegie Mellon Universityet DeepMind, en utilisant Benchmark Procgen ainsi que MineRL. Nous nous appuyons fortement sur ces environnements en interne pour la recherche sur l’apprentissage par renforcement, et nous sommes impatients de voir les progrès réalisés par la communauté dans ces compétitions difficiles.

Concours Procgen

Inscrivez-vous à Procgen

La Concours Procgen se concentre sur l’amélioration de l’efficacité des échantillons et la généralisation dans l’apprentissage par renforcement. Les participants tenteront de maximiser les performances des agents en utilisant un nombre fixe d’interactions avec l’environnement. Les agents seront évalués dans chacun des 16 environnements déjà rendus publics dans Benchmark Procgen, ainsi que dans quatre environnements de test secrets créés spécifiquement pour ce concours. En regroupant les performances dans autant d’environnements divers, nous obtenons des métriques de haute qualité pour juger les algorithmes sous-jacents. Plus d’informations sur les détails de chaque tour peuvent être trouvées ici.

Étant donné que tout le contenu est généré de manière procédurale, chaque environnement Procgen nécessite intrinsèquement que les agents généralisent à des situations jamais vues auparavant. Ces environnements fournissent donc un test robuste de la capacité d’un agent à apprendre dans des contextes très divers. De plus, nous avons conçu les environnements Procgen pour qu'ils soient rapides et simples à utiliser. Les participants disposant de ressources informatiques limitées pourront facilement reproduire nos résultats de base et mener de nouvelles expériences. Nous espérons que cela permettra aux participants d'itérer rapidement sur de nouvelles méthodes pour améliorer l'efficacité des échantillons et la généralisation en RL.

Concours MineRL

Inscrivez-vous à MineRL

Bon nombre des succès récents et célèbres de l'intelligence artificielle, tels qu'AlphaStar, AlphaGo et le nôtre OpenAI Cinq, utilisent l'apprentissage par renforcement profond pour atteindre des performances de niveau humain ou surhumain dans des tâches de prise de décision séquentielles. Ces améliorations de l'état de la technique ont jusqu'à présent nécessité un augmentation exponentielle quantité d'échantillons de calcul et de simulation, et il est donc difficile d'appliquer bon nombre de ces systèmes directement à des problèmes du monde réel où les échantillons d'environnement sont coûteux. Un moyen bien connu de réduire la complexité de l’échantillon d’environnement consiste à exploiter les antécédents humains et les démonstrations du comportement souhaité.

Un rendu de la première place du concours MineRL 1 recevant une pioche en fer.

Pour catalyser davantage la recherche dans cette direction, nous co-organisons le Concours MineRL 2020 qui vise à favoriser le développement d'algorithmes capables d'exploiter efficacement les démonstrations humaines pour réduire considérablement le nombre d'échantillons nécessaires à la résolution d'environnements complexes, hiérarchiques et clairsemés. À cette fin, les participants s'affronteront pour développer des systèmes permettant d'obtenir un diamant en Minecraft à partir de pixels bruts en utilisant seulement 8,000,000 XNUMX XNUMX d'échantillons du Simulateur MineRL et 4 jours de formation sur une seule machine GPU. Les participants recevront l'ensemble de données MineRL-v0 (site , papier), une collection à grande échelle de plus de 60 millions d’images de démonstrations humaines, leur permettant d’utiliser des trajectoires expertes pour minimiser les interactions de leur algorithme avec le simulateur Minecraft.

Ce concours fait suite au Concours MineRL 2019 dans lequel le agent de la meilleure équipe a pu obtenir une pioche en fer (l'avant-dernier objectif du concours) avec ce budget de calcul et d'interaction avec simulateur extrêmement limité. Mis en perspective, les systèmes d’apprentissage par renforcement standards de pointe nécessitent des centaines de millions d’interactions environnementales sur de grands systèmes multi-GPU pour atteindre le même objectif. Cette année, nous prévoyons que les concurrents pousseront encore plus loin les avancées technologiques.

Pour garantir que les concurrents développent des algorithmes véritablement efficaces, les organisateurs du concours MineRL entraînent les modèles de la ronde finale de l'équipe la plus performante à partir de zéro, avec des contraintes strictes sur le matériel, le calcul et l'interaction avec le simulateur disponibles. Le concours MineRL 2020 propose également une nouvelle mesure visant à éviter les fonctionnalités d'ingénierie manuelle et les solutions sur-adaptées au domaine. Plus de détails sur la structure du concours peuvent être trouvés ici.

Source : https://openai.com/blog/procgen-minerl-competitions/

Horodatage:

Plus de OpenAI

GPT-4

Nœud source: 2009180
Horodatage: 14 Mar 2023