Procgen og MineRL-konkurrencer

Kildeknude: 768080

Vi er glade for at kunne meddele, at OpenAI er med til at arrangere to NeurIPS 2020-konkurrencer med AIcrowd, Carnegie Mellon Universityog DeepMind, ved brug af Procgen benchmark , MineRL. Vi er stærkt afhængige af disse miljøer internt for forskning i forstærkende læring, og vi ser frem til at se de fremskridt, fællesskabet gør i disse udfordrende konkurrencer.

Procgen konkurrence

Tilmeld dig Procgen

Procgen konkurrence fokuserer på at forbedre stikprøveeffektivitet og generalisering i forstærkningslæring. Deltagerne vil forsøge at maksimere agenternes ydeevne ved hjælp af et fast antal miljøinteraktioner. Agenter vil blive evalueret i hvert af de 16 miljøer, der allerede er offentligt udgivet i Procgen benchmark, samt i fire hemmelige testmiljøer skabt specielt til denne konkurrence. Ved at aggregere ydeevne på tværs af så mange forskellige miljøer opnår vi højkvalitetsmålinger til at bedømme de underliggende algoritmer. Mere information om detaljerne for hver runde kan findes link..

Da alt indhold er proceduremæssigt genereret, kræver hvert Procgen-miljø i sig selv, at agenter generaliserer til aldrig før sete situationer. Disse miljøer giver derfor en robust test af en agents evne til at lære i mange forskellige miljøer. Desuden har vi designet Procgen-miljøer til at være hurtige og nemme at bruge. Deltagere med begrænsede beregningsressourcer vil nemt kunne reproducere vores baseline-resultater og køre nye eksperimenter. Vi håber, at dette vil give deltagerne mulighed for hurtigt at gentage nye metoder til at forbedre prøveeffektiviteten og generaliseringen i RL.

MineRL Konkurrence

Tilmeld dig MineRL

Mange af de seneste, fejrede succeser med kunstig intelligens, såsom AlphaStar, AlphaGo og vores egen OpenAI Five, udnytte dyb forstærkende læring til at opnå præstationer på menneskeligt eller overmenneskeligt niveau i sekventielle beslutningstagningsopgaver. Disse forbedringer af det avancerede har hidtil krævet en eksponentielt stigende mængden af ​​computer- og simulatorprøver, og derfor er det svært at anvende mange af disse systemer direkte på problemer i den virkelige verden, hvor miljøprøver er dyre. En velkendt måde at reducere miljøprøvens kompleksitet er at udnytte menneskelige forudsætninger og demonstrationer af den ønskede adfærd.

En gengivelse af indsendelsen af ​​1. pladsen fra MineRL 2019-konkurrencen, der får en jernhakke.

For yderligere at katalysere forskning i denne retning, er vi med til at organisere MineRL 2020-konkurrence som har til formål at fremme udviklingen af ​​algoritmer, som effektivt kan udnytte menneskelige demonstrationer til drastisk at reducere antallet af prøver, der er nødvendige for at løse komplekse, hierarkiske og sparsomme miljøer. Til det formål vil deltagerne konkurrere om at udvikle systemer, som kan få en diamant ind Minecraft fra rå pixels ved kun at bruge 8,000,000 samples fra MineRL simulator og 4 dages træning på en enkelt GPU-maskine. Deltagerne vil få udleveret MineRL-v0-datasættet (hjemmeside, papir), en storstilet samling af over 60 millioner billeder af menneskelige demonstrationer, der gør dem i stand til at bruge ekspertbaner til at minimere deres algoritmes interaktioner med Minecraft-simulatoren.

Denne konkurrence er en opfølgning på MineRL 2019-konkurrence hvori topholdets agent var i stand til få en jernhakke (konkurrencens næstsidste mål) under dette ekstremt begrænsede beregnings- og simulator-interaktionsbudget. Set i perspektiv kræver avancerede standardforstærkningslæringssystemer hundredvis af millioner af miljøinteraktioner på store multi-GPU-systemer for at nå det samme mål. I år forventer vi, at konkurrenterne vil skubbe det nyeste endnu længere.

For at garantere, at konkurrenterne udvikler virkelig sample-effektive algoritmer, træner MineRL-konkurrencearrangørerne topholdets sidste runde-modeller fra bunden med strenge begrænsninger på den tilgængelige hardware, computer og simulator-interaktion. MineRL 2020-konkurrencen indeholder også en ny foranstaltning for at undgå håndtekniske funktioner og overtilpasningsløsninger til domænet. Flere detaljer om konkurrencestrukturen kan findes link..

Kilde: https://openai.com/blog/procgen-minerl-competitions/

Tidsstempel:

Mere fra OpenAI

GPT-4

Kildeknude: 2009180
Tidsstempel: Mar 14, 2023