Procgen og MineRL-konkurranser

Kilde node: 768080

Vi er glade for å kunngjøre at OpenAI er medarrangør av to NeurIPS 2020-konkurranser med AIcrowd, Carnegie Mellon Universityog DeepMind, Ved hjelp Procgen-målestokk og MineRL. Vi stoler sterkt på disse miljøene internt for forskning på forsterkende læring, og vi ser frem til å se fremgangen samfunnet gjør i disse utfordrende konkurransene.

Procgen-konkurranse

Registrer deg for Procgen

De Procgen-konkurranse fokuserer på å forbedre prøveeffektivitet og generalisering i forsterkende læring. Deltakerne vil forsøke å maksimere agenters ytelse ved å bruke et fast antall miljøinteraksjoner. Agenter vil bli evaluert i hvert av de 16 miljøene som allerede er offentlig utgitt i Procgen-målestokk, samt i fire hemmelige testmiljøer laget spesielt for denne konkurransen. Ved å samle ytelse på tvers av så mange forskjellige miljøer, oppnår vi høykvalitetsmålinger for å bedømme de underliggende algoritmene. Mer informasjon om detaljene for hver runde finner du her..

Siden alt innhold genereres prosedyremessig, krever hvert Procgen-miljø at agenter generaliserer til aldri før sett situasjoner. Disse miljøene gir derfor en robust test av en agents evne til å lære i mange forskjellige miljøer. Dessuten designet vi Procgen-miljøer for å være raske og enkle å bruke. Deltakere med begrensede beregningsressurser vil enkelt kunne reprodusere våre grunnlinjeresultater og kjøre nye eksperimenter. Vi håper at dette vil gi deltakerne mulighet til å iterere raskt på nye metoder for å forbedre prøveeffektiviteten og generaliseringen i RL.

MineRL-konkurranse

Registrer deg for MineRL

Mange av de nylige, feirede suksessene med kunstig intelligens, som AlphaStar, AlphaGo og vår egen OpenAI Five, bruke dyp forsterkende læring for å oppnå ytelse på menneskelig eller overmenneskelig nivå i sekvensielle beslutningsoppgaver. Disse forbedringene av det siste har så langt krevd en eksponentielt økende mengde beregnings- og simulatorprøver, og derfor er det vanskelig å bruke mange av disse systemene direkte på virkelige problemer der miljøprøver er dyre. En velkjent måte å redusere miljøprøvens kompleksitet er å utnytte menneskelige forutsetninger og demonstrasjoner av ønsket oppførsel.

En gjengivelse av 1. plass-innleveringen fra MineRL 2019-konkurransen som får en jernhakke.

For å ytterligere katalysere forskning i denne retningen, er vi medorganiserer MineRL 2020-konkurranse som tar sikte på å fremme utviklingen av algoritmer som effektivt kan utnytte menneskelige demonstrasjoner for å drastisk redusere antall prøver som trengs for å løse komplekse, hierarkiske og sparsomme miljøer. For det formål vil deltakerne konkurrere om å utvikle systemer som kan få en diamant inn Minecraft fra råpiksler ved å bruke bare 8,000,000 XNUMX XNUMX prøver fra MineRL simulator og 4 dager med trening på én enkelt GPU-maskin. Deltakerne vil få utlevert MineRL-v0-datasettet (nettsted, papir), en storstilt samling av over 60 millioner rammer med menneskelige demonstrasjoner, som gjør dem i stand til å bruke ekspertbaner for å minimere algoritmens interaksjoner med Minecraft-simulatoren.

Denne konkurransen er en oppfølging av MineRL 2019-konkurranse der topplagets agent kunne få tak i jern (konkurransens nest siste mål) under dette ekstremt begrensede beregnings- og simulator-interaksjonsbudsjettet. Sett i perspektiv krever state-of-the-art standard forsterkende læringssystemer hundrevis av millioner av miljøinteraksjoner på store multi-GPU-systemer for å oppnå det samme målet. I år regner vi med at konkurrenter vil presse det nyeste enda lenger.

For å garantere at konkurrenter utvikler virkelig sample-effektive algoritmer, trener MineRL-konkurransearrangørene topplagets siste rundemodeller fra bunnen av med strenge begrensninger på tilgjengelig maskinvare, databehandling og simulator-interaksjon. MineRL 2020-konkurransen har også et nytt tiltak for å unngå håndtekniske funksjoner og overtilpassede løsninger til domenet. Flere detaljer om konkurransestrukturen finner du her..

Kilde: https://openai.com/blog/procgen-minerl-competitions/

Tidstempel:

Mer fra OpenAI