Vi er glade for å kunngjøre at OpenAI er medarrangør av to NeurIPS 2020-konkurranser med AIcrowd, Carnegie Mellon Universityog DeepMind, Ved hjelp Procgen-målestokk og MineRL. Vi stoler sterkt på disse miljøene internt for forskning på forsterkende læring, og vi ser frem til å se fremgangen samfunnet gjør i disse utfordrende konkurransene.
Procgen-konkurranse
De Procgen-konkurranse fokuserer på å forbedre prøveeffektivitet og generalisering i forsterkende læring. Deltakerne vil forsøke å maksimere agenters ytelse ved å bruke et fast antall miljøinteraksjoner. Agenter vil bli evaluert i hvert av de 16 miljøene som allerede er offentlig utgitt i Procgen-målestokk, samt i fire hemmelige testmiljøer laget spesielt for denne konkurransen. Ved å samle ytelse på tvers av så mange forskjellige miljøer, oppnår vi høykvalitetsmålinger for å bedømme de underliggende algoritmene. Mer informasjon om detaljene for hver runde finner du her..
Siden alt innhold genereres prosedyremessig, krever hvert Procgen-miljø at agenter generaliserer til aldri før sett situasjoner. Disse miljøene gir derfor en robust test av en agents evne til å lære i mange forskjellige miljøer. Dessuten designet vi Procgen-miljøer for å være raske og enkle å bruke. Deltakere med begrensede beregningsressurser vil enkelt kunne reprodusere våre grunnlinjeresultater og kjøre nye eksperimenter. Vi håper at dette vil gi deltakerne mulighet til å iterere raskt på nye metoder for å forbedre prøveeffektiviteten og generaliseringen i RL.
MineRL-konkurranse
Mange av de nylige, feirede suksessene med kunstig intelligens, som AlphaStar, AlphaGo og vår egen OpenAI Five, bruke dyp forsterkende læring for å oppnå ytelse på menneskelig eller overmenneskelig nivå i sekvensielle beslutningsoppgaver. Disse forbedringene av det siste har så langt krevd en eksponentielt økende mengde beregnings- og simulatorprøver, og derfor er det vanskelig å bruke mange av disse systemene direkte på virkelige problemer der miljøprøver er dyre. En velkjent måte å redusere miljøprøvens kompleksitet er å utnytte menneskelige forutsetninger og demonstrasjoner av ønsket oppførsel.
En gjengivelse av 1. plass-innleveringen fra MineRL 2019-konkurransen som får en jernhakke.
For å ytterligere katalysere forskning i denne retningen, er vi medorganiserer MineRL 2020-konkurranse som tar sikte på å fremme utviklingen av algoritmer som effektivt kan utnytte menneskelige demonstrasjoner for å drastisk redusere antall prøver som trengs for å løse komplekse, hierarkiske og sparsomme miljøer. For det formål vil deltakerne konkurrere om å utvikle systemer som kan få en diamant inn Minecraft fra råpiksler ved å bruke bare 8,000,000 XNUMX XNUMX prøver fra MineRL simulator og 4 dager med trening på én enkelt GPU-maskin. Deltakerne vil få utlevert MineRL-v0-datasettet (nettsted, papir), en storstilt samling av over 60 millioner rammer med menneskelige demonstrasjoner, som gjør dem i stand til å bruke ekspertbaner for å minimere algoritmens interaksjoner med Minecraft-simulatoren.
Denne konkurransen er en oppfølging av MineRL 2019-konkurranse der topplagets agent kunne få tak i jern (konkurransens nest siste mål) under dette ekstremt begrensede beregnings- og simulator-interaksjonsbudsjettet. Sett i perspektiv krever state-of-the-art standard forsterkende læringssystemer hundrevis av millioner av miljøinteraksjoner på store multi-GPU-systemer for å oppnå det samme målet. I år regner vi med at konkurrenter vil presse det nyeste enda lenger.
For å garantere at konkurrenter utvikler virkelig sample-effektive algoritmer, trener MineRL-konkurransearrangørene topplagets siste rundemodeller fra bunnen av med strenge begrensninger på tilgjengelig maskinvare, databehandling og simulator-interaksjon. MineRL 2020-konkurransen har også et nytt tiltak for å unngå håndtekniske funksjoner og overtilpassede løsninger til domenet. Flere detaljer om konkurransestrukturen finner du her..
- agenter
- algoritmer
- kunstig intelligens
- Baseline
- CMU
- samfunnet
- konkurranse
- Konkurranser
- konkurrenter
- Beregn
- innhold
- utvikle
- Utvikling
- effektivitet
- bemyndige
- Ingeniørarbeid
- Miljø
- FAST
- Egenskaper
- Forward
- GPU
- maskinvare
- Høy
- HTTPS
- Hundrevis
- informasjon
- Intelligens
- IT
- stor
- LÆRE
- læring
- Nivå
- Leverage
- Begrenset
- måle
- Metrics
- millioner
- Minecraft
- NeurIPS
- OpenAI
- ytelse
- perspektiv
- kvalitet
- Raw
- redusere
- forsterkning læring
- forskning
- Ressurser
- Resultater
- Kjør
- Enkelt
- simulator
- So
- Solutions
- LØSE
- Systemer
- test
- topp
- Kurs
- år
- youtube