Procgen en MineRL wedstrijden

Bronknooppunt: 768080

We zijn verheugd om aan te kondigen dat OpenAI samen met NeurIPS 2020 wedstrijden organiseert ACrowd, Carnegie Mellon University en DeepMindgebruik Procgen-benchmark en MijnRL. We vertrouwen intern sterk op deze omgevingen voor onderzoek naar versterkend leren en we kijken uit naar de vooruitgang die de gemeenschap boekt in deze uitdagende competities.

Procgen-wedstrijd

Meld je aan voor Procgen

De Procgen-wedstrijd richt zich op het verbeteren van de efficiëntie en generalisatie van steekproeven bij het leren van versterking. Deelnemers zullen proberen de prestaties van agenten te maximaliseren door middel van een vast aantal omgevingsinteracties. Agenten worden geëvalueerd in elk van de 16 omgevingen die al openbaar zijn uitgebracht in Procgen-benchmark, evenals in vier geheime testomgevingen die speciaal voor deze wedstrijd zijn gemaakt. Door de prestaties in zoveel verschillende omgevingen samen te voegen, verkrijgen we hoogwaardige statistieken om de onderliggende algoritmen te beoordelen. Meer informatie over de details van elke ronde is te vinden hier.

Aangezien alle inhoud procedureel wordt gegenereerd, vereist elke Procgen-omgeving intrinsiek dat agenten generaliseren naar nooit eerder vertoonde situaties. Deze omgevingen bieden daarom een ​​robuuste test van het leervermogen van een agent in veel verschillende omgevingen. Bovendien hebben we Procgen-omgevingen ontworpen om snel en eenvoudig te gebruiken. Deelnemers met beperkte rekenkracht zullen onze basislijnresultaten gemakkelijk kunnen reproduceren en nieuwe experimenten kunnen uitvoeren. We hopen dat dit deelnemers in staat zal stellen om snel nieuwe methoden te gebruiken om de steekproefefficiëntie en generalisatie in RL te verbeteren.

MineRL Competitie

Meld je aan voor MineRL

Veel van de recente, gevierde successen van kunstmatige intelligentie, zoals AlphaStar, AlphaGo en de onze OpenAI Vijf, gebruik maken van diepgaande versterking om prestaties op menselijk of bovenmenselijk niveau te bereiken bij opeenvolgende besluitvormingstaken. Deze verbeteringen aan de state-of-the-art hebben tot nu toe een exponentieel toenemend hoeveelheid reken- en simulatiemonsters, en daarom is het moeilijk om veel van deze systemen rechtstreeks toe te passen op echte problemen waar omgevingsmonsters duur zijn. Een bekende manier om de complexiteit van monsters in de omgeving te verminderen, is door gebruik te maken van menselijke voorgangers en demonstraties van het gewenste gedrag.

Een weergave van de 1e plaats van de MineRL 2019-wedstrijd met een ijzeren houweel.

Om het onderzoek in deze richting verder te katalyseren, organiseren we de MineRL 2020-wedstrijd die tot doel heeft de ontwikkeling te bevorderen van algoritmen die menselijke demonstraties efficiënt kunnen gebruiken om het aantal monsters dat nodig is om complexe, hiërarchische en schaarse omgevingen op te lossen drastisch te verminderen. Daartoe zullen de deelnemers strijden om systemen te ontwikkelen waarmee een diamant kan worden verkregen Minecraft van onbewerkte pixels met slechts 8,000,000 samples van de MineRL-simulator en 4 dagen training op een enkele GPU-machine. Deelnemers ontvangen de MineRL-v0-dataset (van de, papier), een grootschalige verzameling van meer dan 60 miljoen frames van menselijke demonstraties, waardoor ze deskundige trajecten kunnen gebruiken om de interacties van hun algoritme met de Minecraft-simulator te minimaliseren.

Deze wedstrijd is een vervolg op de MineRL 2019-wedstrijd waarin de de agent van het topteam kon verkrijg een ijzeren houweel (het voorlaatste doel van de wedstrijd) onder dit uiterst beperkte reken- en simulator-interactiebudget. In perspectief geplaatst, vereisen state-of-the-art standaard versterkende leersystemen honderden miljoenen omgevingsinteracties op grote multi-GPU-systemen om hetzelfde doel te bereiken. Dit jaar verwachten we dat concurrenten de state-of-the-art nog verder zullen pushen.

Om te garanderen dat concurrenten echt monsterefficiënte algoritmen ontwikkelen, trainen de MineRL-wedstrijdorganisatoren de laatste ronde modellen van het topteam helemaal opnieuw met strikte beperkingen op de beschikbare hardware, rekenkracht en simulator-interactie. De MineRL 2020-wedstrijd bevat ook een nieuwe maatregel om handtechnische kenmerken en overmatige oplossingen voor het domein te vermijden. Meer details over de wedstrijdstructuur zijn te vinden hier.

Bron: https://openai.com/blog/procgen-minerl-competitions/

Tijdstempel:

Meer van OpenAI