Procgen och MineRL-tävlingar

Källnod: 768080

Vi är glada att meddela att OpenAI är medarrangör av två NeurIPS 2020-tävlingar med AIcrowd, Carnegie Mellon Universityoch Deepmind, Med användning av Procgen riktmärke och MineRL. Vi förlitar oss starkt på dessa miljöer internt för forskning om förstärkningsinlärning, och vi ser fram emot att se de framsteg som samhället gör i dessa utmanande tävlingar.

Procgen Competition

Registrera dig för Procgen

Smakämnen Procgen Competition fokuserar på att förbättra urvalets effektivitet och generalisering i förstärkningsinlärning. Deltagarna kommer att försöka maximera agenternas prestanda genom att använda ett fast antal miljöinteraktioner. Agenter kommer att utvärderas i var och en av de 16 miljöer som redan har släppts offentligt i Procgen riktmärke, samt i fyra hemliga testmiljöer skapade speciellt för denna tävling. Genom att aggregera prestanda över så många olika miljöer får vi högkvalitativa mätvärden för att bedöma de underliggande algoritmerna. Mer information om detaljerna för varje omgång kan hittas här..

Eftersom allt innehåll genereras procedurmässigt, kräver varje Procgen-miljö att agenter generaliserar till aldrig tidigare sett situationer. Dessa miljöer ger därför ett robust test av en agents förmåga att lära sig i många olika miljöer. Dessutom designade vi Procgen-miljöer för att vara snabba och enkla att använda. Deltagare med begränsade beräkningsresurser kommer enkelt att kunna reproducera våra baslinjeresultat och köra nya experiment. Vi hoppas att detta kommer att ge deltagarna möjlighet att snabbt iterera på nya metoder för att förbättra provets effektivitet och generalisering i RL.

MineRL-tävling

Registrera dig för MineRL

Många av de senaste, hyllade framgångarna med artificiell intelligens, som AlphaStar, AlphaGo och vår egen OpenAI Five, utnyttja djup förstärkningsinlärning för att uppnå prestation på mänsklig eller övermänsklig nivå i sekventiella beslutsfattande uppgifter. Dessa förbättringar av den senaste tekniken har hittills krävt en exponentiellt ökar mängden beräknings- och simulatorprover, och därför är det svårt att tillämpa många av dessa system direkt på verkliga problem där miljöprover är dyra. Ett välkänt sätt att minska miljöprovets komplexitet är att utnyttja mänskliga prioriteringar och demonstrationer av det önskade beteendet.

En återgivning av 1:a platsinlämningen från MineRL 2019-tävlingen som får en järnhacka.

För att ytterligare katalysera forskning i denna riktning samarrangerar vi MineRL 2020-tävling som syftar till att främja utvecklingen av algoritmer som effektivt kan utnyttja mänskliga demonstrationer för att drastiskt minska antalet prover som behövs för att lösa komplexa, hierarkiska och glesa miljöer. För det ändamålet kommer deltagarna att tävla om att utveckla system som kan få en diamant in Minecraft från råpixlar med endast 8,000,000 XNUMX XNUMX sampel från MineRL simulator och 4 dagars träning på en enda GPU-maskin. Deltagarna kommer att få MineRL-v0-datauppsättningen (webbplats, papper), en storskalig samling av över 60 miljoner bildrutor av mänskliga demonstrationer, vilket gör det möjligt för dem att använda expertbanor för att minimera sin algoritms interaktioner med Minecraft-simulatorn.

Denna tävling är en uppföljning av MineRL 2019-tävling i vilken topplagets agent kunde skaffa en järnhacka (tävlingens näst sista mål) under denna extremt begränsade budget för beräkning och simulator-interaktion. Sett i perspektiv kräver toppmoderna standardinlärningssystem för förstärkning hundratals miljoner miljöinteraktioner på stora multi-GPU-system för att uppnå samma mål. I år förväntar vi oss att konkurrenterna kommer att driva det senaste ännu längre.

För att garantera att tävlande utvecklar verkligt effektiva algoritmer, tränar MineRL-tävlingsarrangörerna topplagets modeller för sista omgången från grunden med strikta begränsningar för tillgänglig hårdvara, dator och simulatorinteraktion. MineRL 2020-tävlingen har också en ny åtgärd för att undvika handtekniska funktioner och överanpassade lösningar på domänen. Mer information om tävlingsstrukturen finns här..

Källa: https://openai.com/blog/procgen-minerl-competitions/

Tidsstämpel:

Mer från OpenAI