Procgen- ja MineRL-kilpailut

Julkaissut Platon

seuraajia: 0

Olemme iloisia voidessamme ilmoittaa, että OpenAI järjestää kaksi NeurIPS 2020 -kilpailua yhdessä AIjoukko, Carnegie Mellon Universityja Deepmind, Käyttäen Procgenin vertailuarvo ja MineRL. Luotamme vahvasti näihin ympäristöihin sisäisesti vahvistusoppimisen tutkimuksessa ja odotamme innolla yhteisön edistymistä näissä haastavissa kilpailuissa.

Procgen-kilpailu

Rekisteröidy Procgeniin

- Procgen-kilpailu keskittyy näytteiden tehokkuuden ja yleistämisen parantamiseen vahvistusoppimisessa. Osallistujat yrittävät maksimoida agenttien suorituskyvyn käyttämällä kiinteää määrää ympäristövaikutuksia. Agentit arvioidaan jokaisessa 16 ympäristöstä, jotka on jo julkisesti julkaistu Procgenin vertailuarvo, samoin kuin neljässä salaisessa testiympäristössä, jotka on luotu nimenomaan tätä kilpailua varten. Yhdistämällä suorituskyky niin moniin erilaisiin ympäristöihin saamme korkealaatuisia mittareita perustana olevien algoritmien arvioimiseksi. Lisätietoja kunkin kierroksen yksityiskohdista löytyy tätä.

Koska kaikki sisältö syntyy menettelyllisesti, kukin Procgen-ympäristö edellyttää luontaisesti agenttien yleistymistä ennennäkemättömiin tilanteisiin. Nämä ympäristöt tarjoavat siten vankan testin agentin kyvystä oppia monissa erilaisissa olosuhteissa. Lisäksi suunnittelemme Procgen-ympäristöjen nopeiksi ja helppokäyttöisiksi. Osallistujat, joilla on rajalliset laskennalliset resurssit, voivat helposti toistaa perustuloksemme ja suorittaa uusia kokeita. Toivomme, että tämä antaa osallistujille mahdollisuuden toistaa nopeasti uusia menetelmiä otoksen tehokkuuden ja yleistämisen parantamiseksi RL: ssä.

MineRL-kilpailu

Rekisteröidy MineRL: ään

Monet viimeaikaisista, juhlituista tekoälyn menestyksistä, kuten AlphaStar, AlphaGo ja oma OpenAI viisi, hyödyntävät syvää vahvistamisoppimista saavuttaakseen ihmisen tai ylikansallisen tason suorituskyvyn peräkkäisissä päätöksentekotehtävissä. Nämä parannukset uusimpaan tekniikkaan ovat toistaiseksi vaatineet kasvaa räjähdysmäisesti laskenta- ja simulaattorinäytteiden määrää, ja siksi on vaikea soveltaa monia näistä järjestelmistä suoraan reaalimaailman ongelmiin, joissa ympäristönäytteet ovat kalliita. Yksi tunnetuista tavoista vähentää ympäristönäytteen monimutkaisuutta on hyödyntää ihmisprioreja ja halutun käyttäytymisen esittelyä.

[Upotetun sisällön]

MineRL 1 -kilpailun 2019. sijalähetys renderöidään raudalla.

Edistääksemme tutkimusta edelleen tähän suuntaan järjestämme MineRL 2020 -kilpailu jonka tarkoituksena on edistää sellaisten algoritmien kehittämistä, jotka voivat tehokkaasti hyödyntää ihmisten mielenosoituksia vähentääkseen dramaattisesti monimutkaisten, hierarkkisten ja harvojen ympäristöjen ratkaisemiseen tarvittavien näytteiden määrää. Tätä varten osallistujat kilpailevat järjestelmien kehittämisestä, jotka voivat saada timantin vuonna Minecraft raakapikseleistä käyttäen vain 8,000,000 XNUMX XNUMX näytettä MineRL-simulaattori ja 4 päivän harjoittelu yhdellä GPU-koneella. Osallistujille toimitetaan MineRL-v0-tietojoukko (verkkosivusto, paperi), laajamittainen kokoelma yli 60 miljoonasta ihmiskehon kehyksestä, mikä antaa heille mahdollisuuden hyödyntää asiantuntijareittejä minimoidakseen algoritminsa vuorovaikutuksen Minecraft-simulaattorin kanssa.

Tämä kilpailu on jatkoa MineRL 2019 -kilpailu jossa huipputiimin edustaja pystyi saada rautahaukka (kilpailun viimeinen tavoite) tämän erittäin rajoitetun laskenta- ja simulaattori-vuorovaikutusbudjetin alla. Perspektiivisesti katsottuna huipputekniset vakiintuneet oppimisjärjestelmät vaativat satoja miljoonia ympäristövaikutuksia suurissa multi-GPU-järjestelmissä saman tavoitteen saavuttamiseksi. Tänä vuonna odotamme kilpailijoiden vievän huipputekniikkaa entisestään.

Sen varmistamiseksi, että kilpailijat kehittävät todella esimerkkitehokkaita algoritmeja, MineRL-kilpailujen järjestäjät kouluttavat huipputiimin viimeisen kierroksen mallit alusta alkaen tiukoilla rajoituksilla käytettävissä oleville laitteisto-, laskenta- ja simulaattoritoiminnoille. MineRL 2020 -kilpailussa on myös uusi toimenpide, jolla vältetään käsisuunnitteluominaisuudet ja ratkaisujen ylikuormittaminen verkkotunnukseen. Lisätietoja kilpailurakenteesta löytyy tätä.

Lähde: https://openai.com/blog/procgen-minerl-competitions/

Aikaleima: Kesäkuu 9, 2020