Zawody Procgen i MineRL

Węzeł źródłowy: 768080

Z przyjemnością informujemy, że OpenAI jest współorganizatorem dwóch konkursów NeurIPS 2020 tłum, Carnegie Mellon University, DeepMindZa pomocą Test Procgen i MinerRL. Wewnętrznie w dużym stopniu polegamy na tych środowiskach w badaniach nad uczeniem się przez wzmacnianie i nie możemy się doczekać postępu, jaki społeczność poczyni w tych trudnych konkursach.

Konkurs Procgen

Zarejestruj się w Procgen

Połączenia Konkurs Procgen koncentruje się na poprawie wydajności próbki i uogólnieniu uczenia się przez wzmacnianie. Uczestnicy będą próbować zmaksymalizować wydajność agentów przy użyciu ustalonej liczby interakcji ze środowiskiem. Agenci będą oceniani w każdym z 16 środowisk, które zostały już publicznie udostępnione w Test Procgen, a także w czterech tajnych środowiskach testowych stworzonych specjalnie na potrzeby tego konkursu. Agregując wydajność w tak wielu różnych środowiskach, uzyskujemy wysokiej jakości metryki do oceny podstawowych algorytmów. Więcej informacji o szczegółach każdej rundy można znaleźć tutaj.

Ponieważ cała treść jest generowana proceduralnie, każde środowisko Procgen z natury wymaga od agentów uogólnienia na sytuacje, których nigdy wcześniej nie widziano. Środowiska te zapewniają zatem solidny test zdolności agenta do uczenia się w wielu różnych sytuacjach. Ponadto zaprojektowaliśmy środowiska Procgen tak, aby były szybkie i proste w użyciu. Uczestnicy z ograniczonymi zasobami obliczeniowymi będą mogli łatwo odtworzyć nasze wyniki wyjściowe i przeprowadzić nowe eksperymenty. Mamy nadzieję, że umożliwi to uczestnikom szybką iterację nowych metod w celu poprawy wydajności próbki i uogólnienia w RL.

Konkurs MinerRL

Zarejestruj się w MineRL

Wiele z ostatnich, słynnych sukcesów sztucznej inteligencji, takich jak AlphaStar, AlphaGo i nasza własna OpenAI Pięć, wykorzystują głębokie uczenie się przez wzmacnianie, aby osiągnąć wydajność na poziomie ludzkim lub nadludzkim w sekwencyjnych zadaniach związanych z podejmowaniem decyzji. Te ulepszenia w stosunku do stanu techniki wymagały dotychczas wykładniczo rośnie ilość próbek obliczeniowych i symulacyjnych, dlatego trudno jest zastosować wiele z tych systemów bezpośrednio do rzeczywistych problemów, w których próbki środowiskowe są drogie. Jednym z dobrze znanych sposobów na zmniejszenie złożoności próbek środowiska jest wykorzystanie ludzkich uprzedzeń i demonstracji pożądanego zachowania.

Renderowanie zgłoszenia za 1 miejsce z zawodów MineRL 2019 z żelaznym kilofem.

Aby dalej katalizować badania w tym kierunku, współorganizujemy Konkurs MineRL 2020 który ma na celu wspieranie rozwoju algorytmów, które mogą efektywnie wykorzystać ludzkie demonstracje do drastycznego zmniejszenia liczby próbek potrzebnych do rozwiązania złożonych, hierarchicznych i rzadkich środowisk. W tym celu uczestnicy będą konkurować o opracowanie systemów, które mogą uzyskać diament Minecraft z surowych pikseli przy użyciu tylko 8,000,000 XNUMX XNUMX próbek z Symulator MineRL oraz 4 dni szkolenia na jednej maszynie GPU. Uczestnicy otrzymają zbiór danych MineRL-v0 ( , papier), zbiór ponad 60 milionów klatek ludzkich demonstracji na dużą skalę, umożliwiający im wykorzystanie trajektorii ekspertów w celu zminimalizowania interakcji ich algorytmu z symulatorem Minecraft.

Ten konkurs jest kontynuacją Konkurs MineRL 2019 w którym agent czołowego zespołu mogła zdobądź żelazny kilof (przedostatni cel konkursu) w ramach tego niezwykle ograniczonego budżetu na obliczenia i interakcje z symulatorem. Patrząc z perspektywy, najnowocześniejsze standardowe systemy uczenia się ze wzmocnieniem wymagają setek milionów interakcji środowiskowych w dużych systemach z wieloma GPU, aby osiągnąć ten sam cel. W tym roku spodziewamy się, że konkurenci jeszcze bardziej posuną się naprzód.

Aby zagwarantować, że konkurenci opracują prawdziwie przykładowe wydajne algorytmy, organizatorzy zawodów MineRL szkolą od podstaw modele finałowej rundy najlepszych zespołów ze ścisłymi ograniczeniami dotyczącymi sprzętu, obliczeń i interakcji z symulatorem. Konkurs MineRL 2020 zawiera również nowatorski środek mający na celu uniknięcie funkcji inżynierii ręcznej i nadmiernego dopasowania rozwiązań w tej dziedzinie. Więcej szczegółów na temat struktury konkursu można znaleźć tutaj.

Źródło: https://openai.com/blog/procgen-minerl-competitions/

Znak czasu:

Więcej z OpenAI