Uczenie się ze wzmocnieniem z nienadzorowanymi zadaniami pomocniczymi

Węzeł źródłowy: 800709

Połączenie tych zadań pomocniczych wraz z naszymi poprzednimi Papier A3C jest naszym nowym agentem UNREAL (nienadzorowane wsparcie i nauka pomocnicza). Przetestowaliśmy ten agent na zestawie 57 gier Atari oraz środowisku 3D o nazwie Labyrinth z 13 poziomami. We wszystkich grach ten sam agent UNREAL jest szkolony w ten sam sposób, na surowym obrazie wyjściowym z gry, w celu wykonywania akcji maksymalizujących wynik lub nagrodę agenta w grze. Zachowanie wymagane do zdobycia nagród w grze jest niezwykle zróżnicowane, od zbierania jabłek w labiryntach 3D po granie w Space Invaders – ten sam algorytm UNREAL uczy się grać w te gry często na poziomie ludzkim i nie tylko. Niektóre wyniki i wizualizacje można zobaczyć na poniższym filmie.

Źródło: https://deepmind.com/blog/article/reinforcement-learning-unsupervised-auxiliary-tasks

Znak czasu:

Więcej z Deep Mind - najnowszy post