Forstærkende læring med uovervågede hjælpeopgaver

Kildeknude: 800709

Kombinationen af ​​disse hjælpeopgaver sammen med vores tidligere A3C papir er vores nye UNREAL agent (UNsupervised REinforcement and Auxiliary Learning). Vi testede denne agent på en suite af 57 Atari-spil samt et 3D-miljø kaldet Labyrinth med 13 niveauer. I alle spillene trænes den samme UNREAL agent på samme måde, på det rå billedoutput fra spillet, til at producere handlinger for at maksimere scoren eller belønningen for agenten i spillet. Den adfærd, der kræves for at få spilbelønninger, er utrolig varieret, fra at samle æbler i 3D-labyrinter til at spille Space Invaders – den samme URIGTIGE algoritme lærer at spille disse spil ofte til menneskeligt niveau og videre. Nogle resultater og visualiseringer kan ses i videoen nedenfor.

Kilde: https://deepmind.com/blog/article/reinforcement-learning-unsupervised-auxiliary-tasks

Tidsstempel:

Mere fra Deep Mind - Seneste indlæg