AlphaGo Zero: Fra grunnen av

Kilde node: 769224

Det er i stand til å gjøre dette ved å bruke en ny form for forsterkning læring, der AlphaGo Zero blir sin egen lærer. Systemet starter med et nevralt nettverk som ikke vet noe om Go-spillet. Deretter spiller det spill mot seg selv, ved å kombinere dette nevrale nettverket med en kraftig søkealgoritme. Mens det spilles, er det nevrale nettverket innstilt og oppdatert for å forutsi trekk, så vel som den endelige vinneren av spillene.

Dette oppdaterte nevrale nettverket blir deretter kombinert med søkealgoritmen for å lage en ny, sterkere versjon av AlphaGo Zero, og prosessen begynner på nytt. I hver iterasjon forbedres systemets ytelse med en liten mengde, og kvaliteten på selvspillene øker, noe som fører til mer og mer nøyaktige nevrale nettverk og stadig sterkere versjoner av AlphaGo Zero.

Denne teknikken er kraftigere enn tidligere versjoner av AlphaGo fordi den ikke lenger er begrenset av grensene for menneskelig kunnskap. I stedet er det i stand til å lære tabula rasa fra den sterkeste spilleren i verden: AlphaGo selv.

Det skiller seg også fra tidligere versjoner på andre bemerkelsesverdige måter.

  • AlphaGo Zero bruker bare de svarte og hvite steinene fra Go-kortet som input, mens tidligere versjoner av AlphaGo inkluderte et lite antall hånddesignede funksjoner.
  • Den bruker ett nevralt nettverk i stedet for to. Tidligere versjoner av AlphaGo brukte et "policy-nettverk" for å velge neste trekk å spille og et "verdinettverk" for å forutsi vinneren av spillet fra hver posisjon. Disse kombineres i AlphaGo Zero, slik at den kan trenes opp og vurderes mer effektivt.
  • AlphaGo Zero bruker ikke “utrullinger” - raske, tilfeldige spill som brukes av andre Go-programmer for å forutsi hvilken spiller som vil vinne fra gjeldende brettposisjon. I stedet er det avhengig av nevrale nettverk av høy kvalitet for å evaluere posisjoner.

Alle disse forskjellene bidrar til å forbedre ytelsen til systemet og gjøre det mer generelt. Men det er den algoritmiske endringen som gjør systemet mye kraftigere og mer effektivt.

Kilde: https://deepmind.com/blog/article/alphago-zero-starting-scratch

Tidstempel:

Mer fra Deep Mind - Siste innlegg