Hvordan evolusjonært utvalg kan lære opp mer dyktige selvkjørende biler

Kilde node: 749900

Evolusjon hos Waymo

De første eksperimentene som DeepMind og Waymo samarbeidet om involverte opplæring av et nettverk som genererer bokser rundt fotgjengere, syklister og motorsyklister oppdaget av sensorene våre - kalt et "regionsforslagsnettverk." Målet var å undersøke om PBT kunne forbedre et nevrale netts evne til å oppdage fotgjengere ved hjelp av to mål: tilbakekalling (andelen av fotgjengere identifisert av det nevrale nettet over totalt antall fotgjengere på stedet) og presisjon (andelen av oppdagede fotgjengere som er faktisk fotgjengere, og ikke falske "falske positiver"). Waymos kjøretøyer oppdager disse trafikantene ved å bruke flere nevrale nett og andre metoder, men målet med dette eksperimentet var å trene dette enkelt nevrale nettet til å opprettholde tilbakekalling på over 99 %, samtidig som de reduserer falske positive ved bruk av populasjonsbasert trening.

Vi lærte mye av dette eksperimentet. For det første oppdaget vi at vi trengte å lage en realistisk og robust evaluering for nettverkene, slik at vi vet om et nevralt nett virkelig ville yte bedre når det ble distribuert i en rekke situasjoner i den virkelige verden. Denne evalueringen dannet grunnlaget for konkurransen som PBT bruker for å velge ett vinnende nevrale nett fremfor et annet. For å sikre at nevrale nett fungerer bra generelt, og ikke bare husker svar på eksempler de har sett under trening, bruker PBT-konkurranseevalueringen et sett med eksempler («valideringssettet») som er forskjellig fra de som brukes i treningen (den «treningssett.») For å verifisere den endelige ytelsen bruker vi også et tredje sett med eksempler («evalueringssettet») som nevrale nett aldri har sett i trening eller konkurranse.

For det andre lærte vi at vi trengte rask evaluering for å støtte hyppig evolusjonær konkurranse. Forskere vurderer sjelden modellene sine under trening, og når de gjør det, gjøres evalueringen sjelden. PBT-krevde modeller evalueres hvert 15. minutt. For å oppnå dette benyttet vi oss av Googles datasentre for å parallellisere evalueringen på tvers av hundrevis av distribuerte maskiner.

Kraften til mangfold i evolusjonær konkurranse

Under disse eksperimentene la vi merke til at en av PBTs styrker – å allokere mer ressurser til avkom av bedre ytelsesnettverk – også kan være en svakhet, fordi PBT optimerer for nåtiden og ikke klarer å vurdere langsiktige resultater. Dette kan være et problem fordi det er til ulempe for sent-blomstrende, så nevrale nett med hyperparametre som yter bedre på lang sikt ikke har sjansen til å modnes og lykkes. En måte å bekjempe dette på er å øke befolkningsmangfoldet, noe som kan oppnås ved ganske enkelt å trene en større befolkning. Hvis bestanden er stor nok, er det større sjanse for at nettverk med sent-blomstrende hyperparametre overlever og tar igjen i senere generasjoner.

I disse eksperimentene var vi i stand til å øke mangfoldet ved å lage underpopulasjoner kalt "nisjer", der nevrale nett bare fikk konkurrere innenfor sine egne undergrupper - på samme måte som arter utvikler seg når de er isolert på øyer. Vi prøvde også å belønne mangfold direkte gjennom en teknikk kalt «fitness sharing», der vi måler forskjellen mellom medlemmer av befolkningen og gir flere unike nevrale nett en fordel i konkurransen. Større mangfold gjør at PBT kan utforske et større hyperparameterrom.

Resultater

PBT muliggjorde dramatiske forbedringer i modellytelsen. For eksperimentet ovenfor var PBT-modellene våre i stand til å oppnå høyere presisjon ved å redusere falske positiver med 24 % sammenlignet med dens håndinnstilte ekvivalent, samtidig som de opprettholder en høy tilbakekallingsfrekvens. En hovedfordel med evolusjonære metoder som PBT er at de kan optimere vilkårlig komplekse beregninger. Tradisjonelt kan nevrale nett kun trenes ved å bruke enkle og jevne tapsfunksjoner, som fungerer som en proxy for det vi virkelig bryr oss om. PBT gjorde det mulig for oss å gå utover oppdateringsregelen som brukes til å trene nevrale nett, og mot de mer komplekse beregningene som optimaliserer for funksjoner vi bryr oss om, for eksempel maksimering av presisjon under høye gjenkallingsfrekvenser.

PBT sparer også tid og ressurser. Hyperparameterplanen oppdaget med PBT-trente nett overgikk Waymos forrige nett med halvparten av treningstiden og ressursene. Totalt sett bruker PBT halvparten av beregningsressursene som brukes av tilfeldig parallellsøk for å effektivt oppdage bedre hyperparameterplaner. Det sparer også tid for forskere – ved å inkorporere PBT direkte i Waymos tekniske infrastruktur, kan forskere fra hele selskapet bruke denne metoden med et klikk på en knapp, og bruke mindre tid på å justere læringshastigheten. Siden fullføringen av disse eksperimentene har PBT blitt brukt på mange forskjellige Waymo-modeller, og har mye løfte om å bidra til å skape mer dyktige kjøretøy for veien.


Bidragsytere: Arbeidet som er beskrevet her var et forskningssamarbeid mellom Yu-hsin Chen og Matthieu Devin fra Waymo, og Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta og Oriol Vinyals fra DeepMind. Rådgivere for prosjektet inkluderer Max Jaderberg, Valentin Dalibard, Meire Fortunato og Jackson Broshear fra DeepMind.

Kilde: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Tidstempel:

Mer fra Deep Mind - Siste innlegg