Hur evolutionärt urval kan träna mer kapabla självkörande bilar

Källnod: 749900

Evolution på Waymo

De första experimenten som DeepMind och Waymo samarbetade med involverade träning av ett nätverk som genererar lådor runt fotgängare, cyklister och motorcyklister som upptäcks av våra sensorer - kallat ett ”regionförslagsnätverk”. Målet var att undersöka om PBT kunde förbättra ett neuralt nätets förmåga att upptäcka fotgängare längs två mått: återkallelse (den del av fotgängare som identifierats av neuralnätet över det totala antalet fotgängare på scenen) och precision (den del av upptäckta fotgängare som är faktiskt fotgängare, och inte falska "falska positiva"). Waymos fordon upptäcker dessa trafikanter med hjälp av flera neurala nät och andra metoder, men målet med detta experiment var att träna detta enda neurala nät för att upprätthålla återkallande över 99%, samtidigt som falska positiva minskningar användes med hjälp av befolkningsbaserad träning.

Vi lärde oss mycket av detta experiment. För det första upptäckte vi att vi behövde skapa en realistisk och robust utvärdering för nätverken så att vi skulle veta om ett neuralt nät verkligen skulle fungera bättre när det distribuerades över en mängd olika situationer i den verkliga världen. Denna utvärdering låg till grund för den konkurrens som PBT använder för att välja ett vinnande neuralt nät framför ett annat. För att säkerställa att neuralnät fungerar bra i allmänhet och inte bara memorera svar på exempel de har sett under träning använder vår PBT-tävlingsutvärdering en uppsättning exempel ("valideringsuppsättningen") som skiljer sig från de som används vid träning ( "Träningssats.") För att verifiera slutlig prestanda använder vi också en tredje uppsättning exempel ("utvärderingsuppsättningen") som de neurala näten aldrig har sett under träning eller tävling.

För det andra lärde vi oss att vi behövde snabb utvärdering för att stödja frekvent evolutionär konkurrens. Forskare utvärderar sällan sina modeller under träning, och när de gör det görs utvärderingen sällan. PBT-nödvändiga modeller utvärderas var 15: e minut. För att uppnå detta utnyttjade vi Googles datacenter för att parallellisera utvärderingen över hundratals distribuerade maskiner.

Kraften i mångfald i evolutionär konkurrens

Under dessa experiment märkte vi att en av PBT: s styrkor - allokera mer resurser till avkomman till bättre presterande nätverk - också kan vara en svaghet, eftersom PBT optimeras för närvarande och inte tar hänsyn till långsiktiga resultat. Detta kan vara ett problem eftersom det har nackdelar för senblomstrande, så neurala nät med hyperparametrar som presterar bättre på lång sikt har inte chansen att mogna och lyckas. Ett sätt att bekämpa detta är att öka mångfalden i befolkningen, vilket kan uppnås genom att helt enkelt utbilda en större befolkning. Om befolkningen är tillräckligt stor är det större chans för nätverk med senblommande hyperparametrar att överleva och komma ikapp i senare generationer.

I dessa experiment kunde vi öka mångfalden genom att skapa underpopulationer som kallades ”nischer”, där neurala nät bara fick tävla inom sina egna undergrupper - liknar hur arter utvecklas när de isoleras på öar. Vi försökte också direkt belöna mångfald genom en teknik som kallas ”fitness sharing”, där vi mäter skillnaden mellan medlemmarna i befolkningen och ger mer unika neurala nät ett försprång i tävlingen. Större mångfald tillåter PBT att utforska ett större hyperparameterutrymme.

Resultat

PBT möjliggjorde dramatiska förbättringar av modellprestanda. För experimentet ovan kunde våra PBT-modeller uppnå högre precision genom att minska falska positiva effekter med 24% jämfört med dess handavstämda ekvivalent, samtidigt som de bibehöll en hög återkallningsgrad. En viktig fördel med evolutionära metoder som PBT är att de kan optimera godtyckligt komplexa mått. Traditionellt kan neurala nät endast tränas med enkla och smidiga förlustfunktioner, som fungerar som en proxy för det vi verkligen bryr oss om. PBT gjorde det möjligt för oss att gå längre än den uppdateringsregel som används för träning av neurala nät och mot de mer komplexa mätvärdena som optimerar för funktioner vi bryr oss om, till exempel att maximera precision under höga återkallningshastigheter.

PBT sparar också tid och resurser. Hyperparameterschemat som upptäcktes med PBT-utbildade nät överträffade Waymos tidigare nät med hälften av träningstiden och resurserna. Sammantaget använder PBT hälften av beräkningsresurserna som används av slumpmässig parallell sökning för att effektivt upptäcka bättre hyperparameterscheman. Det sparar också tid för forskare - genom att integrera PBT direkt i Waymos tekniska infrastruktur kan forskare från hela företaget använda denna metod med ett klick på en knapp och spendera mindre tid på att anpassa sina inlärningshastigheter. Sedan slutförandet av dessa experiment har PBT tillämpats på många olika Waymo-modeller och har mycket löfte om att hjälpa till att skapa mer kapabla fordon för vägen.


Bidragsgivare: Arbetet som beskrivs här var ett forskningssamarbete mellan Yu-hsin Chen och Matthieu Devin från Waymo, och Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta och Oriol Vinyals från DeepMind. Rådgivare till projektet är Max Jaderberg, Valentin Dalibard, Meire Fortunato och Jackson Broshear från DeepMind.

Källa: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Tidsstämpel:

Mer från Deep Mind - Senaste inlägget