Hvordan evolutionært udvalg kan træne mere dygtige selvkørende biler

Kildeknude: 749900

Evolution hos Waymo

De første eksperimenter, som DeepMind og Waymo samarbejdede om, involverede træning af et netværk, der genererer kasser omkring fodgængere, cyklister og motorcyklister, der blev opdaget af vores sensorer - kaldet et "regionsforslagsnetværk." Formålet var at undersøge, om PBT kunne forbedre et neuralt nets evne til at detektere fodgængere ud fra to mål: tilbagekaldelse (den andel af fodgængere identificeret af neuralnettet i forhold til det samlede antal fodgængere på stedet) og præcision (den andel af opdagede fodgængere, der er faktisk fodgængere og ikke falske "falske positiver"). Waymos køretøjer registrerer disse trafikanter ved hjælp af flere neurale net og andre metoder, men målet med dette eksperiment var at træne dette enkelte neurale net til at opretholde tilbagekaldelse på over 99 %, samtidig med at de reducerede falske positiver ved hjælp af befolkningsbaseret træning.

Vi lærte meget af dette eksperiment. For det første opdagede vi, at vi var nødt til at skabe en realistisk og robust evaluering af netværkene, så vi ville vide, om et neuralt net virkelig ville fungere bedre, når det blev implementeret på tværs af en række forskellige situationer i den virkelige verden. Denne evaluering dannede grundlaget for den konkurrence, som PBT bruger til at vælge et vindende neuralt net frem for et andet. For at sikre, at neurale net generelt fungerer godt og ikke blot husker svar på eksempler, de har set under træning, bruger vores PBT-konkurrenceevaluering et sæt eksempler ("valideringssættet"), der er anderledes end dem, der bruges i træningen (den "træningssæt.") For at verificere den endelige præstation bruger vi også et tredje sæt eksempler ("evalueringssættet"), som neurale net aldrig har set under træning eller konkurrence.

For det andet lærte vi, at vi havde brug for hurtig evaluering for at understøtte hyppig evolutionær konkurrence. Forskere vurderer sjældent deres modeller under træningen, og når de gør det, foretages evalueringen sjældent. PBT-krævede modeller evalueres hvert 15. minut. For at opnå dette udnyttede vi Googles datacentre til at parallelisere evalueringen på tværs af hundredvis af distribuerede maskiner.

Mangfoldighedens magt i evolutionær konkurrence

Under disse eksperimenter bemærkede vi, at en af ​​PBT's styrker – at allokere flere ressourcer til afkom af bedre ydende netværk – også kan være en svaghed, fordi PBT optimerer til nutiden og undlader at overveje langsigtede resultater. Dette kan være et problem, fordi det er til ulempe for sent-blomstrende, så neurale net med hyperparametre, der yder bedre på lang sigt, ikke har chancen for at modnes og lykkes. En måde at bekæmpe dette på er at øge befolkningsdiversiteten, hvilket kan opnås ved blot at træne en større befolkning. Hvis bestanden er stor nok, er der større chance for, at netværk med sent-blomstrende hyperparametre overlever og indhenter i senere generationer.

I disse eksperimenter var vi i stand til at øge diversiteten ved at skabe underpopulationer kaldet "nicher", hvor neurale net kun fik lov til at konkurrere inden for deres egne undergrupper - svarende til hvordan arter udvikler sig, når de isoleres på øer. Vi forsøgte også direkte at belønne diversitet gennem en teknik kaldet "fitness sharing", hvor vi måler forskellen mellem medlemmer af befolkningen og giver mere unikke neurale net en fordel i konkurrencen. Større diversitet gør det muligt for PBT at udforske et større hyperparameterrum.

Resultater

PBT muliggjorde dramatiske forbedringer i modellens ydeevne. For eksperimentet ovenfor var vores PBT-modeller i stand til at opnå højere præcision ved at reducere falske positiver med 24 % sammenlignet med dets håndjusterede ækvivalent, mens de bibeholdt en høj genkaldelsesrate. En hovedfordel ved evolutionære metoder såsom PBT er, at de kan optimere vilkårligt komplekse metrikker. Traditionelt kan neurale net kun trænes ved hjælp af simple og glatte tabsfunktioner, som fungerer som en proxy for det, vi virkelig bekymrer os om. PBT gjorde det muligt for os at gå ud over opdateringsreglen, der bruges til at træne neurale net, og i retning af de mere komplekse målinger, der optimerer for funktioner, vi holder af, såsom maksimering af præcision under høje genkaldelsesrater.

PBT sparer også tid og ressourcer. Hyperparameter-skemaet, der blev opdaget med PBT-trænede net, overgik Waymos tidligere net med halvdelen af ​​træningstid og ressourcer. Samlet set bruger PBT halvdelen af ​​de beregningsressourcer, der bruges af tilfældig parallel søgning til effektivt at opdage bedre hyperparameter-skemaer. Det sparer også tid for forskere – ved at inkorporere PBT direkte i Waymos tekniske infrastruktur, kan forskere fra hele virksomheden anvende denne metode med et klik på en knap og bruge mindre tid på at justere deres læringshastigheder. Siden afslutningen af ​​disse eksperimenter er PBT blevet anvendt på mange forskellige Waymo-modeller og lover meget for at hjælpe med at skabe mere dygtige køretøjer til vejen.


Bidragydere: Arbejdet beskrevet her var et forskningssamarbejde mellem Yu-hsin Chen og Matthieu Devin fra Waymo og Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta og Oriol Vinyals fra DeepMind. Rådgivere til projektet omfatter Max Jaderberg, Valentin Dalibard, Meire Fortunato og Jackson Broshear fra DeepMind.

Kilde: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Tidsstempel:

Mere fra Deep Mind - Seneste indlæg