Hoe evolutionaire selectie meer capabele zelfrijdende auto's kan trainen

Bronknooppunt: 749900

Evolutie bij Waymo

De eerste experimenten waaraan DeepMind en Waymo hebben meegewerkt, betroffen het trainen van een netwerk dat dozen genereert rond voetgangers, fietsers en motorrijders die door onze sensoren worden gedetecteerd - een zogenaamd regionaal voorstelnetwerk. Het doel was om te onderzoeken of PBT het vermogen van een neuraal net om voetgangers te detecteren kan verbeteren door middel van twee maatregelen: terugroepen (de fractie voetgangers die door het neurale net wordt geïdentificeerd over het totale aantal voetgangers in de scene) en precisie (de fractie van gedetecteerde voetgangers die eigenlijk voetgangers, en geen valse "false positives"). De voertuigen van Waymo detecteren deze weggebruikers met behulp van meerdere neurale netten en andere methoden, maar het doel van dit experiment was om dit enkele neurale net te trainen om de herinnering meer dan 99% te behouden, terwijl valse positieven werden verminderd met behulp van op de bevolking gebaseerde training.

We hebben veel geleerd van dit experiment. Ten eerste ontdekten we dat we een realistische en robuuste evaluatie voor de netwerken moesten maken, zodat we zouden weten of een neuraal netwerk echt beter zou presteren wanneer het in verschillende situaties in de echte wereld zou worden ingezet. Deze evaluatie vormde de basis van de competitie die PBT gebruikt om het ene winnende neurale netwerk boven het andere te kiezen. Om ervoor te zorgen dat neurale netten over het algemeen goed presteren en niet alleen de antwoorden op voorbeelden onthouden die ze tijdens de training hebben gezien, gebruikt onze PBT-wedstrijdevaluatie een reeks voorbeelden (de 'validatieset') die verschilt van die gebruikt in training (de "Trainingsset.") Om de uiteindelijke prestaties te verifiëren, gebruiken we ook een derde set voorbeelden (de "evaluatieset") die de neurale netten nooit hebben gezien in training of competitie.

Ten tweede leerden we dat we een snelle evaluatie nodig hadden om frequente evolutionaire concurrentie te ondersteunen. Onderzoekers evalueren hun modellen zelden tijdens de training en als ze dat wel doen, wordt de evaluatie niet vaak uitgevoerd. PBT-vereiste modellen worden elke 15 minuten geëvalueerd. Om dit te bereiken, hebben we gebruik gemaakt van de datacenters van Google om de evaluatie op honderden gedistribueerde machines parallel te laten lopen.

De kracht van diversiteit in evolutionaire concurrentie

Tijdens deze experimenten merkten we dat een van de sterke punten van PBT - meer middelen toewijzen aan het nageslacht van beter presterende netwerken - ook een zwakte kan zijn, omdat PBT voor het heden optimaliseert en geen rekening houdt met langetermijnresultaten. Dit kan een probleem zijn omdat het nadelig is voor laatbloeiers, dus neurale netten met hyperparameters die op de lange termijn beter presteren, hebben niet de kans om volwassen te worden en te slagen. Een manier om dit tegen te gaan is het vergroten van de populatiediversiteit, wat kan worden bereikt door simpelweg een grotere populatie op te leiden. Als de populatie groot genoeg is, is er een grotere kans voor netwerken met laatbloeiende hyperparameters om te overleven en in te halen in latere generaties.

In deze experimenten konden we de diversiteit vergroten door subpopulaties te creëren die 'niches' worden genoemd, waar neurale netten alleen mochten concurreren binnen hun eigen subgroepen - vergelijkbaar met hoe soorten evolueren wanneer ze geïsoleerd zijn op eilanden. We hebben ook geprobeerd diversiteit direct te belonen door middel van een techniek die 'fitness delen' wordt genoemd, waarbij we het verschil tussen leden van de bevolking meten en meer unieke neurale netten een voorsprong geven in de competitie. Door een grotere diversiteit kan PBT een grotere hyperparameterruimte verkennen.

Resultaten

PBT zorgde voor dramatische verbeteringen in modelprestaties. Voor het bovenstaande experiment konden onze PBT-modellen een hogere precisie bereiken door het verminderen van false positives met 24% in vergelijking met het met de hand afgestemde equivalent, met behoud van een hoog terugroeppercentage. Een belangrijk voordeel van evolutionaire methoden zoals PBT is dat ze willekeurig complexe statistieken kunnen optimaliseren. Traditioneel kunnen neurale netten alleen worden getraind met eenvoudige en soepele verliesfuncties, die een proxy vormen voor waar we echt om geven. PBT stelde ons in staat om verder te gaan dan de updateregel die wordt gebruikt voor het trainen van neurale netten, en naar de meer complexe statistieken die optimaliseren voor functies waar we om geven, zoals het maximaliseren van precisie bij hoge terugroeppercentages.

PBT bespaart ook tijd en middelen. Het hyperparameterschema dat werd ontdekt met PBT-getrainde netten, presteerde beter dan Waymo's vorige net met de helft van de trainingstijd en middelen. Over het algemeen gebruikt PBT de helft van de rekenbronnen die worden gebruikt door willekeurig parallel zoeken om op efficiënte wijze betere hyperparameterschema's te ontdekken. Het bespaart ook tijd voor onderzoekers: door PBT rechtstreeks in de technische infrastructuur van Waymo op te nemen, kunnen onderzoekers uit het hele bedrijf deze methode met een klik op de knop toepassen en minder tijd besteden aan het afstemmen van hun leertempo. Sinds de voltooiing van deze experimenten is PBT toegepast op veel verschillende Waymo-modellen, en het houdt veel belofte in om te helpen bij het creëren van meer capabele voertuigen voor de weg.


Medewerkers: Het hier beschreven werk was een onderzoekssamenwerking tussen Yu-hsin Chen en Matthieu Devin van Waymo, en Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta en Oriol Vinyals van DeepMind. Adviseurs van het project zijn onder meer Max Jaderberg, Valentin Dalibard, Meire Fortunato en Jackson Broshear van DeepMind.

Bron: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Tijdstempel:

Meer van Diepe geest - Laatste bericht