Come la selezione evolutiva può addestrare auto a guida autonoma più capaci

Nodo di origine: 749900

Evoluzione a Waymo

I primi esperimenti a cui DeepMind e Waymo hanno collaborato hanno coinvolto la formazione di una rete che genera scatole attorno a pedoni, ciclisti e motociclisti rilevati dai nostri sensori, denominata "rete di proposte regionali". Lo scopo era di indagare se il PBT potesse migliorare la capacità di una rete neurale di rilevare i pedoni secondo due misure: richiamo (la frazione di pedoni identificata dalla rete neurale sul numero totale di pedoni nella scena) e precisione (la frazione di pedoni rilevati che sono in realtà pedoni, e non falsi “falsi positivi”). I veicoli di Waymo rilevano questi utenti della strada utilizzando più reti neurali e altri metodi, ma l'obiettivo di questo esperimento era addestrare questa singola rete neurale per mantenere il ricordo oltre il 99%, riducendo i falsi positivi utilizzando l'addestramento basato sulla popolazione.

Abbiamo imparato molto da questo esperimento. In primo luogo, abbiamo scoperto che dovevamo creare una valutazione realistica e robusta per le reti in modo da sapere se una rete neurale avrebbe davvero prestazioni migliori se distribuita in una varietà di situazioni nel mondo reale. Questa valutazione ha costituito la base della competizione che PBT impiega per scegliere una rete neurale vincente rispetto a un'altra. Per garantire che le reti neurali funzionino bene in generale e non si limitano a memorizzare le risposte agli esempi che hanno visto durante l'allenamento, la nostra valutazione della competizione PBT utilizza una serie di esempi (il "set di convalida") che è diverso da quelli utilizzati nella formazione "Set di allenamento".) Per verificare le prestazioni finali, utilizziamo anche un terzo set di esempi (il "set di valutazione") che le reti neurali non hanno mai visto durante l'allenamento o la competizione.

In secondo luogo, abbiamo appreso che avevamo bisogno di una valutazione rapida per sostenere la frequente concorrenza evolutiva. I ricercatori raramente valutano i loro modelli durante l'allenamento e, quando lo fanno, la valutazione viene eseguita raramente. I modelli richiesti da PBT devono essere valutati ogni 15 minuti. Per raggiungere questo obiettivo, abbiamo sfruttato i data center di Google per parallelizzare la valutazione su centinaia di macchine distribuite.

Il potere della diversità nella competizione evolutiva

Durante questi esperimenti, abbiamo notato che uno dei punti di forza di PBT - allocare più risorse per la progenie di reti con prestazioni migliori - può anche essere un punto debole, perché PBT si ottimizza per il momento e non riesce a considerare i risultati a lungo termine. Questo può essere un problema perché svantaggia i ritardatari, quindi le reti neurali con iperparametri che funzionano meglio a lungo termine non hanno la possibilità di maturare e avere successo. Un modo per combattere questo è aumentare la diversità della popolazione, che può essere raggiunta semplicemente formando una popolazione più ampia. Se la popolazione è abbastanza grande, c'è una maggiore possibilità per le reti con iperparametri a fioritura tardiva di sopravvivere e raggiungere le generazioni successive.

In questi esperimenti, siamo stati in grado di aumentare la diversità creando sotto-popolazioni chiamate "nicchie", in cui le reti neurali erano autorizzate a competere solo all'interno dei propri sottogruppi, simile a come le specie si evolvono quando isolate sulle isole. Abbiamo anche cercato di premiare direttamente la diversità attraverso una tecnica chiamata "fitness sharing", in cui misuriamo la differenza tra i membri della popolazione e diamo un vantaggio maggiore alle reti neurali uniche nella competizione. Una maggiore diversità consente a PBT di esplorare uno spazio di iperparametri più ampio.

Risultati

PBT ha consentito notevoli miglioramenti nelle prestazioni del modello. Per l'esperimento di cui sopra, i nostri modelli PBT sono stati in grado di raggiungere una maggiore precisione riducendo i falsi positivi del 24% rispetto al suo equivalente sintonizzato a mano, pur mantenendo un alto tasso di richiamo. Un vantaggio principale di metodi evolutivi come PBT è che possono ottimizzare metriche arbitrariamente complesse. Tradizionalmente, le reti neurali possono essere addestrate solo usando funzioni di perdita semplici e fluide, che fungono da proxy per ciò a cui teniamo veramente. PBT ci ha permesso di andare oltre la regola di aggiornamento utilizzata per l'addestramento delle reti neurali e verso le metriche più complesse che ottimizzano per le funzionalità a cui teniamo, come massimizzare la precisione con elevate percentuali di richiamo.

PBT consente inoltre di risparmiare tempo e risorse. Il programma iperparametrico scoperto con reti addestrate da PBT ha superato la rete precedente di Waymo con la metà del tempo e delle risorse di formazione. Nel complesso, PBT utilizza metà delle risorse computazionali utilizzate dalla ricerca parallela casuale per scoprire in modo efficiente migliori pianificazioni di iperparametri. Inoltre, consente ai ricercatori di risparmiare tempo: incorporando PBT direttamente nell'infrastruttura tecnica di Waymo, i ricercatori di tutta l'azienda possono applicare questo metodo con un clic di un pulsante e dedicare meno tempo all'ottimizzazione dei tassi di apprendimento. Dal completamento di questi esperimenti, il PBT è stato applicato a molti modelli Waymo diversi e mantiene molte promesse per aiutare a creare veicoli più capaci per la strada.


Collaboratori: Il lavoro qui descritto è stato una collaborazione di ricerca tra Yu-hsin Chen e Matthieu Devin di Waymo, e Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta e Oriol Vinyals di DeepMind. I consulenti del progetto includono Max Jaderberg, Valentin Dalibard, Meire Fortunato e Jackson Broshear di DeepMind.

Fonte: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Timestamp:

Di più da Deep Mind - Ultimo post