Cum selecția evolutivă poate antrena mașini cu conducere autonomă mai capabile

Nodul sursă: 749900

Evoluție la Waymo

Primele experimente la care DeepMind și Waymo au colaborat au implicat antrenarea unei rețele care generează cutii în jurul pietonilor, bicicliștilor și motocicliștilor detectați de senzorii noștri – numită „rețea de propunere a regiunii”. Scopul a fost de a investiga dacă PBT ar putea îmbunătăți capacitatea unei rețele neuronale de a detecta pietoni prin două măsuri: reamintirea (fracțiunea de pietoni identificați de rețeaua neuronală peste numărul total de pietoni din scenă) și precizia (fracția de pietoni detectați care sunt de fapt pietoni, și nu „false pozitive” false). Vehiculele Waymo detectează acești utilizatori ai drumului folosind mai multe rețele neuronale și alte metode, dar scopul acestui experiment a fost de a antrena această singură rețea neuronală pentru a menține reamintirea la peste 99%, reducând în același timp fals pozitive folosind antrenamentul bazat pe populație.

Am învățat multe din acest experiment. În primul rând, am descoperit că trebuie să creăm o evaluare realistă și robustă a rețelelor, astfel încât să știm dacă o rețea neuronală va funcționa cu adevărat mai bine atunci când este implementată într-o varietate de situații din lumea reală. Această evaluare a stat la baza competiției pe care PBT o folosește pentru a alege o rețea neuronală câștigătoare față de alta. Pentru a ne asigura că rețelele neuronale funcționează bine în general și nu pur și simplu memorează răspunsurile la exemplele pe care le-au văzut în timpul antrenamentului, evaluarea noastră de competiție PBT folosește un set de exemple („setul de validare”) care este diferit de cele utilizate la antrenament (setul de validare). „Setul de antrenament”) Pentru a verifica performanța finală, folosim și un al treilea set de exemple („setul de evaluare”) pe care rețelele neuronale nu le-au văzut niciodată la antrenament sau la competiție.

În al doilea rând, am aflat că avem nevoie de o evaluare rapidă pentru a sprijini competiția evolutivă frecventă. Cercetătorii își evaluează rareori modelele în timpul antrenamentului, iar atunci când o fac, evaluarea se face rar. Modelele necesare PBT să fie evaluate la fiecare 15 minute. Pentru a realiza acest lucru, am profitat de centrele de date Google pentru a paraleliza evaluarea pe sute de mașini distribuite.

Puterea diversităţii în competiţia evolutivă

În timpul acestor experimente, am observat că unul dintre punctele forte ale PBT – alocarea mai multor resurse descendenților rețelelor mai performante – poate fi, de asemenea, o slăbiciune, deoarece PBT se optimizează pentru prezent și nu ia în considerare rezultatele pe termen lung. Aceasta poate fi o problemă pentru că dezavantajează persoanele cu înflorire târzie, astfel încât rețelele neuronale cu hiperparametri care au performanțe mai bune pe termen lung nu au șansa de a se maturiza și de a reuși. O modalitate de a combate acest lucru este creșterea diversității populației, ceea ce poate fi realizat prin simpla instruire a unei populații mai mari. Dacă populația este suficient de mare, există șanse mai mari ca rețelele cu hiperparametri cu înflorire târzie să supraviețuiască și să ajungă din urmă în generațiile ulterioare.

În aceste experimente, am reușit să creștem diversitatea prin crearea de sub-populații numite „nișe”, în care rețelelor neuronale li s-a permis să concureze doar în cadrul propriilor subgrupuri – similar cu modul în care evoluează speciile atunci când sunt izolate pe insule. De asemenea, am încercat să răsplătim direct diversitatea printr-o tehnică numită „partajare a fitnessului”, în care măsurăm diferența dintre membrii populației și dăm mai multor rețele neuronale unice un avantaj în competiție. O diversitate mai mare permite PBT să exploreze un spațiu mai mare de hiperparametri.

REZULTATE

PBT a permis îmbunătățiri dramatice ale performanței modelului. Pentru experimentul de mai sus, modelele noastre PBT au reușit să atingă o precizie mai mare prin reducerea falselor pozitive cu 24% în comparație cu echivalentul său reglat manual, menținând în același timp o rată de reamintire ridicată. Un avantaj principal al metodelor evolutive, cum ar fi PBT, este că pot optimiza metrici arbitrar complexe. În mod tradițional, rețelele neuronale pot fi antrenate numai folosind funcții de pierdere simple și fluide, care acționează ca un proxy pentru ceea ce ne pasă cu adevărat. PBT ne-a permis să trecem dincolo de regula de actualizare folosită pentru antrenarea rețelelor neuronale și spre optimizarea unor metrici mai complexe pentru caracteristicile care ne interesează, cum ar fi maximizarea preciziei în cazul ratelor ridicate de reamintire.

PBT economisește, de asemenea, timp și resurse. Programul de hiperparametri descoperit cu plasele antrenate cu PBT a depășit rețeaua anterioară a Waymo cu jumătate din timpul și resursele de antrenament. În general, PBT utilizează jumătate din resursele de calcul utilizate de căutarea paralelă aleatorie pentru a descoperi eficient programe de hiperparametri mai bune. De asemenea, economisește timp pentru cercetători – prin încorporarea PBT direct în infrastructura tehnică a Waymo, cercetătorii din întreaga companie pot aplica această metodă cu un clic pe un buton și pot petrece mai puțin timp reglandu-și ratele de învățare. De la finalizarea acestor experimente, PBT a fost aplicat la multe modele Waymo diferite și este foarte promițător pentru a ajuta la crearea de vehicule mai capabile pentru drum.


Contributori: Lucrarea descrisă aici a fost o colaborare de cercetare între Yu-hsin Chen și Matthieu Devin de la Waymo și Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta și Oriol Vinyals de la DeepMind. Consilierii proiectului includ Max Jaderberg, Valentin Dalibard, Meire Fortunato și Jackson Broshear de la DeepMind.

Sursa: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Timestamp-ul:

Mai mult de la Deep Mind - Ultimul post