Kako lahko evolucijska selekcija usposobi bolj sposobne avtomobile, ki se vozijo sami

Izvorno vozlišče: 749900

Evolucija pri Waymu

The first experiments that DeepMind and Waymo collaborated on involved training a network that generates boxes around pedestrians, bicyclists, and motorcyclists detected by our sensors–named a “region proposal network.” The aim was to investigate whether PBT could improve a neural net’s ability to detect pedestrians along two measures: recall (the fraction of pedestrians identified by the neural net over total number of pedestrians in the scene) and precision (the fraction of detected pedestrians that are actually pedestrians, and not spurious “false positives”). Waymo’s vehicles detect these road users using multiple neural nets and other methods, but the goal of this experiment was to train this single neural net to maintain recall over 99%, while reducing false positives using population-based training.

We learned a lot from this experiment. Firstly, we discovered that we needed to create a realistic and robust evaluation for the networks so that we’d know if a neural net would truly perform better when deployed across a variety of situations in the real world. This evaluation formed the basis of the competition that PBT employs to pick one winning neural net over another. To ensure neural nets perform well generally, and don’t simply memorise answers to examples they’ve seen during training, our PBT competition evaluation uses a set of examples (the “validation set”) that is different from those used in training (the “training set.”) To verify final performance, we also use a third set of examples (the “evaluation set”) that the neural nets have never seen in training or competition.

Drugič, izvedeli smo, da potrebujemo hitro vrednotenje za podporo pogoste evolucijske konkurence. Raziskovalci le redko ocenjujejo svoje modele med usposabljanjem, in ko to počnejo, se vrednotenje izvaja redko. Modele, ki zahtevajo PBT, je treba oceniti vsakih 15 minut. Da bi to dosegli, smo izkoristili Googlove podatkovne centre za vzporedno ocenjevanje na stotine porazdeljenih strojev.

Moč raznolikosti v evolucijski konkurenci

Med temi poskusi smo opazili, da je lahko ena od prednosti PBT – dodeljevanje več sredstev za potomce učinkovitejših omrežij – tudi slabost, ker PBT optimizira za sedanjost in ne upošteva dolgoročnih rezultatov. To je lahko težava, ker postavlja tiste, ki pozno cvetijo, v slabši položaj, zato nevronske mreže s hiperparametri, ki dolgoročno delujejo bolje, nimajo možnosti, da bi dozorele in uspele. Eden od načinov za boj proti temu je povečanje raznolikosti populacije, kar je mogoče doseči s preprostim usposabljanjem večje populacije. Če je populacija dovolj velika, obstaja večja možnost, da omrežja s pozno razcvetelimi hiperparametri preživijo in jih dohitijo v kasnejših generacijah.

V teh poskusih smo lahko povečali raznolikost z ustvarjanjem podpopulacij, imenovanih »niše«, kjer je bilo nevronskim mrežam dovoljeno tekmovati samo znotraj lastnih podskupin – podobno kot se vrste razvijajo, če so izolirane na otokih. Prav tako smo poskušali neposredno nagraditi raznolikost s tehniko, imenovano »delitev telesne pripravljenosti«, kjer merimo razlike med člani populacije in dajemo bolj edinstvenim nevronskim mrežam prednost v konkurenci. Večja raznolikost omogoča PBT raziskovanje večjega prostora hiperparametrov.

Rezultati

PBT je omogočil dramatične izboljšave v zmogljivosti modela. Za zgornji poskus je našim modelom PBT uspelo doseči višjo natančnost z zmanjšanjem lažnih pozitivnih rezultatov za 24 % v primerjavi z ročno nastavljenim ekvivalentom, hkrati pa ohraniti visoko stopnjo priklica. Glavna prednost evolucijskih metod, kot je PBT, je, da lahko optimizirajo poljubno zapletene metrike. Tradicionalno je nevronske mreže mogoče trenirati le z uporabo preprostih in gladkih izgubnih funkcij, ki delujejo kot posrednik za tisto, kar nas resnično zanima. PBT nam je omogočil, da presežemo pravilo posodabljanja, ki se uporablja za usposabljanje nevronskih mrež, in usmerimo k bolj zapletenim metrikam, ki optimizirajo funkcije, ki so nam pomembne, kot je maksimiranje natančnosti pri visokih stopnjah priklica.

PBT prihrani tudi čas in sredstva. Razpored hiperparametrov, ki so ga odkrili z mrežami, treniranimi s PBT, je presegel prejšnjo mrežo Waymo s polovico manj časa in sredstev za usposabljanje. Na splošno PBT uporablja polovico računalniških virov, ki jih uporablja naključno vzporedno iskanje za učinkovito odkrivanje boljših urnikov hiperparametrov. Prav tako prihrani čas raziskovalcem – z vključitvijo PBT neposredno v Waymovo tehnično infrastrukturo lahko raziskovalci iz celotnega podjetja to metodo uporabijo s klikom gumba in porabijo manj časa za prilagajanje svojih stopenj učenja. Od zaključka teh poskusov je bil PBT uporabljen na številnih različnih modelih Waymo in veliko obeta za pomoč pri ustvarjanju zmogljivejših vozil za ceste.


Sodelujoči: Tukaj opisano delo je bilo raziskovalno sodelovanje med Yu-hsin Chenom in Matthieujem Devinom iz Wayma ter Alijem Razavijem, Ang Lijem, Sibonom Lijem, Olo Spyro, Pramodom Gupto in Oriolom Vinyalsom iz DeepMinda. Svetovalci pri projektu so Max Jaderberg, Valentin Dalibard, Meire Fortunato in Jackson Broshear iz DeepMinda.

Vir: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Časovni žig:

Več od Deep Mind - Najnovejša objava