Kuidas evolutsiooniline valik saab treenida võimekamaid isejuhtivaid autosid

Allikasõlm: 749900

Evolutsioon Waymos

Esimesed katsed, mille kallal DeepMind ja Waymo tegid koostööd, hõlmasid meie andurite poolt tuvastatud jalakäijate, jalgratturite ja mootorratturite ümber karpe genereeriva võrgustiku väljaõpetamist, mida nimetatakse piirkonna ettepanekute võrgustikuks. Eesmärk oli uurida, kas PBT võib parandada närvivõrgu võimet jalakäijaid tuvastada kahe meetme abil: meeldetuletus (närvivõrguga tuvastatud jalakäijate osakaal sündmuskohal viibivate jalakäijate koguarvust) ja täpsus (avastatud jalakäijate osa, tegelikult jalakäijad, mitte võltsitud "valepositiivsed tulemused"). Waymo sõidukid tuvastavad need liiklejad mitme närvivõrgu ja muude meetodite abil, kuid selle katse eesmärk oli koolitada seda ühte närvivõrku nii, et see säilitaks meeldejäävuse üle 99%, vähendades samal ajal populatsioonipõhise koolituse abil valepositiivseid tulemusi.

Õppisime sellest katsest palju. Esiteks avastasime, et peame looma võrkude jaoks realistliku ja usaldusväärse hinnangu, et saaksime teada, kas närvivõrk toimiks tõesti paremini, kui seda reaalses maailmas erinevates olukordades kasutada. See hindamine oli aluseks võistlusele, mida PBT kasutab, et valida üks võitnud närvivõrk teisele. Et tagada närvivõrkude üldiselt hea toimimine ja mitte lihtsalt jätta pähe vastuseid treeningul nähtud näidetele, kasutab meie PBT-võistluste hindamine näidete komplekti (“valideerimiskomplekt”), mis erineb treeningutel kasutatavatest. “Treeningkomplekt”.) Lõpliku jõudluse kontrollimiseks kasutame ka kolmandat näidete komplekti (“hindamiskomplekt”), mida närvivõrgud pole kunagi treeningul ega võistlusel näinud.

Teiseks saime teada, et vajame kiiret hindamist, et toetada sagedast evolutsioonilist konkurentsi. Teadlased hindavad oma mudeleid koolituse ajal harva ja kui nad seda teevad, siis hindamist tehakse harva. PBT nõutavaid mudeleid hinnatakse iga 15 minuti järel. Selle saavutamiseks kasutasime Google'i andmekeskusi, et paralleelstada sadade hajutatud masinate hindamine.

Mitmekesisuse jõud evolutsioonilises konkurentsis

Nende katsete käigus märkasime, et üks PBT tugevusi - rohkemate ressursside eraldamine paremini toimivate võrkude järeltulijatele - võib olla ka nõrkus, kuna PBT optimeerib oleviku jaoks ega arvesta pikaajalisi tulemusi. See võib olla probleem, kuna see kahjustab hilise õitsenguga inimesi, mistõttu pikas perspektiivis paremini toimivate hüperparameetritega närvivõrkudel ei ole võimalust küpseda ja edu saavutada. Üks viis selle vastu võitlemiseks on rahvastiku mitmekesisuse suurendamine, mida on võimalik saavutada lihtsalt suurema elanikkonna koolitamisega. Kui populatsioon on piisavalt suur, on hilise õitsengu hüperparameetritega võrkudel suurem võimalus ellu jääda ja hilisematele põlvkondadele järele jõuda.

Nendes katsetes suutsime mitmekesisust suurendada, luues alampopulatsioone, mida nimetatakse "niššideks", kus närvivõrkudel lubati konkureerida ainult oma alarühmades – sarnaselt sellele, kuidas liigid saartel isoleerituna arenevad. Samuti püüdsime mitmekesisust otseselt premeerida tehnikaga, mida nimetatakse "fitnessi jagamiseks", kus mõõdame elanikkonna liikmete vahelist erinevust ja anname ainulaadsematele närvivõrkudele konkurentsieelise. Suurem mitmekesisus võimaldab PBT-l uurida suuremat hüperparameetriruumi.

Tulemused

PBT võimaldas mudeli jõudlust dramaatiliselt parandada. Ülaltoodud katse puhul suutsid meie PBT-mudelid saavutada suurema täpsuse, vähendades valepositiivseid tulemusi 24% võrreldes käsitsi häälestatud ekvivalendiga, säilitades samal ajal kõrge tagasikutsumissageduse. Evolutsiooniliste meetodite, nagu PBT, peamine eelis on see, et nad suudavad optimeerida meelevaldselt keerulisi mõõdikuid. Traditsiooniliselt saab närvivõrke treenida ainult lihtsate ja sujuvate kadufunktsioonide abil, mis toimivad puhverserverina selle jaoks, millest me tõesti hoolime. PBT võimaldas meil minna kaugemale närvivõrkude koolitamiseks kasutatavast värskendusreeglist ja minna keerukamate mõõdikute poole, mis optimeerivad meile olulisi funktsioone, nagu täpsuse maksimeerimine suure tagasikutsumise määra korral.

PBT säästab ka aega ja ressursse. PBT-treenitud võrkudega avastatud hüperparameetrite ajakava ületas Waymo varasemat võrku poole väiksema treeningaja ja ressurssidega. Üldiselt kasutab PBT poolt juhusliku paralleelotsingu jaoks kasutatavatest arvutusressurssidest, et tõhusalt leida paremaid hüperparameetrite ajakavasid. See säästab ka teadlaste aega – lisades PBT otse Waymo tehnilisse infrastruktuuri, saavad teadlased kogu ettevõttest seda meetodit ühe nupuvajutusega rakendada ja kulutada vähem aega oma õppimiskiiruste häälestamiseks. Alates nende katsete lõpuleviimisest on PBT-d rakendatud paljudele erinevatele Waymo mudelitele ja sellel on palju lubadusi, et aidata luua tee jaoks võimekamaid sõidukeid.


Kaastöötajad: Siin kirjeldatud töö oli teaduskoostöö Yu-hsin Cheni ja Matthieu Devini Waymo ning Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta ja Oriol Vinyalsi DeepMindi vahel. Projekti nõustajate hulka kuuluvad Max Jaderberg, Valentin Dalibard, Meire Fortunato ja Jackson Broshear DeepMindist.

Allikas: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Ajatempel:

Veel alates Deep Mind – viimane postitus