Kuinka evoluutiovalinta voi kouluttaa tehokkaampia itse ajavia autoja

Lähdesolmu: 749900

Evolution Waimossa

Ensimmäiset kokeet, joissa DeepMind ja Waymo olivat yhteistyössä, olivat kouluttamassa verkkoa, joka tuottaa antureidemme havaitsemia jalankulkijoiden, pyöräilijöiden ja moottoripyöräilijöiden ympärille - nimeltään ”alueehdotusverkko”. Tavoitteena oli selvittää, voiko PBT parantaa hermoverkon kykyä havaita jalankulkijoita kahdella toimenpiteellä: muistuttaminen (neurallisen verkon tunnistama jalankulkijoiden osuus tapahtumapaikan jalankulkijoiden kokonaismäärästä) ja tarkkuus (havaittujen jalankulkijoiden osuus, joka on itse asiassa jalankulkijoita, eikä vääriä ”vääriä positiivisia”). Waymo: n ajoneuvot havaitsevat nämä tienkäyttäjät useilla hermoverkoilla ja muilla menetelmillä, mutta tämän kokeilun tavoitteena oli kouluttaa tämä yksi hermoverkko ylläpitämään yli 99%: n muistiinpanoa samalla vähentämällä vääriä positiivisia väestöpohjaista koulutusta käyttämällä.

Opimme paljon tästä kokeilusta. Ensinnäkin huomasimme, että meidän on luotava realistinen ja vankka arvio verkoille, jotta tiedäisimme, toimiiko hermoverkko todella paremmin, kun sitä käytetään monissa eri tilanteissa todellisessa maailmassa. Tämä arviointi muodosti perustan kilpailulle, jonka PBT työllistää valita yhden voittavan hermoverkon toisen päälle. Jotta hermostoverkot toimisivat yleensä hyvin ja etteivät vain muista vastauksia koulutuksen aikana näkemiin esimerkkeihin, PBT-kilpailun arviointimme käyttää joukko esimerkkejä (”validointijoukko”), joka eroaa harjoituksissa käytetyistä ( ”Treenisarja.”) Lopullisen suorituksen tarkistamiseksi käytämme myös kolmatta esimerkkiä (”arviointijoukko”), joita hermoverkot eivät ole koskaan nähneet harjoituksissa tai kilpailussa.

Toiseksi oppimme, että tarvitsemme nopeaa arviointia tukeaksemme usein evoluutiokilpailua. Tutkijat arvioivat malleja harvoin koulutuksen aikana, ja kun he tekevät, arviointi tehdään harvoin. PBT: n vaatimat mallit arvioidaan 15 minuutin välein. Saavuttaaksemme tämän hyödynnimme Googlen tietokeskuksia hyödyntääksemme arviointia satojen jaettujen koneiden kesken.

Monimuotoisuuden voima evoluutiokilpailussa

Näiden kokeilujen aikana huomasimme, että yksi PBT: n vahvuuksista - osoittaa enemmän resursseja paremmin toimivien verkkojen jälkeläisille - voi olla myös heikkous, koska PBT optimoi nykyhetken ja ei ota huomioon pitkän aikavälin tuloksia. Tämä voi olla ongelma, koska se haittaa myöhässä nousevia bloomereita, joten hermostoverkoilla, joilla on hyperparametrit, jotka toimivat paremmin pitkällä aikavälillä, ei ole mahdollisuutta kypsyä ja menestyä. Yksi tapa torjua tätä on lisätä väestön monimuotoisuutta, mikä voidaan saavuttaa yksinkertaisesti kouluttamalla suurempi väestö. Jos väestö on riittävän suuri, verkoilla, joissa on myöhään kukkivat hyperparametrit, on enemmän mahdollisuuksia selviytyä ja tarttua myöhempiin sukupolviin.

Näissä kokeissa pystyimme lisäämään monimuotoisuutta luomalla alarajoja, joita kutsutaan ”markkinarakoiksi”, joissa hermoverkkojen annettiin kilpailla vain omien alaryhmiensä sisällä - samaan tapaan kuin lajien kehitys, kun ne eristetään saarilla. Yritimme myös palkita monimuotoisuutta suoraan ”kuntojakamisella” kutsutulla tekniikalla, jossa mitataan väestöryhmien välinen ero ja annamme yksilöllisemmille hermoverkoille etuna kilpailuun. Suurempi monimuotoisuus antaa PBT: lle mahdollisuuden tutkia suurempaa hyperparametritilaa.

tulokset

PBT mahdollisti dramaattiset parannukset mallin suorituskyvyssä. Yllä olevaan kokeeseen PBT-mallimme pystyivät saavuttamaan suuremman tarkkuuden vähentämällä vääriä positiivisia 24% verrattuna sen käsin viritettyyn vastaavaan, pitäen samalla yllä korkean muistinopeuden. PBT: n kaltaisten evoluutiomenetelmien tärkein etu on, että ne voivat optimoida mielivaltaisesti monimutkaisia ​​mittareita. Perinteisesti hermoverkot voidaan kouluttaa vain käyttämällä yksinkertaisia ​​ja sujuvia häviötoimintoja, jotka toimivat välityspalveluna siihen, mistä me todella välitämme. PBT: n avulla voimme mennä hermosähköverkkojen koulutukseen käytetyn päivityssäännön ulkopuolelle ja kohti monimutkaisempia mittareita, jotka optimoivat meille tärkeitä ominaisuuksia, kuten maksimoida tarkkuus korkeilla muistinopeuksilla.

PBT säästää myös aikaa ja resursseja. PBT-koulutetuilla verkoilla löydetty hyperparametrien aikataulu ylitti Waymon edellisen verkon puolella harjoitusajasta ja resursseista. Kaiken kaikkiaan PBT käyttää puolet satunnaisen rinnakkaishaun käyttämistä laskennallisista resursseista parempien hyperparametrien aikataulujen löytämiseen. Se säästää myös aikaa tutkijoille - sisällyttämällä PBT suoraan Waymon tekniseen infrastruktuuriin tutkijat kaikkialta yrityksestä voivat soveltaa tätä menetelmää napin painalluksella ja viettää vähemmän aikaa oppimisnopeuksiensa säätämiseen. Näiden kokeiden päättymisen jälkeen PBT: tä on käytetty moniin erilaisiin Waymo-malleihin, ja sillä on paljon lupauksia auttaa luomaan entistä kykyisempiä ajoneuvoja tielle.


Avustajat: Tässä kuvattu teos oli tutkimusyhteistyö Yu-hsin Chenin ja Waymoksen Matthieu Devinin sekä Ali Razavin, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta ja Oriol Vinyals kanssa DeepMindistä. Hankkeen neuvonantajia ovat Max Jaderberg, Valentin Dalibard, Meire Fortunato ja Jackson Broshear DeepMindiltä.

Lähde: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Aikaleima:

Lisää aiheesta Syvä mieli - Uusin viesti