Tämä tekoäly oppi miljoonan algoritmin suunnittelun, joka auttaa rakentamaan uusia tekoälyjä nopeammin

Julkaissut Platon

seuraajia: 0

- tekoälyn räjähdysmäinen mittakaava on ollut vaikea jättää väliin viime vuosina. Edistyneimmillä algoritmeilla on nyt satoja miljardeja yhteyksiä, ja se vaatii miljoonia dollareita ja supertietokoneen kouluttamiseen. Mutta niin silmiinpistävä kuin suuri tekoäly onkin, edistys ei ole pelkästään mittakaavassa – työ spektrin vastakkaisella puolella on aivan yhtä tärkeää alan tulevaisuuden kannalta.

Jotkut tutkijat yrittävät tehdä tekoälyn rakentamisesta nopeampaa, tehokkaampaa ja helpommin saavutettavissa, ja yksi parannuskypsä alue on itse oppimisprosessi. Koska tekoälymallit ja niiden syöttämät tietojoukot ovat kasvaneet eksponentiaalisesti, edistyneiden mallien harjoittelu voi kestää päiviä tai viikkoja jopa supertietokoneissa.

Voiko olla parempaa tapaa? Kenties.

Uusi paperi julkaistiin preprint-palvelimella arXiv kuvailee, kuinka "hyperverkoksi" kutsuttu algoritmi voisi tehdä koulutusprosessista paljon tehokkaamman. Tutkimuksen hyperverkko oppi miljoonan esimerkkialgoritmin sisäiset yhteydet (tai parametrit), jotta se voisi esikonfiguroida uusien, kouluttamattomien algoritmien parametrit.

Tekoäly, nimeltään GHN-2, voi ennustaa ja asettaa kouluttamattoman hermoverkon parametrit sekunnin murto-osassa. Ja useimmissa tapauksissa GHN-2:n parametreja käyttävät algoritmit toimivat samoin kuin algoritmit, jotka olivat käyneet läpi tuhansia harjoituskierroksia.

Parantamisen varaa on, ja menetelmällä kehitetyt algoritmit vaativat vielä lisäkoulutusta saavuttaakseen huipputason tulokset. Mutta lähestymistapa voisi vaikuttaa positiivisesti alaan jos se vähentää tekoälyn rakentamiseen tarvittavaa energiaa, laskentatehoa ja rahaa.

Automatisoi AI

Vaikka koneoppiminen on osittain automatisoitua – toisin sanoen kukaan ei kerro koneoppimisalgoritmille tarkalleen, kuinka se suorittaa tehtävänsä –, algoritmien rakentaminen on itse asiassa paljon käytännönläheisempää. Vaatii paljon taitoa ja kokemusta hermoverkon sisäisten asetusten säätämiseen, jotta se voi oppia tehtävän riittävän korkealla tasolla ollakseen hyödyllinen.

"Se on melkein kuin olisi enemmän valmentaja kuin pelaaja", Demis Hassabis, DeepMindin perustaja, kertoi Wired vuonna 2016. "Sinä houkuttelet näitä asioita sen sijaan, että kerrot heille suoraan, mitä heidän tulee tehdä."

Noston vähentämiseksi tutkijat ovat kehittäneet työkaluja, joilla automatisoidaan tämän prosessin keskeisiä vaiheita, kuten esimerkiksi ideaalisen arkkitehtuurin löytäminen uudelle algoritmille. Neuraaliverkon arkkitehtuuri on korkean tason tavaraa, kuten keinotekoisten hermosolujen kerrosten lukumäärä ja kuinka nämä kerrokset liittyvät toisiinsa. Parhaan arkkitehtuurin löytäminen vaatii hyvän yrityksen ja erehdyksen, ja sen automatisointi voi säästää insinöörien aikaa.

Joten vuonna 2018 tutkijaryhmä Google Brainista ja Toronton yliopistosta rakensi algoritmin nimeltä graafihyperverkko tehdä työtä. He eivät tietenkään voineet kouluttaa joukkoa ehdokasarkkitehtuuria ja asettaa niitä toisiaan vastaan nähdäkseen, mikä olisi paras. Mahdollisuuksien joukko on valtava, ja niiden yksitellen harjoitteleminen karkaisisi nopeasti käsistä. Sen sijaan he käyttivät hyperverkkoa ennustaa ehdokasarkkitehtuurien parametrit, suorita ne tehtävän läpi ja luokittele ne sitten nähdäksesi, mikä suoriutui parhaiten.

Uusi tutkimus perustuu tähän ajatukseen. Sen sijaan, että käyttäisit hyperverkkoa arkkitehtuurien luokitteluun, tiimi keskittyi parametrien ennustamiseen. Rakentamalla hyperverkon, joka osaa ennustaa parametrien arvot, he ajattelivat, että he voisivat sitten soveltaa sitä Kaikki uusi algoritmi. Ja sen sijaan, että aloittaisivat satunnaisella arvojoukolla – mistä koulutus yleensä alkaa – ne voisivat antaa algoritmeille suuren etumatkan harjoitteluun.

Hyödyllisen tekoälyparametrivalitsimen rakentamiseksi tarvitset hyvän, syvän harjoitustietojoukon. Joten tiimi teki yhden – valikoiman miljoonasta mahdollisesta algoritmiarkkitehtuurista – kouluttaakseen GHN-2:ta. Koska tietojoukko on niin suuri ja monipuolinen, tiimi havaitsi, että GHN-2 voi yleistää hyvin arkkitehtuureihin, joita se ei ole koskaan nähnyt. "Ne voivat esimerkiksi ottaa huomioon kaikki tyypilliset nykyaikaiset arkkitehtuurit, joita ihmiset käyttävät", Thomas Kipf, tutkija Google Researchin Brain Teamista Amsterdamissa, äskettäin kertoi Quanta. "Se on yksi suuri panos."

Harjoittelun jälkeen tiimi käytti GHN-2:ta läpi vauhtinsa ja vertasi sen ennusteita käyttäviä algoritmeja perinteisesti koulutettuihin algoritmeihin.

Tulokset olivat vaikuttavia.

Perinteisesti algoritmit käyttävät prosessia nimeltä stokastinen gradienttilasku (SGD) hermoverkon yhteyksien asteittaiseen virittämiseen. Joka kerta kun algoritmi suorittaa tehtävän, todellista tulosta verrataan haluttuun tuottoon (onko tämä kuva kissasta vai koirasta?) ja verkon parametreja säädetään. Tuhansien tai miljoonien iteraatioiden aikana harjoittelu työntää algoritmia kohti optimaalista tilaa, jossa virheet minimoidaan.

Algoritmit, jotka käyttävät GHN-2:n ennusteita – eli ilman minkäänlaista koulutusta – vastasivat SGD:llä opetettujen algoritmien tarkkuutta tuhansien iteraatioiden aikana. Ratkaisevaa on kuitenkin, että GHN-2:lla meni alle sekunti mallin parametrien ennustamiseen, kun taas perinteisesti koulutetuilla algoritmeilla saman tason saavuttaminen kesti noin 10,000 XNUMX kertaa kauemmin.

Selvyyden vuoksi joukkueen saavuttama suorituskyky ei ole vielä huippuluokkaa. Useimmat koneoppimisalgoritmit on koulutettu paljon intensiivisemmin korkeampiin standardeihin. Mutta vaikka GHN-2:n kaltainen algoritmi ei saisi ennusteitaan aivan oikein – todennäköinen tulos – aloittamalla parametrijoukolla, joka on esimerkiksi 60 prosenttia tapauksesta, on paljon parempi kuin aloittaminen satunnaisten parametrien joukolla. . Algoritmit tarvitsevat vähemmän oppimisjaksoja saavuttaakseen optimaalisen tilansa.

"Tulokset ovat ehdottomasti erittäin vaikuttavia", DeepMindin Peter Veličković kertoi Quanta. "Ne periaatteessa alensivat energiakustannuksia merkittävästi."

Kun miljardiparametriset mallit väistyvät biljoonaparametristen mallien sijaan, on virkistävää nähdä tutkijoiden luovan tyylikkäitä ratkaisuja täydentämään raakaa voimaa. Vaikuttaa siltä, että tehokkuutta voidaan arvostaa yhtä paljon kuin mittakaavaa tulevina vuosina.

Kuva pistetilanne: Leni Johnston / Unsplash

Lähde: https://singularityhub.com/2022/01/31/this-ai-learned-the-design-of-a-million-algorithms-to-help-build-new-ais-faster/

Aikaleima: Tammikuu 31, 2022