100 biljoonaa parametrisen tekoälyn harjoitusmallia

Julkaissut Platon

seuraajia: 0

Recommender AI -järjestelmät ovat nykyään tärkeä osa Internet-palveluita: Amazonin ja Netflixin kaltaiset miljardin dollarin liikevaihdot ohjaavat suoraan suosituspalveluista.

AI-suosittelijat paranevat kasvaessaan. Useita malleja on julkaistu aiemmin miljardeilla parametreilla jopa biljoonaan äskettäin. Jokainen mallikapasiteetin hyppy on parantanut merkittävästi laatua. 100 biljoonan parametrin aikakausi on aivan nurkan takana.

Monimutkainen, tiheä lepohermoverkko vaatii yhä enemmän laskentaa ja jokaisessa harjoitusiteraatiossa on yli 100 TFLOP:ta. Siksi on tärkeää, että on olemassa jokin kehittynyt mekanismi klusterin hallitsemiseksi, jolla on heterogeeniset resurssit tällaisia koulutustehtäviä varten.

Äskettäin Kwai Seattle AI Lab ja DS3 Lab ETH Zurichista ovat tehneet yhteistyötä ehdottaakseen uutta Persia-nimistä järjestelmää tämän ongelman ratkaisemiseksi sekä koulutusalgoritmin että koulutusjärjestelmän huolellisen yhteissuunnittelun avulla. Algoritmitasolla Persia ottaa käyttöön hybridiharjoittelualgoritmin käsitelläkseen upotuskerrosta ja tiheitä hermoverkkomoduuleja eri tavalla. Upotuskerrosta koulutetaan asynkronisesti parantamaan harjoitusnäytteiden suorituskykyä, kun taas muu hermoverkko harjoitetaan synkronisesti tilastollisen tehokkuuden säilyttämiseksi. Järjestelmätasolla on toteutettu laaja valikoima järjestelmän optimointeja muistin hallintaa ja tiedonsiirron vähentämistä varten hybridialgoritmin täyden potentiaalin vapauttamiseksi.

Pilviresurssit 100 biljoonaan parametri-AI-malliin

Persia 100 biljoonan parametrin tekoälytyökuormitus toimii seuraavilla heterogeenisillä resursseilla:

3,000 ydintä tietokoneintensiivisiä virtuaalikoneita
8 A2-virtuaalikonetta, yhteensä 64 A100 Nvidia GPU:ta
30 suurimuistista virtuaalikonetta, joissa kussakin 12 Tt RAM-muistia, yhteensä 360 Tt
Orkesterisointi Kubernetesin kanssa
Kaikki resurssit oli käynnistettävä samanaikaisesti samalla vyöhykkeellä verkon latenssin minimoimiseksi. Google Cloud pystyi tarjoamaan tarvittavan kapasiteetin hyvin pienellä varoitusajalla.

AI Training tarvitsee resursseja purskeittain.

Google Kubernetes Engineä (GKE) käytettiin 138 VM:n ja ohjelmistokontin käyttöönoton ohjaamiseen. Työkuorman konteittaminen mahdollistaa myös koulutuksen siirtämisen ja toistettavuuden.

Tulokset ja päätelmät
Google Cloud -infrastruktuurin tuella tiimi osoitti Persian skaalautuvuuden jopa 100 biljoonaan parametriin. Hajautettu hybridiharjoittelualgoritmi esitteli monimutkaisia järjestelmän relaksaatioita heterogeenisten klustereiden tehokkaaseen hyödyntämiseen samalla kun se konvergoi yhtä nopeasti kuin vanilja SGD. Google Cloud oli välttämätön paikan päällä olevien laitteistojen rajoitusten voittamiseksi, ja se osoittautui optimaaliseksi laskentaympäristöksi hajautettua koneoppimiskoulutusta varten massiivisessa mittakaavassa.

Persia on julkaistu avoimen lähdekoodin projektina githubissa Google Cloudin asennusohjeineen – kaikkien sekä tiedemaailman että teollisuuden olisi helppo kouluttaa 100 biljoonan parametrin mittakaavassa syvän oppimisen suosittelumalleja.

Brian Wang on futuristisen ajattelun johtaja ja suosittu Science -bloggaaja, jolla on miljoona lukijaa kuukaudessa. Hänen bloginsa Nextbigfuture.com on sijalla 1 Science News Blog. Se kattaa monia häiritseviä tekniikoita ja suuntauksia, kuten avaruus, robotiikka, tekoäly, lääketiede, ikääntymistä estävä biotekniikka ja nanoteknologia.

Hän tunnetaan huipputeknologioiden tunnistamisesta, ja hän on tällä hetkellä perustaja ja varainkeräys korkean mahdollisen alkuvaiheen yrityksille. Hän on syvän teknologian investointien tutkimuksen johtaja ja Space Angelsin enkelisijoittaja.

Hän on usein puhunut yrityksissä, hän on ollut TEDx -puhuja, Singularity University -puhuja ja vieraana lukuisissa radio- ja podcast -haastatteluissa. Hän on avoin julkiselle puhumiselle ja neuvoille.

Aikaleima: Elokuu 28, 2022Elokuu 28, 2022