100 trilijonov parametrov modelov za usposabljanje AI

Ponovno objavil Platon

Spremljevalci: 0

Sistemi umetne inteligence za priporočanje so danes pomemben sestavni del internetnih storitev: podjetja s prihodki v milijardah dolarjev, kot sta Amazon in Netflix, neposredno poganjajo storitve priporočil.

Priporočevalci AI postajajo boljši, ko postajajo večji. Pred kratkim je bilo izdanih več modelov z milijardami parametrov do celo trilijonov. Vsak skok v zmogljivosti modela je prinesel znatno izboljšanje kakovosti. Obdobje 100 trilijonov parametrov je pred vrati.

Zapletena, gosta mirujoča nevronska mreža je vedno bolj računalniško intenzivna z več kot 100 TFLOP-ji v vsaki ponovitvi usposabljanja. Zato je pomembno imeti nek sofisticiran mehanizem za upravljanje gruče s heterogenimi viri za takšne naloge usposabljanja.

Pred kratkim sta Kwai Seattle AI Lab in DS3 Lab iz ETH Zürich sodelovala, da bi predlagala nov sistem, imenovan »Persia«, za reševanje te težave s skrbnim sooblikovanjem algoritma za usposabljanje in sistema za usposabljanje. Na ravni algoritma Persia sprejme algoritem hibridnega usposabljanja za drugačno obravnavo vdelane plasti in modulov gostega nevronskega omrežja. Vdelana plast se usposablja asinhrono, da se izboljša prepustnost učnih vzorcev, medtem ko se preostala nevronska mreža usposablja sinhrono, da se ohrani statistična učinkovitost. Na sistemski ravni je bil implementiran širok nabor sistemskih optimizacij za upravljanje pomnilnika in zmanjšanje komunikacije, da se sprosti polni potencial hibridnega algoritma.

Viri v oblaku za modele umetne inteligence s 100 bilijoni parametrov

Delovna obremenitev umetne inteligence s parametri Persia 100 bilijonov se izvaja na naslednjih heterogenih virih:

3,000 jeder računalniško intenzivnih virtualnih strojev
8 virtualnih strojev A2, ki skupaj dodajo 64 grafičnih procesorjev A100 Nvidia
30 navideznih strojev z velikim pomnilnikom, vsak z 12 TB RAM-a, skupaj 360 TB
Orkestracija s Kubernetesom
Vse vire je bilo treba zagnati sočasno v istem območju, da se zmanjša zakasnitev omrežja. Google Cloud je lahko zagotovil zahtevano zmogljivost z zelo malo obvestila.

Usposabljanje z umetno inteligenco potrebuje vire v rafalih.

Google Kubernetes Engine (GKE) je bil uporabljen za usmerjanje uvajanja 138 navideznih strojev in vsebnikov programske opreme. Zbranost delovne obremenitve omogoča tudi prenos in ponovljivost usposabljanja.

Rezultati in sklepi
S podporo infrastrukture Google Cloud je ekipa dokazala razširljivost Perzije do 100 trilijonov parametrov. Hibridni porazdeljeni algoritem za usposabljanje je uvedel dodelane sistemske sprostitve za učinkovito uporabo heterogenih grozdov, medtem ko konvergira tako hitro kot vanilla SGD. Google Cloud je bil ključnega pomena za premagovanje omejitev strojne opreme na mestu uporabe in se je izkazal kot optimalno računalniško okolje za porazdeljeno usposabljanje strojnega učenja v velikem obsegu.

Persia je bila izdana kot odprtokodni projekt na githubu z navodili za nastavitev za Google Cloud – vsi iz akademskih krogov in industrije bi zlahka usposobili priporočljive modele globokega učenja s 100 bilijoni parametrov.

Brian Wang je vodja futurističnih misli in priljubljen znanstveni bloger z 1 milijonom bralcev na mesec. Njegov blog Nextbigfuture.com je na prvem mestu na spletnem mestu Science News Blog. Zajema številne moteče tehnologije in trende, vključno z vesoljem, robotiko, umetno inteligenco, medicino, biotehnologijo proti staranju in nanotehnologijo.

Znan po prepoznavanju najsodobnejših tehnologij, je trenutno soustanovitelj zagona in zbiranja sredstev za velika potencialna podjetja v zgodnji fazi. Je vodja raziskav za dodelitve za globoke tehnološke naložbe in investitor angelov pri Space Angels.

Pogost govornik v korporacijah, bil je govornik TEDx, govornik univerze Singularity in gost številnih intervjujev za radio in podcaste. Odprt je za javno nastopanje in svetovanje.

Časovni žig: Avgust 28, 2022Avgust 28, 2022