Modele de antrenament AI cu parametri de 100 de trilioane

Nodul sursă: 1642849
imagine

Sistemele AI de recomandare sunt o componentă importantă a serviciilor de internet astăzi: afacerile cu venituri de miliarde de dolari precum Amazon și Netflix sunt direct conduse de serviciile de recomandare.

Recomandatorii AI se îmbunătățesc pe măsură ce devin mai mari. Mai multe modele au fost lansate anterior, cu miliarde de parametri până la trilioane, foarte recent. Fiecare salt în capacitatea modelului a adus o îmbunătățire semnificativă a calității. Era celor 100 de trilioane de parametri este chiar după colț.

Rețeaua neuronală de odihnă complicată și densă necesită din ce în ce mai mult calcul, cu mai mult de 100 de TFLOP-uri în fiecare iterație de antrenament. Astfel, este important să existe un mecanism sofisticat pentru a gestiona un cluster cu resurse eterogene pentru astfel de sarcini de formare.

Recent, Kwai Seattle AI Lab și DS3 Lab de la ETH Zurich au colaborat pentru a propune un nou sistem numit „Persia” pentru a aborda această problemă prin co-proiectare atentă atât a algoritmului de antrenament, cât și a sistemului de antrenament. La nivel de algoritm, Persia adoptă un algoritm de antrenament hibrid pentru a gestiona diferit stratul de încorporare și modulele de rețea neuronală densă. Stratul de încorporare este antrenat asincron pentru a îmbunătăți debitul probelor de antrenament, în timp ce restul rețelei neuronale este antrenat sincron pentru a păstra eficiența statistică. La nivel de sistem, au fost implementate o gamă largă de optimizări ale sistemului pentru managementul memoriei și reducerea comunicării pentru a elibera întregul potențial al algoritmului hibrid.

Resurse cloud pentru modele AI cu 100 de trilioane de parametri

Sarcina de lucru AI cu parametrii Persia de 100 de trilioane rulează pe următoarele resurse eterogene:

3,000 de nuclee de mașini virtuale intensive în calcul
8 mașini virtuale A2 adăugând un total de 64 de GPU-uri A100 Nvidia
30 de mașini virtuale cu memorie mare, fiecare cu 12 TB de RAM, însumând 360 TB
Orchestrare cu Kubernetes
Toate resursele trebuiau lansate simultan în aceeași zonă pentru a minimiza latența rețelei. Google Cloud a reușit să ofere capacitatea necesară cu foarte puțină notificare.

Antrenamentul AI are nevoie de resurse în rafale.

Google Kubernetes Engine (GKE) a fost utilizat pentru a orchestra implementarea celor 138 de VM și containere software. Containerizarea volumului de lucru permite, de asemenea, portarea și repetabilitatea instruirii.

Rezultate și concluzii
Cu sprijinul infrastructurii Google Cloud, echipa a demonstrat scalabilitatea Persiei de până la 100 de trilioane de parametri. Algoritmul de antrenament distribuit hibrid a introdus relaxări elaborate ale sistemului pentru utilizarea eficientă a clusterelor eterogene, convergând în același timp la fel de rapid ca vanilla SGD. Google Cloud a fost esențial pentru a depăși limitările hardware-ului on-premise și s-a dovedit un mediu de calcul optim pentru instruirea distribuită de învățare automată la scară masivă.

Persia a fost lansat ca proiect open source pe github, cu instrucțiuni de configurare pentru Google Cloud — tuturor din mediul academic și din industrie le-ar fi ușor să antreneze modele de recomandare pentru învățare profundă la scară de 100 de trilioane de parametri.

Brian Wang este un lider gânditor futurist și un popular blogger științific, cu 1 milion de cititori pe lună. Blogul său Nextbigfuture.com este clasat pe locul 1 pe Știrile știrilor. Acoperă multe tehnologii și tendințe perturbatoare, inclusiv spațiu, robotică, inteligență artificială, medicină, biotehnologie anti-îmbătrânire și nanotehnologie.

Cunoscut pentru identificarea tehnologiilor de vârf, el este în prezent co-fondator al unui startup și strângere de fonduri pentru companii cu potențial ridicat în faza incipientă. El este șeful cercetării pentru alocări pentru investiții în tehnologie profundă și un investitor înger la Space Angels.

Vorbitor frecvent la corporații, a fost vorbitor TEDx, vorbitor al Singularity University și invitat la numeroase interviuri pentru radio și podcast-uri. El este deschis vorbirii publice și consilierii angajamentelor.

Timestamp-ul:

Mai mult de la Următorul Mari Viituri