100 triljoni parameetriga AI koolitusmudelit

Taasavaldanud Platon

järgijaid: 0

Recommender AI süsteemid on tänapäeval Interneti-teenuste oluline komponent: miljardi dollari suuruse tuluga ettevõtteid, nagu Amazon ja Netflix, juhivad otseselt soovitusteenused.

Tehisintellekti soovitajad muutuvad suuremaks kasvades paremaks. Varem on hiljuti välja antud mitmeid kuni triljoni parameetriga mudeleid. Iga hüpe mudeli mahus on oluliselt parandanud kvaliteeti. 100 triljoni parameetri ajastu on kohe käes.

Keeruline ja tihe puhkenärvivõrk on üha arvutusmahukam, igas treeningu iteratsioonis on rohkem kui 100 TFLOP-i. Seetõttu on selliste koolitusülesannete jaoks heterogeensete ressurssidega klastri haldamiseks oluline omada keerukat mehhanismi.

Hiljuti tegid Kwai Seattle AI Lab ja ETH Zürichi DS3 Lab koostööd, et pakkuda välja uudne süsteem nimega "Persia", et selle probleemiga toime tulla nii koolitusalgoritmi kui ka koolitussüsteemi hoolika ühise kavandamise kaudu. Algoritmi tasemel kasutab Persia hübriidset koolitusalgoritmi, et käsitleda manustamiskihti ja tihedaid närvivõrgu mooduleid erinevalt. Manuskihti treenitakse asünkroonselt, et parandada treeningnäidiste läbilaskevõimet, ülejäänud närvivõrku aga sünkroonselt, et säilitada statistiline tõhusus. Süsteemi tasandil on hübriidalgoritmi täieliku potentsiaali vallandamiseks rakendatud lai valik süsteemi optimeerimisi mälu haldamiseks ja side vähendamiseks.

Pilveressursid 100 triljoni parameetrilise AI mudeli jaoks

Persia 100 triljoni parameetri AI töökoormus töötab järgmistel heterogeensetel ressurssidel:

3,000 arvutusmahuka virtuaalse masina tuuma
8 A2 virtuaalmasinat, mis lisavad kokku 64 A100 Nvidia GPU-d
30 suure mälumahuga virtuaalmasinat, igaüks 12 TB muutmäluga, kokku 360 TB
Orkestreerimine koos Kubernetesega
Kõik ressursid tuli käivitada samaaegselt samas tsoonis, et minimeerida võrgu latentsust. Google Cloud suutis vajaliku võimsuse pakkuda väga vähese etteteatamisega.

AI koolitus vajab ressursse sarivõttena.

Google Kubernetes Engine (GKE) kasutati 138 VM-i ja tarkvarakonteinerite juurutamise korraldamiseks. Töökoormuse konteinerisse paigutamine võimaldab ka koolitust teisaldada ja korrata.

Tulemused ja järeldused
Google Cloud infrastruktuuri toel demonstreeris meeskond Persia skaleeritavust kuni 100 triljoni parameetrini. Hübriidne hajutatud treeningalgoritm tutvustas keerukaid süsteemilõdvendusi heterogeensete klastrite tõhusaks kasutamiseks, koondudes samal ajal sama kiiresti kui vanilje SGD. Google Cloud oli oluline kohapealse riistvara piirangute ületamiseks ja osutus optimaalseks arvutuskeskkonnaks laiaulatuslikuks hajutatud masinõppe koolituseks.

Persia on githubis välja antud avatud lähtekoodiga projektina koos Google Cloudi seadistamisjuhistega – kõigil nii akadeemiliste ringkondade kui ka tööstusharu esindajatel oleks lihtne koolitada 100 triljoni parameetri skaala sügava õppimisega soovituslikke mudeleid.

Brian Wang on futuristide mõttejuht ja populaarne teadusblogija, kellel on miljon lugejat kuus. Tema ajaveeb Nextbigfuture.com on teadusuudiste ajaveeb. See hõlmab paljusid häirivaid tehnoloogiaid ja suundumusi, sealhulgas kosmos, robootika, tehisintellekt, meditsiin, vananemisvastane biotehnoloogia ja nanotehnoloogia.

Tuntud tipptasemel tehnoloogiate tuvastamise poolest, on ta praegu suure potentsiaaliga varajases staadiumis ettevõtete käivitamise ja korjanduse kaasasutaja. Ta on süvatehnoloogiainvesteeringuteks eraldatavate teadusuuringute juht ja ingelinvestor Space Angels'is.

Korporatsioonides sagedane esineja, ta on olnud TEDx -esineja, Singularity University esineja ja külaline paljudel raadio- ja taskuhäälingusaadete intervjuudel. Ta on avatud avalikule esinemisele ja nõustamistegevustele.

Ajatempel: August 28, 2022August 28, 2022