100 billioner parameter AI træningsmodeller

Genudgivet af Platon

Abonnenter: 0

Recommender AI-systemer er en vigtig komponent i internettjenester i dag: milliarder dollar indtægtsvirksomheder som Amazon og Netflix er direkte drevet af anbefalingstjenester.

AI-anbefalere bliver bedre, efterhånden som de bliver større. Adskillige modeller er tidligere blevet frigivet med milliarder parametre op til endda billioner for ganske nylig. Hvert spring i modelkapaciteten har medført en væsentlig forbedring af kvaliteten. Tiden med 100 billioner parametre er lige rundt om hjørnet.

Kompliceret, tæt hvile-neuralt netværk er i stigende grad beregningsintensivt med mere end 100 TFLOP'er i hver træningsiteration. Det er således vigtigt at have en eller anden sofistikeret mekanisme til at styre en klynge med heterogene ressourcer til sådanne træningsopgaver.

For nylig har Kwai Seattle AI Lab og DS3 Lab fra ETH Zurich samarbejdet om at foreslå et nyt system ved navn "Persia" for at tackle dette problem gennem omhyggeligt co-design af både træningsalgoritmen og træningssystemet. På algoritmeniveau anvender Persia en hybrid træningsalgoritme til at håndtere indlejringslaget og tætte neurale netværksmoduler anderledes. Indlejringslaget trænes asynkront for at forbedre gennemløbet af træningsprøver, mens restens neurale netværk trænes synkront for at bevare statistisk effektivitet. På systemniveau er der implementeret en lang række systemoptimeringer til hukommelsesstyring og kommunikationsreduktion for at frigøre hybridalgoritmens fulde potentiale.

Cloud-ressourcer til 100 billioner Parameter AI-modeller

Persiens 100 billioner parameter AI-arbejdsbelastning kører på følgende heterogene ressourcer:

3,000 kerner af computerintensive virtuelle maskiner
8 A2 virtuelle maskiner tilføjer i alt 64 A100 Nvidia GPU'er
30 virtuelle maskiner med høj hukommelse, hver med 12 TB RAM, i alt 360 TB
Orkestrering med Kubernetes
Alle ressourcer skulle lanceres samtidigt i samme zone for at minimere netværksforsinkelse. Google Cloud var i stand til at levere den nødvendige kapacitet med meget lidt varsel.

AI-træning har brug for ressourcer i byger.

Google Kubernetes Engine (GKE) blev brugt til at orkestrere implementeringen af de 138 VM'er og softwarecontainere. At have arbejdsbyrden containeriseret giver også mulighed for portering og repeterbarhed af træningen.

Resultater og konklusioner
Med støtte fra Google Cloud-infrastrukturen demonstrerede teamet Persias skalerbarhed på op til 100 billioner parametre. Den hybride distribuerede træningsalgoritme introducerede komplicerede systemafslapninger for effektiv udnyttelse af heterogene klynger, mens den konvergerer så hurtigt som vanilje SGD. Google Cloud var afgørende for at overvinde begrænsningerne ved on-premise hardware og viste sig at være et optimalt computermiljø til distribueret Machine Learning-træning i massiv skala.

Persia er blevet frigivet som et open source-projekt på github med opsætningsinstruktioner til Google Cloud – alle fra både den akademiske verden og industrien ville finde det nemt at træne 100 billioner-parameter-skala, deep learning-anbefalingsmodeller.

Brian Wang er en futuristisk tankeleder og en populær Science blogger med 1 million læsere om måneden. Hans blog Nextbigfuture.com er rangeret som #1 Science News Blog. Det dækker mange forstyrrende teknologi og tendenser, herunder rum, robotik, kunstig intelligens, medicin, anti-aging bioteknologi og nanoteknologi.

Han er kendt for at identificere banebrydende teknologier og er i øjeblikket medstifter af en opstart og fundraiser til virksomheder med et højt potentiale på et tidligt stadium. Han er forskningschef for tildelinger til dybe teknologiske investeringer og en engelinvestor hos Space Angels.

Han har været en hyppig foredragsholder i virksomheder og har været TEDx -højttaler, en Singularity University -højttaler og gæst ved adskillige interviews til radio og podcasts. Han er åben for offentlige taler og rådgivende engagementer.

Tidsstempel: August 28, 2022August 28, 2022