100 biljoner parametrar AI-träningsmodeller

Återutgiven av Platon

anhängare: 0

Recommender AI-system är en viktig komponent i internettjänster idag: miljarder dollarintäkter företag som Amazon och Netflix drivs direkt av rekommendationstjänster.

AI-rekommenderare blir bättre när de blir större. Flera modeller har tidigare släppts med miljarder parametrar upp till till och med biljoner helt nyligen. Varje hopp i modellkapaciteten har lett till betydande kvalitetsförbättringar. Eran med 100 biljoner parametrar är precis runt hörnet.

Komplicerade, täta vilonätverk är allt mer beräkningskrävande med mer än 100 TFLOPs i varje träningsiteration. Därför är det viktigt att ha någon sofistikerad mekanism för att hantera ett kluster med heterogena resurser för sådana utbildningsuppgifter.

Nyligen har Kwai Seattle AI Lab och DS3 Lab från ETH Zürich samarbetat för att föreslå ett nytt system som heter "Persia" för att tackla detta problem genom noggrann samdesign av både träningsalgoritmen och träningssystemet. På algoritmnivå använder Persia en hybrid träningsalgoritm för att hantera inbäddningsskiktet och täta neurala nätverksmoduler på olika sätt. Inbäddningsskiktet tränas asynkront för att förbättra genomströmningen av träningsprover, medan restens neurala nätverk tränas synkront för att bevara statistisk effektivitet. På systemnivå har ett brett utbud av systemoptimeringar för minneshantering och kommunikationsminskning implementerats för att frigöra den fulla potentialen hos hybridalgoritmen.

Molnresurser för AI-modeller med 100 biljoner parametrar

Persiens 100 biljoner parameter AI-arbetsbelastning körs på följande heterogena resurser:

3,000 XNUMX kärnor av datorintensiva virtuella maskiner
8 A2 virtuella maskiner som lägger till totalt 64 A100 Nvidia GPU:er
30 virtuella maskiner med högt minne, var och en med 12 TB RAM, totalt 360 TB
Orkestrering med Kubernetes
Alla resurser måste startas samtidigt i samma zon för att minimera nätverkslatens. Google Cloud kunde tillhandahålla den erforderliga kapaciteten med mycket kort varsel.

AI Training behöver resurser i skurar.

Google Kubernetes Engine (GKE) användes för att orkestrera distributionen av de 138 virtuella datorerna och programvarucontainrarna. Att ha arbetsbelastningen i container möjliggör också portering och repeterbarhet av träningen.

Resultat och slutsatser
Med stöd av Google Cloud-infrastrukturen demonstrerade teamet Persiens skalbarhet upp till 100 biljoner parametrar. Den hybriddistribuerade träningsalgoritmen introducerade utarbetade systemavslappningar för effektivt utnyttjande av heterogena kluster, samtidigt som den konvergerade lika snabbt som vanilj-SGD. Google Cloud var avgörande för att övervinna begränsningarna hos lokal hårdvara och visade sig vara en optimal datormiljö för distribuerad maskininlärningsutbildning i stor skala.

Persia har släppts som ett projekt med öppen källkod på github med installationsinstruktioner för Google Cloud – alla från både akademi och industri skulle tycka att det är lätt att träna 100 biljoner parametrars skala, djupinlärningsrekommendationsmodeller.

Brian Wang är en futuristisk tankeledare och en populär vetenskapbloggare med 1 miljon läsare per månad. Hans blogg Nextbigfuture.com är rankad som nummer 1 Science News Blog. Den täcker många störande teknik och trender, inklusive rymd, robotik, artificiell intelligens, medicin, anti-aging bioteknik och nanoteknik.

Känd för att identifiera banbrytande teknik, han är för närvarande en av grundarna av en start och insamling för högpotentiella företag i ett tidigt skede. Han är forskningschef för tilldelningar för djupa teknikinvesteringar och en ängelinvesterare på Space Angels.

Han har ofta varit talare på företag och har varit TEDx -talare, talare vid Singularity University och gäst på många intervjuer för radio och podcaster. Han är öppen för offentliga tal och rådgivning.

Tidsstämpel: Augusti 28, 2022Augusti 28, 2022