100 billioner parameter AI treningsmodeller

Publisert av Platon

Følgere: 0

Recommender AI-systemer er en viktig komponent i Internett-tjenester i dag: milliarder dollar inntektsbedrifter som Amazon og Netflix er direkte drevet av anbefalingstjenester.

AI-anbefalere blir bedre etter hvert som de blir større. Flere modeller har tidligere blitt utgitt med milliarder parametere opptil til og med billioner helt nylig. Hvert hopp i modellkapasiteten har ført til betydelig kvalitetsforbedring. Tiden med 100 billioner parametere er rett rundt hjørnet.

Kompliserte, tette nevrale nettverk er stadig mer beregningsintensive med mer enn 100 TFLOP-er i hver treningsiterasjon. Derfor er det viktig å ha en eller annen sofistikert mekanisme for å administrere en klynge med heterogene ressurser for slike opplæringsoppgaver.

Nylig har Kwai Seattle AI Lab og DS3 Lab fra ETH Zurich samarbeidet for å foreslå et nytt system kalt "Persia" for å takle dette problemet gjennom nøye samdesign av både treningsalgoritmen og treningssystemet. På algoritmenivå tar Persia i bruk en hybrid treningsalgoritme for å håndtere innbyggingslaget og tette nevrale nettverksmoduler annerledes. Innebyggingslaget trenes asynkront for å forbedre gjennomstrømningen av treningsprøver, mens restens nevrale nettverk trenes synkront for å bevare statistisk effektivitet. På systemnivå er et bredt spekter av systemoptimaliseringer for minneadministrasjon og kommunikasjonsreduksjon implementert for å frigjøre det fulle potensialet til hybridalgoritmen.

Skyressurser for AI-modeller med 100 billioner parametere

Persia 100 billioner parameter AI arbeidsmengde kjører på følgende heterogene ressurser:

3,000 kjerner med dataintensive virtuelle maskiner
8 A2 virtuelle maskiner som legger til totalt 64 A100 Nvidia GPUer
30 virtuelle maskiner med høyt minne, hver med 12 TB RAM, totalt 360 TB
Orkestrering med Kubernetes
Alle ressurser måtte lanseres samtidig i samme sone for å minimere nettverksforsinkelsen. Google Cloud var i stand til å gi den nødvendige kapasiteten med svært lite varsel.

AI Training trenger ressurser i støt.

Google Kubernetes Engine (GKE) ble brukt til å orkestrere distribusjonen av de 138 VM-ene og programvarebeholderne. Å ha arbeidsmengden containerisert gir også mulighet for portering og repeterbarhet av treningen.

Resultater og konklusjoner
Med støtte fra Google Cloud-infrastrukturen demonstrerte teamet Persias skalerbarhet opp til 100 billioner parametere. Den hybride distribuerte treningsalgoritmen introduserte forseggjorte systemavslapninger for effektiv utnyttelse av heterogene klynger, mens den konvergerte like raskt som vanilje SGD. Google Cloud var avgjørende for å overvinne begrensningene til lokal maskinvare og viste seg å være et optimalt datamiljø for distribuert maskinlæringsopplæring i massiv skala.

Persia har blitt utgitt som et åpen kildekode-prosjekt på github med oppsettsinstruksjoner for Google Cloud – alle fra både akademia og industri vil finne det enkelt å trene 100 billioner-parameterskala, dyplærings-anbefalingsmodeller.

Brian Wang er en futuristisk tankeleder og en populær vitenskapsblogger med 1 million lesere per måned. Bloggen hans Nextbigfuture.com er rangert som #1 Science News Blog. Den dekker mange forstyrrende teknologi og trender, inkludert rom, robotikk, kunstig intelligens, medisin, anti-aging bioteknologi og nanoteknologi.

Han er kjent for å identifisere banebrytende teknologier, og er for tiden en av grunnleggerne av en oppstart og innsamling for høy potensielle selskaper i et tidlig stadium. Han er forskningssjef for allokasjoner for dype teknologiinvesteringer og en engelinvestor hos Space Angels.

Han er en hyppig foredragsholder i selskaper, og har vært TEDx -foredragsholder, høyttaler på Singularity University og gjest på mange intervjuer for radio og podcaster. Han er åpen for offentlige foredrag og rådgivning.

Tidstempel: August 28, 2022August 28, 2022