100 bilionów parametrów modeli szkoleniowych AI

Opublikowane ponownie przez Plato

Obserwuje: 0

Systemy Recommender AI są dziś ważnym składnikiem usług internetowych: firmy takie jak Amazon i Netflix zarabiają miliardy dolarów, są bezpośrednio napędzane przez usługi rekomendacji.

Osoby polecające AI stają się coraz lepsze, gdy stają się większe. Kilka modeli zostało wcześniej wydanych z miliardami parametrów, a ostatnio nawet bilionami. Każdy skok w pojemności modelu przyniósł znaczną poprawę jakości. Era 100 bilionów parametrów jest tuż za rogiem.

Skomplikowana, gęsta sieć neuronowa spoczynkowa jest coraz bardziej wymagająca obliczeniowo z ponad 100 TFLOP w każdej iteracji treningu. Dlatego ważne jest posiadanie jakiegoś wyrafinowanego mechanizmu zarządzania klastrem z heterogenicznymi zasobami do takich zadań szkoleniowych.

Niedawno Kwai Seattle AI Lab i DS3 Lab z ETH Zurich podjęły współpracę, aby zaproponować nowatorski system o nazwie „Persia”, aby rozwiązać ten problem poprzez staranne współprojektowanie zarówno algorytmu szkoleniowego, jak i systemu szkoleniowego. Na poziomie algorytmu Persia przyjmuje hybrydowy algorytm uczenia, aby inaczej obsługiwać warstwę osadzania i gęste moduły sieci neuronowej. Warstwa osadzania jest trenowana asynchronicznie w celu poprawy przepustowości próbek treningowych, podczas gdy pozostała sieć neuronowa jest trenowana synchronicznie w celu zachowania wydajności statystycznej. Na poziomie systemu zaimplementowano szeroki zakres optymalizacji systemu w celu zarządzania pamięcią i redukcji komunikacji, aby uwolnić pełny potencjał algorytmu hybrydowego.

Zasoby w chmurze dla 100 bilionów parametrów modeli sztucznej inteligencji

Obciążenie sztucznej inteligencji o parametrach 100 bilionów parametrów Persia działa na następujących heterogenicznych zasobach:

3,000 rdzeni intensywnie korzystających z mocy obliczeniowych maszyn wirtualnych
8 maszyn wirtualnych A2 łącznie z 64 procesorami graficznymi A100 Nvidia
30 maszyn wirtualnych o dużej pamięci, każda z 12 TB pamięci RAM, łącznie 360 TB
Orkiestracja z Kubernetes
Wszystkie zasoby musiały być uruchamiane jednocześnie w tej samej strefie, aby zminimalizować opóźnienia sieci. Google Cloud był w stanie zapewnić wymaganą pojemność z bardzo niewielkim wyprzedzeniem.

Szkolenie AI wymaga zasobów w nagłych wypadkach.

Do zorganizowania wdrożenia 138 maszyn wirtualnych i kontenerów oprogramowania wykorzystano Google Kubernetes Engine (GKE). Konteneryzacja obciążenia pozwala również na przenoszenie i powtarzalność szkolenia.

Wyniki i wnioski
Przy wsparciu infrastruktury Google Cloud zespół zademonstrował skalowalność Persji do 100 bilionów parametrów. Hybrydowy algorytm uczenia rozproszonego wprowadził skomplikowane metody relaksacji systemu w celu efektywnego wykorzystania heterogenicznych klastrów, przy jednoczesnej zbieżności tak szybko, jak waniliowy SGD. Usługa Google Cloud była niezbędna do przezwyciężenia ograniczeń sprzętu lokalnego i okazała się optymalnym środowiskiem obliczeniowym do rozproszonego szkolenia uczenia maszynowego na masową skalę.

Persia została udostępniona jako projekt open source na github z instrukcjami konfiguracji dla Google Cloud — zarówno ze środowiska akademickiego, jak i branżowego z łatwością przeszkoli się modele rekomendacji głębokiego uczenia o skali 100 bilionów parametrów.

Brian Wang jest liderem myśli futurystycznej i popularnym blogerem naukowym z milionem czytelników miesięcznie. Jego blog Nextbigfuture.com zajmuje pierwsze miejsce w rankingu Science News Blog. Obejmuje wiele przełomowych technologii i trendów, w tym przestrzeń kosmiczną, robotykę, sztuczną inteligencję, medycynę, biotechnologię przeciwstarzeniową i nanotechnologię.

Znany z identyfikowania najnowocześniejszych technologii, obecnie jest współzałożycielem startupu i fundraiserem dla firm o wysokim potencjale we wczesnej fazie rozwoju. Pełni funkcję Szefa Działu Badań Alokacji dla inwestycji w głębokie technologie oraz Anioła Inwestora w Space Angels.

Częsty mówca w korporacjach, mówca TEDx, mówca Singularity University i gościnnie w licznych wywiadach dla radia i podcastów. Jest otwarty na wystąpienia publiczne i doradzanie.

Znak czasu: 28 sierpnia 2022 r.28 sierpnia 2022 r.