100 trilioni di modelli di addestramento AI con parametri

Nodo di origine: 1642849
Immagine

I sistemi di raccomandazione AI sono oggi una componente importante dei servizi Internet: le aziende con entrate da miliardi di dollari come Amazon e Netflix sono guidate direttamente dai servizi di raccomandazione.

I consiglieri di intelligenza artificiale migliorano man mano che diventano più grandi. Diversi modelli sono stati precedentemente rilasciati con miliardi di parametri fino a trilioni di miliardi molto di recente. Ogni salto nella capacità del modello ha portato a un miglioramento significativo della qualità. L'era dei 100 trilioni di parametri è dietro l'angolo.

La complicata e densa rete neurale a riposo richiede sempre più calcoli con più di 100 TFLOP in ogni iterazione di addestramento. Pertanto, è importante disporre di un meccanismo sofisticato per gestire un cluster con risorse eterogenee per tali attività di formazione.

Di recente, Kwai Seattle AI Lab e DS3 Lab dell'ETH di Zurigo hanno collaborato per proporre un nuovo sistema chiamato "Persia" per affrontare questo problema attraverso un'attenta co-progettazione sia dell'algoritmo di addestramento che del sistema di addestramento. A livello di algoritmo, Persia adotta un algoritmo di addestramento ibrido per gestire in modo diverso lo strato di incorporamento e i moduli della rete neurale densa. Il livello di incorporamento viene addestrato in modo asincrono per migliorare la velocità effettiva dei campioni di addestramento, mentre il resto della rete neurale viene addestrato in modo sincrono per preservare l'efficienza statistica. A livello di sistema, è stata implementata un'ampia gamma di ottimizzazioni di sistema per la gestione della memoria e la riduzione delle comunicazioni per liberare tutto il potenziale dell'algoritmo ibrido.

Risorse cloud per 100 trilioni di modelli di IA con parametri

Persia 100 trilioni di parametri di carico di lavoro AI viene eseguito sulle seguenti risorse eterogenee:

3,000 core di macchine virtuali ad alta intensità di calcolo
8 macchine virtuali A2 per un totale di 64 GPU Nvidia A100
30 macchine virtuali ad alta memoria, ciascuna con 12 TB di RAM, per un totale di 360 TB
Orchestrazione con Kubernetes
Tutte le risorse dovevano essere avviate contemporaneamente nella stessa zona per ridurre al minimo la latenza di rete. Google Cloud è stato in grado di fornire la capacità richiesta con pochissimo preavviso.

AI Training ha bisogno di risorse a raffica.

Google Kubernetes Engine (GKE) è stato utilizzato per orchestrare la distribuzione delle 138 macchine virtuali e contenitori software. Avere il carico di lavoro containerizzato consente anche il porting e la ripetibilità della formazione.

Risultati e conclusioni
Con il supporto dell'infrastruttura Google Cloud, il team ha dimostrato la scalabilità di Persia fino a 100 trilioni di parametri. L'algoritmo di addestramento distribuito ibrido ha introdotto elaborati rilassamenti di sistema per un utilizzo efficiente di cluster eterogenei, convergendo alla stessa velocità dell'SGD vaniglia. Google Cloud era essenziale per superare i limiti dell'hardware on-premise e si è rivelato un ambiente di elaborazione ottimale per la formazione distribuita su Machine Learning su vasta scala.

Persia è stato rilasciato come progetto open source su github con istruzioni di configurazione per Google Cloud: tutti, sia del mondo accademico che dell'industria, troverebbero facile addestrare modelli di raccomandazione di deep learning su scala di 100 trilioni di parametri.

Brian Wang è un leader del pensiero futurista e un popolare blogger scientifico con 1 milione di lettori al mese. Il suo blog Nextbigfuture.com è al primo posto tra i blog di notizie scientifiche. Copre molte tecnologie e tendenze dirompenti tra cui spazio, robotica, intelligenza artificiale, medicina, biotecnologia anti-invecchiamento e nanotecnologia.

Noto per l'identificazione di tecnologie all'avanguardia, è attualmente co-fondatore di una startup e raccolta fondi per aziende ad alto potenziale in fase iniziale. È Head of Research for Allocations for Deep Technology Investment e Angel Investor presso Space Angels.

Frequentatore di aziende, è stato speaker TEDx, speaker della Singularity University e ospite in numerose interviste per radio e podcast. È disponibile a parlare in pubblico e ad assumere incarichi di consulenza.

Timestamp:

Di più da Il prossimo grande futuro