100 billions de modèles de formation d'IA de paramètres

Nœud source: 1642849
image

Les systèmes d'IA de recommandation sont aujourd'hui un élément important des services Internet : des entreprises qui génèrent des revenus d'un milliard de dollars comme Amazon et Netflix sont directement pilotées par les services de recommandation.

Les recommandateurs d'IA s'améliorent à mesure qu'ils grandissent. Plusieurs modèles ont déjà été publiés avec des milliards de paramètres jusqu'à même des billions très récemment. Chaque saut dans la capacité du modèle a apporté une amélioration significative de la qualité. L'ère des 100 XNUMX milliards de paramètres approche à grands pas.

Le réseau de neurones de repos complexe et dense nécessite de plus en plus de calculs avec plus de 100 TFLOP à chaque itération de formation. Ainsi, il est important de disposer d'un mécanisme sophistiqué pour gérer un cluster avec des ressources hétérogènes pour de telles tâches de formation.

Récemment, Kwai Seattle AI Lab et DS3 Lab de l'ETH Zurich ont collaboré pour proposer un nouveau système nommé "Persia" pour résoudre ce problème grâce à une co-conception minutieuse de l'algorithme de formation et du système de formation. Au niveau de l'algorithme, Persia adopte un algorithme de formation hybride pour gérer différemment la couche d'intégration et les modules de réseau neuronal dense. La couche d'intégration est entraînée de manière asynchrone pour améliorer le débit des échantillons d'entraînement, tandis que le reste du réseau neuronal est entraîné de manière synchrone pour préserver l'efficacité statistique. Au niveau du système, un large éventail d'optimisations du système pour la gestion de la mémoire et la réduction de la communication ont été mises en œuvre pour libérer tout le potentiel de l'algorithme hybride.

Ressources cloud pour des modèles d'IA à 100 XNUMX milliards de paramètres

La charge de travail d'IA Persia de 100 XNUMX milliards de paramètres s'exécute sur les ressources hétérogènes suivantes :

3,000 XNUMX cœurs de machines virtuelles gourmandes en ressources de calcul
8 machines virtuelles A2 ajoutant un total de 64 GPU Nvidia A100
30 machines virtuelles à mémoire élevée, chacune avec 12 To de RAM, totalisant 360 To
Orchestration avec Kubernetes
Toutes les ressources devaient être lancées simultanément dans la même zone pour minimiser la latence du réseau. Google Cloud a été en mesure de fournir la capacité requise avec un préavis très court.

AI Training a besoin de ressources en rafales.

Google Kubernetes Engine (GKE) a été utilisé pour orchestrer le déploiement des 138 VM et conteneurs de logiciels. La conteneurisation de la charge de travail permet également le portage et la répétabilité de la formation.

Résultats et conclusions
Avec l'aide de l'infrastructure Google Cloud, l'équipe a démontré l'évolutivité de Persia jusqu'à 100 XNUMX milliards de paramètres. L'algorithme d'entraînement distribué hybride a introduit des relaxations système élaborées pour une utilisation efficace des clusters hétérogènes, tout en convergeant aussi rapidement que la vanille SGD. Google Cloud était essentiel pour surmonter les limites du matériel sur site et s'est avéré un environnement informatique optimal pour la formation distribuée en apprentissage automatique à grande échelle.

Persia a été publié en tant que projet open source sur github avec des instructions de configuration pour Google Cloud - tout le monde, du milieu universitaire et de l'industrie, trouverait facile de former des modèles de recommandation d'apprentissage en profondeur à l'échelle de 100 XNUMX milliards de paramètres.

Brian Wang est un leader d'opinion futuriste et un blogueur scientifique populaire avec 1 million de lecteurs par mois. Son blog Nextbigfuture.com est classé #1 Science News Blog. Il couvre de nombreuses technologies et tendances de rupture, notamment l'espace, la robotique, l'intelligence artificielle, la médecine, la biotechnologie anti-âge et la nanotechnologie.

Connu pour identifier les technologies de pointe, il est actuellement co-fondateur d'une startup et collecte de fonds pour des entreprises en démarrage à fort potentiel. Il est le responsable de la recherche pour les allocations pour les investissements technologiques en profondeur et un investisseur providentiel chez Space Angels.

Conférencier fréquent dans des entreprises, il a été conférencier TEDx, conférencier de la Singularity University et invité à de nombreuses interviews pour la radio et les podcasts. Il est ouvert aux prises de parole en public et aux missions de conseil.

Horodatage:

Plus de Prochains grands avenirs