Modelos de treinamento de IA de 100 trilhões de parâmetros

Republicado por Platão

seguidores: 0

Os sistemas de IA de recomendação são um componente importante dos serviços de Internet hoje: negócios de receita de bilhões de dólares, como Amazon e Netflix, são direcionados diretamente por serviços de recomendação.

Os recomendadores de IA ficam melhores à medida que crescem. Vários modelos foram lançados anteriormente com bilhões de parâmetros até mesmo trilhões muito recentemente. Cada salto na capacidade do modelo trouxe uma melhoria significativa na qualidade. A era dos 100 trilhões de parâmetros está chegando.

A rede neural de descanso complexa e densa é cada vez mais intensiva em computação, com mais de 100 TFLOPs em cada iteração de treinamento. Assim, é importante ter algum mecanismo sofisticado para gerenciar um cluster com recursos heterogêneos para tais tarefas de treinamento.

Recentemente, o Kwai Seattle AI Lab e o DS3 Lab da ETH Zurich colaboraram para propor um novo sistema chamado “Persia” para resolver esse problema por meio de um co-design cuidadoso do algoritmo de treinamento e do sistema de treinamento. No nível do algoritmo, a Persia adota um algoritmo de treinamento híbrido para lidar com a camada de incorporação e os módulos de rede neural densa de maneira diferente. A camada de incorporação é treinada de forma assíncrona para melhorar a taxa de transferência das amostras de treinamento, enquanto o restante da rede neural é treinada de forma síncrona para preservar a eficiência estatística. No nível do sistema, uma ampla gama de otimizações de sistema para gerenciamento de memória e redução de comunicação foi implementada para liberar todo o potencial do algoritmo híbrido.

Recursos de nuvem para modelos de IA de 100 trilhões de parâmetros

A carga de trabalho de IA de parâmetro de 100 trilhões da Persia é executada nos seguintes recursos heterogêneos:

3,000 núcleos de máquinas virtuais de computação intensiva
8 máquinas virtuais A2 adicionando um total de 64 GPUs Nvidia A100
30 Máquinas Virtuais de Alta Memória, cada uma com 12 TB de RAM, totalizando 360 TB
Orquestração com Kubernetes
Todos os recursos precisavam ser lançados simultaneamente na mesma zona para minimizar a latência da rede. O Google Cloud conseguiu fornecer a capacidade necessária sem aviso prévio.

O treinamento de IA precisa de recursos em rajadas.

O Google Kubernetes Engine (GKE) foi utilizado para orquestrar a implantação das 138 VMs e contêineres de software. Ter a carga de trabalho em contêiner também permite a portabilidade e a repetibilidade do treinamento.

Resultados e Conclusões
Com o suporte da infraestrutura do Google Cloud, a equipe demonstrou a escalabilidade da Persia em até 100 trilhões de parâmetros. O algoritmo de treinamento distribuído híbrido introduziu relaxamentos de sistema elaborados para utilização eficiente de clusters heterogêneos, enquanto convergia tão rápido quanto o SGD vanilla. O Google Cloud foi essencial para superar as limitações do hardware local e provou ser um ambiente de computação ideal para treinamento distribuído de Machine Learning em grande escala.

O Persia foi lançado como um projeto de código aberto no github com instruções de configuração para o Google Cloud — todos da academia e da indústria achariam fácil treinar modelos de recomendação de aprendizado profundo em escala de 100 trilhões de parâmetros.

Brian Wang é um líder de pensamento futurista e um blogueiro de ciência popular com 1 milhão de leitores por mês. Seu blog Nextbigfuture.com é classificado como # 1 Science News Blog. Abrange muitas tecnologias e tendências disruptivas, incluindo Espaço, Robótica, Inteligência Artificial, Medicina, Biotecnologia Anti-envelhecimento e Nanotecnologia.

Conhecido por identificar tecnologias de ponta, ele atualmente é cofundador de uma startup e arrecadação de fundos para empresas em estágio inicial de alto potencial. Ele é o chefe de pesquisa de alocações para investimentos em tecnologia profunda e um investidor anjo da Space Angels.

Um palestrante frequente em empresas, ele foi um palestrante TEDx, um palestrante da Singularity University e convidado em várias entrevistas para rádio e podcasts. Ele está aberto para falar em público e aconselhar compromissos.

Carimbo de hora: 28 de agosto de 202228 de agosto de 2022