A execução de cargas de trabalho de aprendizado de máquina (ML) com contêineres está se tornando uma prática comum. Os contêineres podem encapsular totalmente não apenas seu código de treinamento, mas toda a pilha de dependências até as bibliotecas de hardware e drivers. O que você obtém é um ambiente de desenvolvimento de ML consistente e portátil. Com contêineres, o dimensionamento em um cluster se torna muito mais fácil.
No final de 2022, a AWS anunciou a disponibilidade geral de Instâncias Amazon EC2 Trn1 alimentado por Treinamento AWS aceleradores, que são construídos especificamente para treinamento de aprendizado profundo de alto desempenho. As instâncias Trn1 oferecem até 50% de economia nos custos de treinamento em relação a outras instâncias comparáveis Amazon Elastic Compute Nuvem (Amazon EC2). Também o SDK do AWS Neuron foi lançado para melhorar essa aceleração, dando aos desenvolvedores ferramentas para interagir com essa tecnologia, como compilação, tempo de execução e perfil para obter treinamentos de modelo de alto desempenho e custo-benefício.
Serviço Amazon Elastic Container (Amazon ECS) é um serviço de orquestração de contêineres totalmente gerenciado que simplifica sua implantação, gerenciamento e dimensionamento de aplicativos em contêineres. Basta descrever seu aplicativo e os recursos necessários, e o Amazon ECS iniciará, monitorará e dimensionará seu aplicativo em opções de computação flexíveis com integrações automáticas a outros serviços de suporte da AWS de que seu aplicativo precisa.
Nesta postagem, mostramos como executar seus trabalhos de treinamento de ML em um contêiner usando o Amazon ECS para implantar, gerenciar e dimensionar sua carga de trabalho de ML.
Visão geral da solução
Orientamos você pelas seguintes etapas de alto nível:
- Provisione um cluster ECS de instâncias Trn1 com Formação da Nuvem AWS.
- Crie uma imagem de contêiner personalizada com o Neuron SDK e envie-a para Registro do Amazon Elastic Container (Amazônia ECR).
- Crie uma definição de tarefa para definir um trabalho de treinamento de ML a ser executado pelo Amazon ECS.
- Execute a tarefa de ML no Amazon ECS.
Pré-requisitos
Para acompanhar, está implícita a familiaridade com os principais serviços da AWS, como Amazon EC2 e Amazon ECS.
Provisione um cluster ECS de instâncias Trn1
Para começar, inicie o fornecido Modelo CloudFormation, que provisionará os recursos necessários, como VPC, cluster ECS e instância EC2 Trainium.
Usamos o Neuron SDK para executar cargas de trabalho de aprendizado profundo em Inferência da AWS e instâncias baseadas em Trainium. Ele oferece suporte em seu ciclo de vida de desenvolvimento de ML de ponta a ponta para criar novos modelos, otimizá-los e implantá-los para produção. Para treinar seu modelo com o Trainium, você precisa instalar o Neuron SDK nas instâncias do EC2 onde as tarefas do ECS serão executadas para mapear o NeuronDevice associado ao hardware, bem como a imagem do Docker que será enviada ao Amazon ECR para acessar os comandos para treinar seu modelo.
Versões padrão do Amazon Linux 2 ou Ubuntu 20 não vêm com drivers AWS Neuron instalados. Portanto, temos duas opções diferentes.
A primeira opção é usar uma Deep Learning Amazon Machine Image (DLAMI) que tenha o Neuron SDK já instalado. Uma amostra está disponível no GitHub repo. Você pode escolher uma DLAMI com base no sistema operacional. Em seguida, execute o seguinte comando para obter o ID da AMI:
O resultado será o seguinte:
ami-06c40dd4f80434809
Esse ID de AMI pode mudar com o tempo, portanto, certifique-se de usar o comando para obter o ID de AMI correto.
Agora você pode alterar esse ID de AMI no script CloudFormation e usar o Neuron SDK pronto para uso. Para isso, procure EcsAmiId
in Parameters
:
A segunda opção é criar uma instância preenchendo o userdata
campo durante a criação da pilha. Você não precisa instalá-lo porque o CloudFormation irá configurá-lo. Para mais informações, consulte o Guia de configuração do neurônio.
Para este post, usamos a opção 2, caso você precise usar uma imagem personalizada. Conclua as seguintes etapas:
- Inicie o modelo CloudFormation fornecido.
- Escolha Nome-chave, insira um nome para o par de chaves desejado e ele pré-carregará os parâmetros. Para esta postagem, usamos
trainium-key
. - Insira um nome para sua pilha.
- Se você está correndo no
us-east-1
Região, você pode manter os valores para ALBNome e AZIds em seu padrão.
Para verificar qual zona de disponibilidade na região tem Trn1 disponível, execute o seguinte comando:
- Escolha Próximo e terminar de criar a pilha.
Quando a pilha estiver completa, você pode passar para a próxima etapa.
Prepare e envie uma imagem ECR com o Neuron SDK
O Amazon ECR é um registro de contêiner totalmente gerenciado que oferece hospedagem de alto desempenho, para que você possa implantar imagens e artefatos de aplicativos de forma confiável em qualquer lugar. Usamos o Amazon ECR para armazenar uma imagem personalizada do Docker contendo nossos scripts e pacotes Neuron necessários para treinar um modelo com trabalhos ECS em execução em instâncias Trn1. Você pode criar um repositório ECR usando o Interface de linha de comando da AWS (AWS CLI) ou Console de gerenciamento da AWS. Para este post, usamos o console. Conclua as seguintes etapas:
- No console do Amazon ECR, crie um novo repositório.
- Escolha Configurações de visibilidade¸ selecionar Privado.
- Escolha Nome do repositório, Insira o nome.
- Escolha Criar repositório.
Agora que você tem um repositório, vamos criar e enviar uma imagem, que pode ser criada localmente (no seu laptop) ou em um Nuvem AWS9 ambiente. Estamos treinando um modelo multi-layer perceptron (MLP). Para obter o código original, consulte Tutorial de treinamento Perceptron multicamadas.
Já é compatível com o Neuron, então você não precisa alterar nenhum código.
- 5. Crie um dockerfile que possui os comandos para instalar o Neuron SDK e os scripts de treinamento:
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoAiStream. Inteligência de Dados Web3. Conhecimento Amplificado. Acesse aqui.
- Cunhando o Futuro com Adryenn Ashley. Acesse aqui.
- Compre e venda ações em empresas PRE-IPO com PREIPO®. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/scale-your-machine-learning-workloads-on-amazon-ecs-powered-by-aws-trainium-instances/
- :tem
- :é
- :não
- :onde
- $UP
- 1
- 10
- 100
- 12
- 13
- 15 anos
- 15%
- 20
- 2022
- 31
- 7
- 8
- 9
- a
- Sobre
- aceleração
- acelerador
- aceleradores
- Acesso
- Conta
- Alcançar
- em
- adicionar
- Adicional
- adotar
- AI
- AI / ML
- Todos os Produtos
- juntamente
- já
- tb
- Amazon
- Amazon EC2
- Amazon Web Services
- an
- e
- anunciou
- qualquer
- qualquer lugar
- Aplicação
- aplicações
- arquitetura
- SOMOS
- AS
- associado
- At
- auto
- Automático
- disponibilidade
- disponível
- evitar
- AWS
- Inferência da AWS
- baseado
- Linha de Base
- BE
- Porque
- torna-se
- tornando-se
- sido
- Bloquear
- construir
- construído
- negócio
- mas a
- by
- CAN
- capacidades
- casas
- desafios
- alterar
- verificar
- Escolha
- Agrupar
- código
- COM
- como
- comum
- Empresas
- comparável
- compatível
- completar
- Computar
- consistente
- cônsul
- Recipiente
- Containers
- núcleo
- relação custo-benefício
- custos
- poderia
- CPU
- crio
- criado
- Criar
- criação
- Atualmente
- personalizadas
- Clientes
- profundo
- deep learning
- Padrão
- entregar
- Dependência
- implantar
- desenvolvimento
- descreve
- descrição
- desejado
- detalhes
- desenvolvedores
- Desenvolvimento
- Dispositivos/Instrumentos
- diferente
- do
- Estivador
- não
- down
- Drivers
- durante
- mais fácil
- eco
- end-to-end
- Entrar
- Todo
- Meio Ambiente
- essencial
- Éter (ETH)
- despesas
- vasta experiência
- expressão
- Familiaridade
- família
- campo
- Arquivos
- financeiro
- Setor financeiro
- Encontre
- acabamento
- Primeiro nome
- flexível
- seguir
- seguinte
- segue
- Escolha
- enquadramentos
- da
- totalmente
- Geral
- gerado
- generativo
- IA generativa
- ter
- Dando
- Global
- Grupo
- Guias
- Hardware
- Ter
- he
- ajuda
- ajuda
- de alto nível
- alta performance
- hospedagem
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTML
- http
- HTTPS
- ID
- if
- imagem
- imagens
- implícita
- melhorar
- in
- inclui
- INFORMAÇÕES
- Infraestrutura
- instalar
- instalado
- instância
- integrações
- interagir
- para dentro
- IT
- Trabalho
- Empregos
- json
- apenas por
- Guarda
- Chave
- laptop
- Sobrenome
- Atrasado
- mais recente
- lançamento
- Leads
- aprendizagem
- bibliotecas
- wifecycwe
- como
- Line
- linux
- localmente
- log
- entrar
- olhar
- parece
- máquina
- aprendizado de máquina
- fazer
- gerencia
- gerenciados
- de grupos
- mapa,
- mapas
- Memória
- Menu
- ML
- modelo
- modelos
- modernizar
- Monitore
- mais
- mover
- muito
- nome
- Navegação
- você merece...
- necessário
- Cria
- Novo
- Próximo
- nota
- of
- oferecendo treinamento para distância
- on
- ONE
- Otimize
- Opção
- Opções
- or
- orquestração
- original
- OS
- Outros
- A Nossa
- Fora
- saída
- Acima de
- Superar
- próprio
- pacotes
- par
- pão
- parâmetros
- apaixonado
- permissões
- platão
- Inteligência de Dados Platão
- PlatãoData
- Publique
- alimentado
- prática
- anterior
- Produção
- Produtos
- Perfil
- projeto
- fornecer
- fornecido
- provisão
- propósito
- Empurrar
- empurrado
- Python
- pytorch
- Leia
- região
- registro
- relacionado
- liberado
- remover
- repositório
- requeridos
- Recursos
- resultar
- certo
- Execute
- corrida
- Poupança
- Escala
- dimensionamento
- Scripts
- Sdk
- Segundo
- setor
- segurança
- senior
- Serverless
- serviço
- Serviços
- conjunto
- instalação
- rede de apoio social
- mostrar
- mostrou
- Encerre
- simples
- simplesmente
- solteiro
- So
- Software
- desenvolvimento de software
- solução
- Soluções
- especialista
- especialistas
- pilha
- começado
- inicialização
- Startups
- Passo
- Passos
- armazenamento
- loja
- Tanga
- sub-rede
- sub-redes
- tal
- Apoiar
- suportes
- certo
- TAG
- Tarefa
- tarefas
- Profissionais
- Tecnologias
- Tecnologia
- modelo
- do que
- que
- A
- deles
- Eles
- então
- assim sendo
- isto
- Através da
- tempo
- para
- ferramentas
- topo
- Visão da tocha
- Trem
- Training
- treinamentos
- verdadeiro
- dois
- tipo
- Ubuntu
- usar
- utilização
- Valores
- versão
- visível
- volume
- foi
- we
- web
- serviços web
- BEM
- O Quê
- qual
- precisarão
- de
- trabalhar
- escrever
- anos
- Você
- investimentos
- zefirnet
- zero