Escale suas cargas de trabalho de aprendizado de máquina no Amazon ECS com tecnologia AWS Trainium Instances

Republicado por Platão

seguidores: 0

A execução de cargas de trabalho de aprendizado de máquina (ML) com contêineres está se tornando uma prática comum. Os contêineres podem encapsular totalmente não apenas seu código de treinamento, mas toda a pilha de dependências até as bibliotecas de hardware e drivers. O que você obtém é um ambiente de desenvolvimento de ML consistente e portátil. Com contêineres, o dimensionamento em um cluster se torna muito mais fácil.

No final de 2022, a AWS anunciou a disponibilidade geral de Instâncias Amazon EC2 Trn1 alimentado por Treinamento AWS aceleradores, que são construídos especificamente para treinamento de aprendizado profundo de alto desempenho. As instâncias Trn1 oferecem até 50% de economia nos custos de treinamento em relação a outras instâncias comparáveis Amazon Elastic Compute Nuvem (Amazon EC2). Também o SDK do AWS Neuron foi lançado para melhorar essa aceleração, dando aos desenvolvedores ferramentas para interagir com essa tecnologia, como compilação, tempo de execução e perfil para obter treinamentos de modelo de alto desempenho e custo-benefício.

Serviço Amazon Elastic Container (Amazon ECS) é um serviço de orquestração de contêineres totalmente gerenciado que simplifica sua implantação, gerenciamento e dimensionamento de aplicativos em contêineres. Basta descrever seu aplicativo e os recursos necessários, e o Amazon ECS iniciará, monitorará e dimensionará seu aplicativo em opções de computação flexíveis com integrações automáticas a outros serviços de suporte da AWS de que seu aplicativo precisa.

Nesta postagem, mostramos como executar seus trabalhos de treinamento de ML em um contêiner usando o Amazon ECS para implantar, gerenciar e dimensionar sua carga de trabalho de ML.

Visão geral da solução

Orientamos você pelas seguintes etapas de alto nível:

Provisione um cluster ECS de instâncias Trn1 com Formação da Nuvem AWS.
Crie uma imagem de contêiner personalizada com o Neuron SDK e envie-a para Registro do Amazon Elastic Container (Amazônia ECR).
Crie uma definição de tarefa para definir um trabalho de treinamento de ML a ser executado pelo Amazon ECS.
Execute a tarefa de ML no Amazon ECS.

Pré-requisitos

Para acompanhar, está implícita a familiaridade com os principais serviços da AWS, como Amazon EC2 e Amazon ECS.

Provisione um cluster ECS de instâncias Trn1

Para começar, inicie o fornecido Modelo CloudFormation, que provisionará os recursos necessários, como VPC, cluster ECS e instância EC2 Trainium.

Usamos o Neuron SDK para executar cargas de trabalho de aprendizado profundo em Inferência da AWS e instâncias baseadas em Trainium. Ele oferece suporte em seu ciclo de vida de desenvolvimento de ML de ponta a ponta para criar novos modelos, otimizá-los e implantá-los para produção. Para treinar seu modelo com o Trainium, você precisa instalar o Neuron SDK nas instâncias do EC2 onde as tarefas do ECS serão executadas para mapear o NeuronDevice associado ao hardware, bem como a imagem do Docker que será enviada ao Amazon ECR para acessar os comandos para treinar seu modelo.

Versões padrão do Amazon Linux 2 ou Ubuntu 20 não vêm com drivers AWS Neuron instalados. Portanto, temos duas opções diferentes.

A primeira opção é usar uma Deep Learning Amazon Machine Image (DLAMI) que tenha o Neuron SDK já instalado. Uma amostra está disponível no GitHub repo. Você pode escolher uma DLAMI com base no sistema operacional. Em seguida, execute o seguinte comando para obter o ID da AMI:

aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning AMI Neuron PyTorch 1.13.? (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

O resultado será o seguinte:

ami-06c40dd4f80434809

Esse ID de AMI pode mudar com o tempo, portanto, certifique-se de usar o comando para obter o ID de AMI correto.

Agora você pode alterar esse ID de AMI no script CloudFormation e usar o Neuron SDK pronto para uso. Para isso, procure EcsAmiId in Parameters:

"EcsAmiId": { "Type": "String", "Description": "AMI ID", "Default": "ami-09def9404c46ac27c" }

A segunda opção é criar uma instância preenchendo o userdata campo durante a criação da pilha. Você não precisa instalá-lo porque o CloudFormation irá configurá-lo. Para mais informações, consulte o Guia de configuração do neurônio.

Para este post, usamos a opção 2, caso você precise usar uma imagem personalizada. Conclua as seguintes etapas:

Inicie o modelo CloudFormation fornecido.
Escolha Nome-chave, insira um nome para o par de chaves desejado e ele pré-carregará os parâmetros. Para esta postagem, usamos trainium-key.
Insira um nome para sua pilha.
Se você está correndo no us-east-1 Região, você pode manter os valores para ALBNome e AZIds em seu padrão.

Para verificar qual zona de disponibilidade na região tem Trn1 disponível, execute o seguinte comando:

aws ec2 describe-instance-type-offerings --region us-east1 --location-type availability-zone --filter Name=instance-type,Values=trn1.2xlarge

Escolha Próximo e terminar de criar a pilha.

Quando a pilha estiver completa, você pode passar para a próxima etapa.

Prepare e envie uma imagem ECR com o Neuron SDK

O Amazon ECR é um registro de contêiner totalmente gerenciado que oferece hospedagem de alto desempenho, para que você possa implantar imagens e artefatos de aplicativos de forma confiável em qualquer lugar. Usamos o Amazon ECR para armazenar uma imagem personalizada do Docker contendo nossos scripts e pacotes Neuron necessários para treinar um modelo com trabalhos ECS em execução em instâncias Trn1. Você pode criar um repositório ECR usando o Interface de linha de comando da AWS (AWS CLI) ou Console de gerenciamento da AWS. Para este post, usamos o console. Conclua as seguintes etapas:

No console do Amazon ECR, crie um novo repositório.
Escolha Configurações de visibilidade¸ selecionar Privado.
Escolha Nome do repositório, Insira o nome.
Escolha Criar repositório.

Agora que você tem um repositório, vamos criar e enviar uma imagem, que pode ser criada localmente (no seu laptop) ou em um Nuvem AWS9 ambiente. Estamos treinando um modelo multi-layer perceptron (MLP). Para obter o código original, consulte Tutorial de treinamento Perceptron multicamadas.

Copie o trem.py e modelo.py arquivos em um projeto.

Já é compatível com o Neuron, então você não precisa alterar nenhum código.

5. Crie um dockerfile que possui os comandos para instalar o Neuron SDK e os scripts de treinamento:

FROM amazonlinux:2 RUN echo $'[neuron] n
name=Neuron YUM Repository n
baseurl=https://yum.repos.neuron.amazonaws.com n
enabled=1' > /etc/yum.repos.d/neuron.repo RUN rpm --import https://yum.repos.neuron.amazonaws.com/GPG-PUB-KEY-AMAZON-AWS-NEURON.PUB RUN yum install aws-neuronx-collectives-2.* -y
RUN yum install aws-neuronx-runtime-lib-2.* -y
RUN yum install aws-neuronx-tools-2.* -y
RUN yum install -y tar gzip pip
RUN yum install -y python3 python3-pip
RUN yum install -y python3.7-venv gcc-c++
RUN python3.7 -m venv aws_neuron_venv_pytorch # Activate Python venv
ENV PATH="/aws_neuron_venv_pytorch/bin:$PATH"
RUN python -m pip install -U pip
RUN python -m pip install wget
RUN python -m pip install awscli RUN python -m pip config set global.extra-index-url https://pip.repos.neuron.amazonaws.com
RUN python -m pip install torchvision tqdm torch-neuronx neuronx-cc==2.* pillow
RUN mkdir -p /opt/ml/mnist_mlp
COPY model.py /opt/ml/mnist_mlp/model.py
COPY train.py /opt/ml/mnist_mlp/train.py
RUN chmod +x /opt/ml/mnist_mlp/train.py
CMD ["python3", "/opt/ml/mnist_mlp/train.py"]

Para criar seu próprio Dockerfile usando o Neuron, consulte Desenvolva na instância do acelerador AWS ML, onde você pode encontrar guias para outras estruturas de sistema operacional e ML.

6. Crie uma imagem e, em seguida, envie-a para o Amazon ECR usando o seguinte código (forneça sua região, ID da conta e repositório ECR):

aws ecr get-login-password --region us-east-1 | docker login --username AWS --password-stdin {your-account-id}.dkr.ecr.{your-region}.amazonaws.com docker build -t mlp_trainium . docker tag mlp_trainium:latest {your-account-id}.dkr.ecr.us-east-1.amazonaws.com/mlp_trainium:latest docker push {your-account-id}.dkr.ecr.{your-region}.amazonaws.com/{your-ecr-repo-name}:latest

Depois disso, sua versão de imagem deve estar visível no repositório ECR que você criou.

Execute o trabalho de treinamento de ML como uma tarefa do ECS

Para executar a tarefa de treinamento de ML no Amazon ECS, primeiro você precisa criar um definição de tarefa. Uma definição de tarefa é necessária para executar contêineres do Docker no Amazon ECS.

No console Amazon ECS, escolha Definições de tarefas no painel de navegação.
No Criar nova definição de tarefa menu, escolha Crie uma nova definição de tarefa com JSON.

Você pode usar o seguinte modelo de definição de tarefa como linha de base. Observe que no campo da imagem, você pode usar a gerada na etapa anterior. Certifique-se de incluir o ID da sua conta e o nome do repositório ECR.

Para certificar-se de que o Neuron está instalado, você pode verificar se o volume /dev/neuron0 é mapeado no bloco de dispositivos. Isso mapeia para um único NeuronDevice executando na instância trn1.2xlarge com dois núcleos.

Crie sua definição de tarefa usando o seguinte modelo:

{ "family": "mlp_trainium", "containerDefinitions": [ { "name": "mlp_trainium", "image": "{your-account-id}.dkr.ecr.us-east-1.amazonaws.com/{your-ecr-repo-name}", "cpu": 0, "memoryReservation": 1000, "portMappings": [], "essential": true, "environment": [], "mountPoints": [], "volumesFrom": [], "linuxParameters": { "capabilities": { "add": [ "IPC_LOCK" ] }, "devices": [ { "hostPath": "/dev/neuron0", "containerPath": "/dev/neuron0", "permissions": [ "read", "write" ] } ] }, , "logConfiguration": { "logDriver": "awslogs", "options": { "awslogs-create-group": "true", "awslogs-group": "/ecs/task-logs", "awslogs-region": "us-east-1", "awslogs-stream-prefix": "ecs" } } } ], "networkMode": "awsvpc", "placementConstraints": [ { "type": "memberOf", "expression": "attribute:ecs.os-type == linux" }, { "type": "memberOf", "expression": "attribute:ecs.instance-type == trn1.2xlarge" } ], "requiresCompatibilities": [ "EC2" ], "cpu": "1024", "memory": "3072"
}

Você também pode concluir esta etapa na AWS CLI usando o seguinte definição de tarefa ou com o seguinte comando:

aws ecs register-task-definition --family mlp-trainium --container-definitions '[{ "name": "my-container-1", "image": "{your-account-id}.dkr.ecr.us-east-1.amazonaws.com/{your-ecr-repo-name}", "cpu": 0, "memoryReservation": 1000, "portMappings": [], "essential": true, "environment": [], "mountPoints": [], "volumesFrom": [], "logConfiguration": { "logDriver": "awslogs", "options": { "awslogs-create-group": "true", "awslogs-group": "/ecs/task-logs", "awslogs-region": "us-east-1", "awslogs-stream-prefix": "ecs" } }, "linuxParameters": { "capabilities": { "add": [ "IPC_LOCK" ] }, "devices": [{ "hostPath": "/dev/neuron0", "containerPath": "/dev/neuron0", "permissions": ["read", "write"] }] }
}]' --requires-compatibilities EC2
--cpu "8192" --memory "16384" --placement-constraints '[{ "type": "memberOf", "expression": "attribute:ecs.instance-type == trn1.2xlarge"
}, { "type": "memberOf", "expression": "attribute:ecs.os-type == linux"
}]'

Execute a tarefa no Amazon ECS

Depois de criarmos o cluster do ECS, enviarmos a imagem para o Amazon ECR e criarmos a definição da tarefa, executamos a definição da tarefa para treinar um modelo no Amazon ECS.

No console Amazon ECS, escolha Clusters no painel de navegação.
Abra seu cluster.
No tarefas guia, escolha Execute uma nova tarefa.

Escolha tipo de lançamento, escolha EC2.

Escolha Tipo de aplicação, selecione Tarefa.
Escolha Um plano de comunicação para a sua família, escolha a definição de tarefa que você criou.

No Networking seção, especifique o VPC criado pela pilha, sub-rede e grupo de segurança do CloudFormation.

Escolha Crie.

Você pode monitorar sua tarefa no console do Amazon ECS.

Você também pode executar a tarefa usando a AWS CLI:

aws ecs run-task --cluster <your-cluster-name> --task-definition <your-task-name> --count 1 --network-configuration '{"awsvpcConfiguration": {"subnets": ["<your-subnet-name> "], "securityGroups": ["<your-sg-name> "] }}'

O resultado será semelhante à captura de tela a seguir.

Você também pode verificar os detalhes do trabalho de treinamento através do Amazon CloudWatch grupo de log.

Depois de treinar seus modelos, você pode armazená-los em Serviço de armazenamento simples da Amazon (Amazônia S3).

limpar

Para evitar despesas adicionais, você pode alterar o grupo de Auto Scaling para Capacidade mínima e capacidade desejada para zero, para encerrar as instâncias do Trainium. Para fazer uma limpeza completa, exclua a pilha CloudFormation para remover todos os recursos criados por este modelo.

Conclusão

Nesta postagem, mostramos como usar o Amazon ECS para implantar seus trabalhos de treinamento de ML. Criamos um modelo CloudFormation para criar o cluster ECS de instâncias Trn1, construímos uma imagem Docker personalizada, enviamos por push para o Amazon ECR e executamos o trabalho de treinamento de ML no cluster ECS usando uma instância Trainium.

Para obter mais informações sobre o Neuron e o que você pode fazer com o Trainium, confira os seguintes recursos:

Sobre os autores

Guilherme Ricci é arquiteto sênior de soluções para startups na Amazon Web Services, ajudando startups a modernizar e otimizar os custos de seus aplicativos. Com mais de 10 anos de experiência em empresas do setor financeiro, atualmente trabalha com uma equipe de especialistas em AI/ML.

Evandro Franco é um arquiteto de soluções especializado em IA/ML que trabalha na Amazon Web Services. Ele ajuda os clientes da AWS a superar os desafios de negócios relacionados à IA/ML na AWS. Ele tem mais de 15 anos trabalhando com tecnologia, desde desenvolvimento de software, infraestrutura, serverless, até machine learning.

Matthew McClean lidera a equipe Annapurna ML Solution Architecture que ajuda os clientes a adotar os produtos AWS Trainium e AWS Inferentia. Ele é apaixonado por IA generativa e tem ajudado clientes a adotar tecnologias da AWS nos últimos 10 anos.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoAiStream. Inteligência de Dados Web3. Conhecimento Amplificado. Acesse aqui.
Cunhando o Futuro com Adryenn Ashley. Acesse aqui.
Compre e venda ações em empresas PRE-IPO com PREIPO®. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/scale-your-machine-learning-workloads-on-amazon-ecs-powered-by-aws-trainium-instances/

Carimbo de hora: 31 de maio de 2023

Carimbo de hora: 27 Novembro, 2023

Republicado por Platão

Execute o trabalho de treinamento de ML como uma tarefa do ECS

Execute a tarefa no Amazon ECS

limpar

Conclusão

Sobre os autores

Simplifique o aprendizado contínuo dos modelos personalizados do Amazon Comprehend usando o flywheel do Comprehend

Personalize seus resultados de pesquisa com a integração do Amazon Personalize e do Amazon OpenSearch Service | Amazon Web Services

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta