Cara Memperluas Fungsi AWS Trainium Dengan Operator Khusus

Diterbitkan Ulang Oleh Plato

Followers: 0

Pembelajaran mendalam (DL) adalah bidang yang berkembang pesat, dan para praktisi terus berinovasi model DL dan menemukan cara untuk mempercepatnya. Operator khusus adalah salah satu mekanisme yang digunakan pengembang untuk mendorong batas inovasi DL dengan memperluas fungsionalitas kerangka pembelajaran mesin (ML) yang ada seperti PyTorch. Secara umum, sebuah operator menjelaskan fungsi matematika dari lapisan dalam model pembelajaran yang mendalam. A operator kustom memungkinkan pengembang membangun fungsi matematika mereka sendiri untuk lapisan dalam model pembelajaran mendalam.

Pelatihan AWS dan AWS Inferensia2, yang dibuat khusus untuk pelatihan dan inferensi DL, memperluas fungsionalitas dan kinerjanya dengan mendukung operator khusus (atau disingkat CustomOps). Neuron AWS, SDK yang mendukung akselerator ini, menggunakan antarmuka standar PyTorch untuk CustomOps. Pengembang dapat dengan mudah memulai dengan kode yang ada saat menggunakan berbasis Trainium Instans Amazon EC2 Trn1 atau berbasis Inferensia2 Contoh Amazon EC2 Inf2. Dalam postingan ini, kami membahas manfaat CustomOps, penerapannya yang efisien di Trainium, dan contoh untuk membantu Anda memulai CustomOps di instans Trn1 yang didukung Trainium.

Untuk mengikuti, keakraban dengan layanan inti AWS seperti Cloud komputasi elastis Amazon (Amazon EC2) tersirat, dan pengenalan dasar dengan deep learning, PyTorch, dan C++ akan sangat membantu.

Operator khusus di PyTorch dan manfaatnya

CustomOps untuk PyTorch berasal dari versi 1.10, disebut PyTorch C++ Frontend, dan menyediakan mekanisme yang mudah digunakan untuk mendaftarkan CustomOps yang ditulis dalam C++. Berikut beberapa keuntungan yang diberikan CustomOps:

Optimalisasi kinerja – CustomOps dapat dioptimalkan untuk kasus penggunaan tertentu, yang mengarah ke model yang berjalan lebih cepat dan peningkatan kinerja.
Peningkatan ekspresi model – Dengan CustomOps, Anda dapat mengekspresikan perhitungan kompleks yang tidak mudah diungkapkan menggunakan operator bawaan yang disediakan oleh PyTorch.
Peningkatan modularitas – Anda dapat menggunakan CustomOps sebagai blok penyusun untuk membuat model yang lebih kompleks dengan membuat pustaka C++ dari komponen yang dapat digunakan kembali. Ini membuat proses pengembangan lebih mudah dan lebih modular, dan memfasilitasi eksperimen yang cepat.
Peningkatan fleksibilitas – CustomOps memungkinkan operasi di luar operator bawaan—yaitu, mereka menyediakan cara yang fleksibel untuk menentukan operasi kompleks yang tidak diimplementasikan menggunakan yang standar.

Dukungan Trainium untuk operator khusus

Trainium (dan AWS Inferentia2) mendukung CustomOps dalam perangkat lunak melalui Neuron SDK dan mempercepatnya dalam perangkat keras menggunakan mesin GPSIMD (mesin General Purpose Single Instruction Multiple Data). Mari kita lihat bagaimana ini memungkinkan penerapan CustomOps yang efisien dan memberikan peningkatan fleksibilitas dan kinerja saat mengembangkan dan berinovasi model DL.

SDK Neuron

Neuron SDK membantu pengembang melatih model di Trainium dan menerapkan model di akselerator AWS Inferentia. Ini terintegrasi secara native dengan kerangka kerja, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus menggunakan alur kerja dan kode aplikasi yang ada untuk melatih model pada instans Trn1.

Neuron SDK menggunakan antarmuka PyTorch standar untuk CustomOps. Pengembang dapat menggunakan antarmuka pemrograman standar di PyTorch untuk menulis CustomOps di C++ dan memperluas dukungan operator resmi Neuron. Neuron kemudian mengkompilasi CustomOps ini untuk berjalan secara efisien di mesin GPSIMD, yang dijelaskan lebih detail di bagian berikut. Hal ini memudahkan untuk mengimplementasikan CustomOps eksperimental baru dan mempercepatnya pada perangkat keras yang dibuat khusus, tanpa pengetahuan yang mendalam tentang perangkat keras yang mendasarinya.

Tujuan Umum Single Instruction Multiple Data engine

Pada inti pengoptimalan Trainium terdapat arsitektur NeuronCore, unit komputasi heterogen yang sepenuhnya independen dengan empat mesin utama: tensor, vektor, skalar, dan mesin GPSIMD. Mesin skalar dan vektor sangat diparalelkan dan dioptimalkan untuk operasi floating-point. Mesin tensor didasarkan pada larik sistolik yang dioptimalkan daya yang mendukung perhitungan presisi campuran.

Mesin GPSIMD adalah mesin Single Instruction Multiple Data (SIMD) tujuan umum yang dirancang untuk menjalankan dan mempercepat CustomOps. Mesin ini terdiri dari delapan prosesor tujuan umum selebar 512-bit yang dapat diprogram sepenuhnya, yang dapat menjalankan kode-C garis lurus dan memiliki akses inline langsung ke mesin NeuronCore-v2 lainnya, serta memori SRAM dan HBM yang disematkan. Bersama-sama, kemampuan ini membantu menjalankan CustomOps secara efisien di Trainium.

Ambil contoh operator seperti TopK, LayerNorm, atau ZeroCompression, yang membaca data dari memori dan hanya menggunakannya untuk perhitungan ALU dalam jumlah minimal. Sistem CPU reguler sepenuhnya terikat memori untuk perhitungan ini, dan kinerja dibatasi oleh waktu yang diperlukan untuk memindahkan data ke dalam CPU. Di Trainium, mesin GP-SIMD digabungkan erat dengan cache on-chip menggunakan antarmuka streaming bandwidth tinggi, yang dapat mempertahankan bandwidth memori 2 TB/dtk. Oleh karena itu, CustomOps seperti ini dapat dijalankan dengan sangat cepat di Trainium.

Operator kustom Neuron SDK dalam praktiknya

Untuk posting ini, kami menganggap DLAMI (lihat petunjuk untuk keduanya Ubuntu or Linux Amazon) sedang digunakan untuk membuat instance EC2 Trn1 (baik 2x.large atau 32x.large). Perhatikan bahwa semua perangkat lunak, driver, dan alat yang diperlukan telah diinstal pada DLAMI, dan hanya aktivasi lingkungan Python yang diperlukan untuk mulai mengerjakan tutorial. Kami mereferensikan fungsionalitas CustomOps yang tersedia di Neuron sebagai “Neuron CustomOps.”

Mirip dengan proses integrasi PyTorch dengan kode C++, Neuron CustomOps memerlukan implementasi C++ dari operator melalui subset yang diporting NeuronCore dari API C++ Torch. Implementasi C++ dari operator disebut fungsi kernel, dan port C++ API berisi semua yang diperlukan untuk pengembangan CustomOps dan integrasi model, khususnya kelas tensor dan skalar di c10 (ruang nama yang digunakan untuk kode C++ tingkat rendah di berbagai pustaka PyTorch), dan subset operator ATen (atau Tensor Otomatis, pustaka C++ yang menyediakan operasi inti tensor yang digunakan di PyTorch).

Grafik torch.h header perlu disertakan saat mendefinisikan kernel agar Anda memiliki akses ke subset porting NeuronCore dari API Pytorch C++:

#include <torch/torch.h>

Neuron CustomOps juga membutuhkan a fungsi bentuk. Fungsi bentuk memiliki tanda tangan fungsi yang sama dengan fungsi kernel, tetapi tidak melakukan perhitungan apa pun. Ini hanya menentukan bentuk tensor keluaran tetapi bukan nilai sebenarnya.

Neuron CustomOps dikelompokkan ke dalam pustaka, dan makro digunakan untuk mendaftarkannya ke NEURON_LIBRARY ruang lingkup dari dalam fungsi bentuk. Fungsi akan dijalankan di host pada waktu kompilasi dan akan membutuhkan register.h tajuk dari perpustakaan torchneuron:

#include "torchneuron/register.h"

Terakhir, pustaka khusus dibuat dengan memanggil API beban. Jika memasok build_directory parameter, file perpustakaan akan disimpan di direktori yang ditunjukkan:

import torch_neuronx
from torch_neuronx.xla_impl import custom_op custom_op.load(
name=name,# this is the name for the library(i.e, 'relu')
compute_srcs=['CustomOP.cpp'],
shape_srcs=['shape.cpp'],
build_directory*=*os.getcwd()
)

Untuk menggunakan CustomOp dari model PyTorch, cukup muat pustaka dengan memanggil load_library API dan panggil Neuron CustomOp dengan cara yang sama seperti CustomOps dipanggil di PyTorch melalui ruang nama torch.ops. Formatnya biasanya torch.ops.<library_name>.<operator_name>. Lihat kode berikut:

import torch
import torch_neuronx
from torch_neuronx.xla_impl import custom_op custom_op.load_library('/home/user/libmy_ops.so')
out_tensor = torch.ops.my_lib.my_op(in_tensor)

Perhatikan bahwa custom_op.load API membangun pustaka C++, sedangkan custom_op.load_library API memuat file pustaka yang sudah dibuat.

Contoh: Neuron CustomOps dalam pelatihan MLP

Untuk memulai, lakukan langkah-langkah berikut:

Buat dan luncurkan instans EC2 Trn1 Anda. Pastikan Anda menggunakan gambar DLAMI (baik Ubuntu or Linux Amazon, pra-instal dengan semua perangkat lunak Neuron yang diperlukan) dan Anda telah menentukan ukuran volume root sebesar 512 GB.
Setelah instans Anda aktif dan berjalan, SSH ke instans Anda.
Instal PyTorch Neuron (torch-neuronx) pada instance Trn1 Anda yang sedang berjalan. Untuk instruksi, lihat Neuron Custom C++ Operator dalam Pelatihan MLP.
Unduh kode sampel dari Repositori GitHub.

Sekarang setelah lingkungan Anda siap, lanjutkan melalui posting ini saat kami menjelaskan implementasi C++ CustomOp tipikal di Neuron dalam bentuk fungsi maju dan mundur Relu untuk digunakan pada model multilayer perceptron (MLP) sederhana. Langkah-langkahnya dijelaskan dalam Dokumentasi Neuron AWS.

Kode contoh dari repositori menunjukkan dua folder:

./customop_mlp/PyTorch – Berisi kode Relu yang akan dikompilasi untuk sebuah CPU
./customop_mlp/neuron – Berisi kode Relu yang akan dikompilasi untuk Trainium

Kembangkan Neuron CustomOp: Fungsi kernel

Lingkungan host atau dev untuk pengembangan fungsi kernel (Neuron CustomOp) dapat menjalankan PyTorch 1.13 dan kompiler yang kompatibel dengan C++ 17 di lingkungan Linux. Ini sama dengan mengembangkan fungsi C++ apa pun untuk PyTorch, dan satu-satunya pustaka yang perlu ada di lingkungan pengembangan adalah untuk PyTorch dan C++. Dalam contoh berikut, kami membuat file relu.cpp dengan fungsi maju dan mundur Relu khusus:

#include <stdint.h>
#include <stdlib.h>
#include <torch/torch.h> torch::Tensor relu_forward(const torch::Tensor& t_in) {
torch::Tensor t_out = torch::zeros(t_in.sizes(), torch::kFloat);
auto t_in_acc = t_in.accessor<float, 2>();
auto t_out_acc = t_out.accessor<float, 2>();
auto shape = t_in.sizes();
for (int i = 0; i < shape[0]; i++) {
for (int j = 0; j < shape[1]; j++) {
t_out_acc[i][j] = t_in_acc[i][j] > 0.0 ? t_in_acc[i][j] : 0.0;
}
}
return t_out;
} torch::Tensor relu_backward(const torch::Tensor& t_grad, const torch::Tensor& t_in) {
torch::Tensor t_out = torch::zeros(t_in.sizes(), torch::kFloat);
auto t_in_acc = t_in.accessor<float, 2>();
auto t_grad_acc = t_grad.accessor<float, 2>();
auto t_out_acc = t_out.accessor<float, 2>();
auto shape = t_in.sizes();
for (int i = 0; i < shape[0]; i++) {
for (int j = 0; j < shape[1]; j++) {
t_out_acc[i][j] = t_in_acc[i][j] > 0.0 ? t_grad_acc[i][j] : 0.0;
}
}
return t_out;
}

Saat mengembangkan Neuron CustomOp untuk Neuron, pastikan Anda mempertimbangkan fitur dan API yang saat ini didukung. Untuk informasi lebih lanjut, lihat Panduan Referensi API Operator Kustom [Eksperimental].

Bangun dan daftarkan Neuron CustomOp: Fungsi bentuk

Build untuk lingkungan Neuron CustomOp dan runtime adalah instans Trn1 tempat pelatihan akan berlangsung, dan Neuron CustomOp akan dikompilasi dan didaftarkan sebagai pustaka neuronx-cc dan diinterpretasikan oleh Neuron runtime untuk dijalankan pada GP-SIMD yang sangat dioptimalkan mesin.

Untuk membuat dan mendaftarkan Neuron CustomOp, kita perlu membuat fungsi bentuk (shape.cpp) yang akan menentukan tensor input dan output dan mendaftarkan operator: the relu_fwd_shape dan relu_bwd_shape fungsi. Lihat kode berikut:

#include <stdint.h>
#include <stdlib.h>
#include <torch/torch.h>
#include "torchneuron/register.h" torch::Tensor relu_fwd_shape(torch::Tensor t_in) {
torch::Tensor t_out = torch::zeros(t_in.sizes(), torch::kFloat);
return t_out;
} torch::Tensor relu_bwd_shape(torch::Tensor t_grad, torch::Tensor t_in) {
torch::Tensor t_out = torch::zeros(t_in.sizes(), torch::kFloat);
return t_out;
} NEURON_LIBRARY(my_ops, m) {
m.def("relu_forward", &relu_fwd_shape, "relu_forward");
m.def("relu_backward", &relu_bwd_shape, "relu_backward");
}

Grafik relu_fwd_shape dan relu_bwd_shape fungsi menentukan bentuk tensor keluaran (agar berukuran sama dengan tensor masukan). Kemudian kami mendaftarkan fungsi di NEURON_LIBRARY cakupan.

Dalam majalah ./customop_ml/contoh repositori neuron, kami memiliki skrip build.py untuk menjalankan build dan registrasi CustomOp, cukup dengan memanggil fungsi load dari torch_neuronx.xla_impl paket:

import os
import torch_neuronx
from torch_neuronx.xla_impl import custom_op custom_op.load(
name='relu',
compute_srcs=['relu.cpp'],
shape_srcs=['shape.cpp'],
build_directory=os.getcwd()
)

Dalam majalah build_directory, kita harus menemukan librelu.so perpustakaan siap untuk dimuat dan digunakan dalam melatih model kami.

Bangun model MLP dengan Neuron CustomOp

Di bagian ini, kita melalui langkah-langkah untuk membangun model MLP dengan Neuron CustomOp.

Tentukan kelas Relu

Untuk penjelasan mendetail tentang cara melatih model MLP, lihat Tutorial Pelatihan Perceptron Multi-Lapisan.

Setelah kami membangun CustomOp, kami membuat paket Python bernama my_ops.py, tempat kami mendefinisikan kelas Relu PyTorch, yang diwarisi dari fungsi torch autograd. Fungsi autograd mengimplementasikan diferensiasi otomatis, sehingga dapat digunakan dalam loop pelatihan.

Pertama kita memuat pustaka librelu.so, lalu kita mendefinisikan kelas baru dengan fungsi maju dan mundur yang ditentukan dengan dekorator metode statis. Dengan cara ini, metode dapat dipanggil secara langsung saat kita mendefinisikan model. Lihat kode berikut:

import torch
import torch_neuronx
from torch_neuronx.xla_impl import custom_op custom_op.load_library('librelu.so') class Relu(torch.autograd.Function):
@staticmethod
def forward(ctx, input):
ctx.save_for_backward(input)
return torch.ops.my_ops.relu_forward(input) @staticmethod
def backward(ctx, grad):
input, = ctx.saved_tensors
return torch.ops.my_ops.relu_backward(grad, input), None

Periksa model MLP

Sekarang kami siap untuk menulis model perceptron multilayer kami dengan Neuron CustomOp kami dengan mengimpor file my_ops paket tempat kami mendefinisikan kelas Relu:

import torch
import torch.nn as nn
from torch.nn import functional as F
import my_ops # Declare 3-layer MLP for MNIST dataset
class MLP(nn.Module):
def __init__(self, input_size = 28 * 28, output_size = 10, layers = [120, 84]):
super(MLP, self).__init__()
self.fc1 = nn.Linear(input_size, layers[0])
self.fc2 = nn.Linear(layers[0], layers[1])
self.fc3 = nn.Linear(layers[1], output_size) def forward(self, x):
f1 = self.fc1(x)
r1 = my_ops.Relu.apply(f1)
f2 = self.fc2(r1)
r2 = my_ops.Relu.apply(f2)
f3 = self.fc3(r2)
return torch.log_softmax(f3, dim=1)

Jalankan skrip pelatihan

Sekarang kita bisa melatih model kita dengan menggunakan train.py skrip yang disediakan:

import os
import time
import torch
from model import MLP from torchvision.datasets import mnist
from torch.utils.data import DataLoader
from torchvision.transforms import ToTensor # XLA imports
import torch_xla.core.xla_model as xm # Global constants
EPOCHS = 4
WARMUP_STEPS = 2
BATCH_SIZE = 32 # Load MNIST train dataset
train_dataset = mnist.MNIST(root='./MNIST_DATA_train',
train=True, download=True, transform=ToTensor()) def main():
# Prepare data loader
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE) # Fix the random number generator seeds for reproducibility
torch.manual_seed(0) # XLA: Specify XLA device (defaults to a NeuronCore on Trn1 instance)
device = 'xla' # Move model to device and declare optimizer and loss function
model = MLP().to(device)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
loss_fn = torch.nn.NLLLoss() # Run the training loop
print('----------Training ---------------')
model.train()
for epoch in range(EPOCHS):
start = time.time()
for idx, (train_x, train_label) in enumerate(train_loader):
optimizer.zero_grad()
train_x = train_x.view(train_x.size(0), -1)
train_x = train_x.to(device)
train_label = train_label.to(device)
output = model(train_x)
loss = loss_fn(output, train_label)
loss.backward()
optimizer.step()
xm.mark_step() # XLA: collect ops and run them in XLA runtime
if idx < WARMUP_STEPS: # skip warmup iterations
start = time.time()
# Compute statistics for the last epoch
interval = idx - WARMUP_STEPS # skip warmup iterations
throughput = interval / (time.time() - start)
print("Train throughput (iter/sec): {}".format(throughput))
print("Final loss is {:0.4f}".format(loss.detach().to('cpu'))) # Save checkpoint for evaluation
os.makedirs("checkpoints", exist_ok=True)
checkpoint = {'state_dict': model.state_dict()}
# XLA: use xm.save instead of torch.save to ensure states are moved back to cpu
# This can prevent "XRT memory handle not found" at end of test.py execution
xm.save(checkpoint,'checkpoints/checkpoint.pt') print('----------End Training ---------------') if __name__ == '__main__':
main()

Dengan mengirimkan model ke perangkat xla, model dan operator kustom Relu dikompilasi untuk dijalankan oleh runtime Neuron menggunakan perangkat keras Trainium yang dioptimalkan.

Dalam contoh ini, kami menunjukkan cara membuat operator Relu khusus yang memanfaatkan mesin perangkat keras (GP-SIMD) yang tersedia di chip akselerator Trainium ML. Hasilnya adalah model PyTorch terlatih yang sekarang dapat diterapkan untuk inferensi.

Kesimpulan

Arsitektur model modern yang canggih membutuhkan lebih banyak sumber daya dari staf teknik (ilmuwan data, insinyur ML, insinyur MLOps, dan lainnya) hingga infrastruktur aktual termasuk penyimpanan, komputasi, memori, dan akselerator. Persyaratan ini meningkatkan biaya dan kerumitan pengembangan dan penerapan model pembelajaran mendalam. Akselerator Trainium menghadirkan solusi berperforma tinggi dan berbiaya rendah untuk pelatihan DL di cloud. Penggunaan Trainium difasilitasi oleh Neuron SDK, yang mencakup kompiler pembelajaran mendalam, runtime, dan alat yang terintegrasi secara native ke dalam kerangka kerja populer seperti PyTorch dan TensorFlow. (Perhatikan bahwa pada saat penulisan, Neuron SDK 2.9 hanya mendukung PyTorch untuk pengembangan operator khusus.)

Seperti yang didemonstrasikan dalam postingan ini, Trainium tidak hanya menyediakan sarana untuk melatih model Anda secara berkinerja dan efisien, tetapi juga menawarkan kemampuan untuk menyesuaikan operator Anda guna menambahkan fleksibilitas dan ekspresif pada pelatihan dan eksperimen.

Untuk informasi lebih lanjut, lihat GitHub repo.

Tentang Penulis

Lorea Arrizabalaga adalah Arsitek Solusi yang selaras dengan Sektor Publik Inggris Raya, di mana dia membantu pelanggan merancang solusi ML dengan Amazon SageMaker. Dia juga merupakan bagian dari Komunitas Lapangan Teknis yang didedikasikan untuk akselerasi perangkat keras dan membantu pengujian dan pembandingan beban kerja AWS Inferentia dan AWS Trainium.

Shruti Koparkar adalah Manajer Pemasaran Produk Senior di AWS. Dia membantu pelanggan menjelajahi, mengevaluasi, dan mengadopsi infrastruktur komputasi terakselerasi Amazon EC2 untuk kebutuhan pembelajaran mesin mereka.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoAiStream. Kecerdasan Data Web3. Pengetahuan Diperkuat. Akses Di Sini.
Mencetak Masa Depan bersama Adryenn Ashley. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/how-to-extend-the-functionality-of-aws-trainium-with-custom-operators/

Stempel Waktu: 27 April, 2023

Stempel Waktu: Februari 7, 2022

Cara memperluas fungsionalitas AWS Trainium dengan operator khusus

Diterbitkan Ulang Oleh Plato

Operator khusus di PyTorch dan manfaatnya

Dukungan Trainium untuk operator khusus

SDK Neuron

Tujuan Umum Single Instruction Multiple Data engine

Operator kustom Neuron SDK dalam praktiknya

Contoh: Neuron CustomOps dalam pelatihan MLP

Kembangkan Neuron CustomOp: Fungsi kernel

Bangun dan daftarkan Neuron CustomOp: Fungsi bentuk

Bangun model MLP dengan Neuron CustomOp

Tentukan kelas Relu

Periksa model MLP

Jalankan skrip pelatihan

Kesimpulan

Tentang Penulis

Lebih dari Pembelajaran Mesin AWS

Terapkan rekomendasi yang dipersonalisasi secara real-time menggunakan Amazon Personalize | Layanan Web Amazon

Tingkatkan penelitian bernilai tinggi dengan Hugging Face dan titik akhir inferensi asinkron Amazon SageMaker

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun