Mempercepat Inferensi Amazon SageMaker Dengan Instans Amazon EC6 berbasis C2i Intel

Diterbitkan Ulang Oleh Plato

Followers: 0

Ini adalah posting tamu yang ditulis bersama Antony Vance dari Intel.

Pelanggan selalu mencari cara untuk meningkatkan kinerja dan waktu respons beban kerja inferensi pembelajaran mesin (ML) mereka tanpa meningkatkan biaya per transaksi dan tanpa mengorbankan keakuratan hasil. Menjalankan beban kerja ML aktif Amazon SageMaker berjalan Cloud komputasi elastis Amazon (Amazon EC2) C6i contoh dengan Intel Penerapan inferensi INT8 dapat membantu meningkatkan kinerja keseluruhan hingga empat kali lipat dari setiap dolar yang dihabiskan sekaligus menjaga kerugian dalam akurasi inferensi kurang dari 1% dibandingkan dengan FP32 saat diterapkan pada beban kerja ML tertentu. Ketika datang untuk menjalankan model di perangkat yang disematkan di mana faktor bentuk dan ukuran model itu penting, kuantisasi dapat membantu.

Kuantisasi adalah teknik untuk mengurangi biaya komputasi dan memori dalam menjalankan inferensi dengan merepresentasikan bobot dan aktivasi dengan tipe data presisi rendah seperti integer 8-bit (INT8), bukan floating point 32-bit biasa (FP32). Dalam gambar contoh berikut, kami menunjukkan kinerja inferensi INT8 di C6i untuk model berbasis BERT.

Basis BERT disesuaikan dengan SQuAD v1.1, dengan PyTorch (v1.11) sebagai kerangka kerja ML yang digunakan dengan Intel® Extension untuk PyTorch. Ukuran batch 1 digunakan untuk perbandingan. Ukuran batch yang lebih tinggi akan memberikan biaya yang berbeda per 1 juta inferensi.

Dalam posting ini, kami menunjukkan kepada Anda bagaimana membangun dan menggunakan inferensi INT8 dengan Anda wadah pengolahan sendiri untuk PyTorch. Kami menggunakan ekstensi Intel untuk PyTorch untuk alur kerja penerapan INT8 yang efektif.

Sekilas tentang teknologi

instans EC2 C6i ditenagai oleh prosesor Intel Xeon Scalable generasi ketiga (juga disebut Ice Lake) dengan frekuensi turbo all-core 3.5 GHz.

Dalam konteks pembelajaran mendalam, format numerik dominan yang digunakan untuk penelitian dan penerapan sejauh ini adalah 32-bit floating point, atau FP32. Namun, kebutuhan bandwidth yang dikurangi dan persyaratan komputasi model deep learning telah mendorong penelitian untuk menggunakan format numerik dengan presisi lebih rendah. Telah dibuktikan bahwa bobot dan aktivasi dapat direpresentasikan menggunakan bilangan bulat 8-bit (atau INT8) tanpa menimbulkan kerugian yang signifikan dalam akurasi.

Instans EC2 C6i menawarkan banyak kemampuan baru yang menghasilkan peningkatan kinerja untuk beban kerja AI dan ML. Instans C6i memberikan keunggulan kinerja dalam penerapan model FP32 dan INT8. Inferensi FP32 diaktifkan dengan peningkatan AVX-512, dan inferensi INT8 diaktifkan dengan instruksi VNNI AVX-512.

C6i sekarang tersedia di titik akhir SageMaker, dan pengembang diharapkan dapat memberikan peningkatan kinerja harga lebih dari dua kali lipat untuk inferensi INT8 dibandingkan inferensi FP32 dan peningkatan kinerja hingga empat kali lipat jika dibandingkan dengan inferensi FP5 instans C32. Lihat lampiran untuk detail instance dan data tolok ukur.

Penyebaran pembelajaran mendalam di edge untuk inferensi real-time adalah kunci untuk banyak area aplikasi. Ini secara signifikan mengurangi biaya komunikasi dengan cloud dalam hal bandwidth jaringan, latensi jaringan, dan konsumsi daya. Namun, perangkat edge memiliki memori, sumber daya komputasi, dan daya yang terbatas. Artinya, jaringan deep learning harus dioptimalkan untuk penerapan tersemat. Kuantisasi INT8 telah menjadi pendekatan populer untuk pengoptimalan semacam itu untuk kerangka kerja ML seperti TensorFlow dan PyTorch. SageMaker memberi Anda pendekatan bawa wadah Anda sendiri (BYOC) dan alat terintegrasi sehingga Anda dapat menjalankan kuantisasi.

Untuk informasi lebih lanjut, lihat Inferensi dan Pelatihan Deep Learning Presisi Numerik Rendah.

Ikhtisar solusi

Langkah-langkah untuk mengimplementasikan solusi tersebut adalah sebagai berikut:

Sediakan instans EC2 C6i untuk mengukur dan membuat model ML.
Gunakan skrip Python yang disediakan untuk kuantisasi.
Buat image Docker untuk menerapkan model di SageMaker menggunakan pendekatan BYOC.
Gunakan sebuah Layanan Penyimpanan Sederhana Amazon (Amazon S3) untuk menyalin model dan kode untuk akses SageMaker.
penggunaan Registry Kontainer Elastis Amazon (Amazon ECR) untuk menghosting gambar Docker.
Gunakan Antarmuka Baris Perintah AWS (AWS CLI) untuk membuat titik akhir inferensi di SageMaker.
Jalankan skrip pengujian Python yang disediakan untuk memanggil titik akhir SageMaker untuk versi INT8 dan FP32.

Pengaturan penerapan inferensi ini menggunakan model BERT-base dari repositori transformer Hugging Face (csarron/bert-base-uncased-squad-v1).

Prasyarat

Berikut adalah prasyarat untuk membuat penyiapan penerapan:

Terminal shell Linux dengan AWS CLI terpasang
Akun AWS dengan akses ke pembuatan instans EC2 (tipe instans C6i)
Akses SageMaker untuk menerapkan model SageMaker, konfigurasi titik akhir, titik akhir
Identitas AWS dan Manajemen Akses (IAM) untuk mengonfigurasi peran dan kebijakan IAM
Akses ke Amazon ECR
Akses SageMaker untuk membuat buku catatan dengan instruksi untuk meluncurkan titik akhir

Buat dan terapkan model INT8 terkuantisasi di SageMaker

Buka instans EC2 untuk membuat model terkuantisasi Anda dan dorong artefak model ke Amazon S3. Untuk penyebaran titik akhir, buat wadah khusus dengan PyTorch dan Intel® Extension untuk PyTorch untuk menerapkan model INT8 yang dioptimalkan. Kontainer didorong ke Amazon ECR dan titik akhir berbasis C6i dibuat untuk melayani model FP32 dan INT8.

Diagram berikut mengilustrasikan aliran tingkat tinggi.

Untuk mengakses kode dan dokumentasi, lihat GitHub repo.

Contoh kasus penggunaan

Stanford Question Answering Dataset (SQuAD) adalah kumpulan data pemahaman bacaan yang terdiri dari pertanyaan yang diajukan oleh crowdworker pada serangkaian artikel Wikipedia, di mana jawaban untuk setiap pertanyaan adalah segmen teks, atau merentang, dari bagian bacaan yang sesuai, atau pertanyaannya mungkin tidak terjawab.

Contoh berikut adalah algoritma penjawab pertanyaan menggunakan model berbasis BERT. Diberikan dokumen sebagai input, model akan menjawab pertanyaan sederhana berdasarkan pembelajaran dan konteks dari dokumen input.

Berikut ini adalah contoh dokumen masukan:

Hutan hujan Amazon (Portugis: Floresta Amazônica atau Amazonia; Spanyol: Selva Amazónica, Amazonía atau biasanya Amazonia; Prancis: Forêt amazonienne; Belanda: Amazoneregenwoud), juga dikenal dalam bahasa Inggris sebagai Amazonia atau Amazon Jungle, adalah hutan berdaun lebar lembab yang menutupi sebagian besar lembah Amazon di Amerika Selatan. Cekungan ini mencakup 7,000,000 kilometer persegi (2,700,000 sq mi), dimana 5,500,000 kilometer persegi (2,100,000 sq mi) ditutupi oleh hutan hujan.

Untuk pertanyaan “Nama apa yang juga digunakan untuk mendeskripsikan hutan hujan Amazon dalam bahasa Inggris?” kita mendapatkan jawabannya:

also known in English as Amazonia or the Amazon Jungle,Amazonia or the Amazon Jungle, Amazonia.

Untuk pertanyaan “Berapa kilometer persegi hutan hujan yang tercakup dalam cekungan?” kita mendapatkan jawabannya:

5,500,000 square kilometers (2,100,000 sq mi) are covered by the rainforest.5,500,000.

Mengkuantisasi model di PyTorch

Bagian ini memberikan ikhtisar singkat tentang langkah-langkah kuantisasi model dengan ekstensi PyTorch dan Intel.

Cuplikan kode berasal dari contoh SageMaker.

Mari kita bahas perubahan secara mendetail untuk fungsi IPEX_quantize di file quantize.py.

Impor ekstensi intel untuk PyTorch untuk membantu kuantisasi dan pengoptimalan dan impor obor untuk manipulasi array:

import intel_extension_for_pytorch as ipex
import torch

Terapkan kalibrasi model untuk 100 iterasi. Dalam hal ini, Anda mengkalibrasi model dengan set data SQuAD:

model.eval()
conf = ipex.quantization.QuantConf(qscheme=torch.per_tensor_affine)
print("Doing calibration...")
for step, batch in enumerate(eval_dataloader): print("Calibration step-", step) with torch.no_grad(): with ipex.quantization.calibrate(conf): model(**batch) if step == 100: break

Siapkan input sampel:

jit_inputs = [] example_batch = next(iter(eval_dataloader)) for key in example_batch: example_tensor = torch.ones_like(example_batch[key]) jit_inputs.append(example_tensor) jit_inputs = tuple(jit_inputs)

Ubah model menjadi model INT8 menggunakan konfigurasi berikut:

with torch.no_grad(): model = ipex.quantization.convert(model, conf, jit_inputs)

Jalankan dua iterasi forward pass untuk mengaktifkan fusi:

with torch.no_grad(): model(**example_batch) model(**example_batch)

Sebagai langkah terakhir, simpan model TorchScript:

model.save(os.path.join(args.model_path, "model_int8.pt"))

Membersihkan

Mengacu kepada Repo Github untuk langkah-langkah membersihkan sumber daya AWS yang dibuat.

Kesimpulan

Instans C2i EC6 baru di titik akhir SageMaker dapat mempercepat penerapan inferensi hingga 2.5 kali lebih besar dengan kuantisasi INT8. Mengukur model di PyTorch dimungkinkan dengan beberapa API dari ekstensi Intel PyTorch. Direkomendasikan untuk mengkuantisasi model dalam instans C6i agar akurasi model dipertahankan dalam penerapan titik akhir. Contoh SageMaker GitHub repo sekarang menyediakan pipa contoh penerapan end-to-end untuk mengkuantisasi dan menghosting model INT8.

Kami mendorong Anda untuk membuat model baru atau memigrasikan model yang sudah ada menggunakan kuantisasi INT8 menggunakan jenis instans EC2 C6i dan lihat peningkatan performanya sendiri.

Pemberitahuan dan penafian

Tidak ada lisensi (tersurat maupun tersirat, dengan estoppel atau lainnya) untuk hak kekayaan intelektual apa pun yang diberikan oleh dokumen ini, dengan satu-satunya pengecualian bahwa kode yang disertakan dalam dokumen ini dilisensikan dengan tunduk pada Lisensi sumber terbuka Zero-Clause BSD (0BSD)

Lampiran

Instans AWS baru di SageMaker dengan dukungan penerapan INT8

Tabel berikut mencantumkan instans SageMaker dengan dan tanpa Peningkatan DL Dukungan.

Nama instansi	Nama kode Xeon Gen	INT8 Diaktifkan?	Peningkatan DL Diaktifkan?
ml.c5. xbesar – ml.c5.9xbesar	Danau langit/1^st	Yes	Tidak
ml.c5.18xbesar	Danau langit/1^st	Yes	Tidak
ml.c6i.1x – 32xbesar	Danau Es/3^rd	Yes	Yes

Singkatnya, INT8 diaktifkan mendukung tipe data dan perhitungan INT8; DL Boost diaktifkan mendukung Deep Learning Boost.

Data tolok ukur

Tabel berikut membandingkan biaya dan performa relatif antara instans c5 dan c6.

Latensi dan throughput diukur dengan 10000 kueri Inferensi ke titik akhir pembuat Sage.

Latensi E2E dari Titik Akhir Inferensi dan analisis Biaya
	P50(md)	P90(md)	Kueri/Detik	Kueri $/1 juta	Relatif $/Kinerja
C5.2xBesar-FP32	76.6	125.3	11.5	$10.2	1.0x
c6i.2xBesar-FP32	70	110.8	13	$9.0	1.1x
c6i.2xBesar-INT8	35.7	48.9	25.56	$4.5	2.3x

Model INT8 diharapkan memberikan peningkatan kinerja praktis 2-4 kali dengan kehilangan akurasi kurang dari 1% untuk sebagian besar model. Tabel di atas mencakup latensi overhead (aplikasi NW dan demo)

Akurasi untuk model berbasis BERT

Tabel berikut merangkum keakuratan model INT8 dengan set data SQUaD v1.1.

metrik	FP32	INT8
Benar-benar cocok	85.8751	85.5061
F1	92.0807	91.8728

Grafik GitHub repo dilengkapi dengan skrip untuk memeriksa keakuratan dataset SQuAD. Mengacu pada panggil-INT8.py dan panggil-FP32.py skrip untuk pengujian.

Ekstensi Intel untuk PyTorch

Intel® Extension for PyTorch* (proyek sumber terbuka di GitHub) memperluas PyTorch dengan pengoptimalan untuk peningkatan kinerja ekstra pada perangkat keras Intel. Sebagian besar pengoptimalan pada akhirnya akan disertakan dalam stok rilis PyTorch, dan maksud dari ekstensi ini adalah untuk memberikan fitur dan pengoptimalan terkini untuk PyTorch pada perangkat keras Intel. Contohnya termasuk AVX-512 Vector Neural Network Instructions (AVX512 VNNI) dan Intel® Advanced Matrix Extensions (Intel® AMX).

Gambar berikut mengilustrasikan Ekstensi Intel untuk arsitektur PyTorch.

Untuk panduan pengguna yang lebih mendetail (fitur, penyetelan kinerja, dan lainnya) untuk Intel® Extension for PyTorch, lihat Panduan pengguna Ekstensi Intel® untuk PyTorch*.

Tentang Penulis

Rohit Chowdhary adalah Sr. Solutions Architect di tim Strategic Accounts di AWS.

Aniruddha Kappagantu adalah Insinyur Pengembangan Perangkat Lunak di tim AI Platforms di AWS.

Antony Vanes adalah Arsitek AI di Intel dengan pengalaman 19 tahun dalam visi komputer, pembelajaran mesin, pembelajaran mendalam, perangkat lunak tersemat, GPU, dan FPGA.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/accelerate-amazon-sagemaker-inference-with-c6i-intel-based-amazon-ec2-instances/

Stempel Waktu: 20 Maret, 2023

Stempel Waktu: Juni 10, 2022

Percepat inferensi Amazon SageMaker dengan instans Amazon EC6 berbasis C2i Intel

Diterbitkan Ulang Oleh Plato

Sekilas tentang teknologi

Ikhtisar solusi

Prasyarat

Buat dan terapkan model INT8 terkuantisasi di SageMaker

Contoh kasus penggunaan

Mengkuantisasi model di PyTorch

Membersihkan

Kesimpulan

Pemberitahuan dan penafian

Lampiran

Instans AWS baru di SageMaker dengan dukungan penerapan INT8

Data tolok ukur

Akurasi untuk model berbasis BERT

Ekstensi Intel untuk PyTorch

Tentang Penulis

Lebih dari Pembelajaran Mesin AWS

Siapkan data deret waktu dengan Amazon SageMaker Data Wrangler

Gunakan layanan AWS AI dan ML untuk mendorong aksesibilitas dan inklusi orang dengan gangguan visual atau komunikasi

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun