Model Pelatihan AI 100 Triliun Parameter

Diterbitkan Ulang Oleh Plato

Followers: 0

Sistem AI Rekomendasi adalah komponen penting dari layanan Internet saat ini: bisnis dengan pendapatan miliaran dolar seperti Amazon dan Netflix secara langsung didorong oleh layanan rekomendasi.

Rekomendasi AI menjadi lebih baik saat mereka menjadi lebih besar. Beberapa model sebelumnya telah dirilis dengan miliaran parameter hingga triliunan baru-baru ini. Setiap lompatan dalam kapasitas model telah membawa peningkatan kualitas yang signifikan. Era 100 triliun parameter sudah dekat.

Jaringan saraf istirahat yang rumit dan padat semakin intensif komputasi dengan lebih dari 100 TFLOP di setiap iterasi pelatihan. Dengan demikian, penting untuk memiliki beberapa mekanisme canggih untuk mengelola sebuah cluster dengan sumber daya yang heterogen untuk tugas-tugas pelatihan tersebut.

Baru-baru ini, Kwai Seattle AI Lab dan DS3 Lab dari ETH Zurich telah berkolaborasi untuk mengusulkan sistem baru bernama "Persia" untuk mengatasi masalah ini melalui desain bersama yang cermat dari algoritma pelatihan dan sistem pelatihan. Pada tingkat algoritme, Persia mengadopsi algoritme pelatihan hibrid untuk menangani lapisan penyematan dan modul jaringan saraf padat secara berbeda. Lapisan embedding dilatih secara asinkron untuk meningkatkan throughput sampel pelatihan, sedangkan jaringan saraf lainnya dilatih secara sinkron untuk menjaga efisiensi statistik. Pada tingkat sistem, berbagai optimasi sistem untuk manajemen memori dan pengurangan komunikasi telah diterapkan untuk mengeluarkan potensi penuh dari algoritma hybrid.

Sumber Daya Cloud untuk Model AI 100 Triliun Parameter

Persia 100 triliun parameter beban kerja AI berjalan pada sumber daya heterogen berikut:

3,000 inti Mesin Virtual komputasi intensif
8 Mesin Virtual A2 menambahkan total 64 GPU Nvidia A100
30 Mesin Virtual Memori Tinggi, masing-masing dengan 12 TB RAM, dengan total 360 TB
Orkestrasi dengan Kubernetes
Semua sumber daya harus diluncurkan secara bersamaan di zona yang sama untuk meminimalkan latensi jaringan. Google Cloud mampu menyediakan kapasitas yang dibutuhkan dengan sangat sedikit pemberitahuan.

Pelatihan AI membutuhkan sumber daya dalam jumlah besar.

Google Kubernetes Engine (GKE) digunakan untuk mengatur penerapan 138 VM dan wadah perangkat lunak. Memiliki beban kerja yang dikemas juga memungkinkan porting dan pengulangan pelatihan.

Hasil dan Kesimpulan
Dengan dukungan infrastruktur Google Cloud, tim menunjukkan skalabilitas Persia hingga 100 triliun parameter. Algoritme pelatihan terdistribusi hibrida memperkenalkan relaksasi sistem yang rumit untuk pemanfaatan klaster heterogen yang efisien, sementara konvergen secepat vanilla SGD. Google Cloud sangat penting untuk mengatasi keterbatasan perangkat keras lokal dan membuktikan lingkungan komputasi yang optimal untuk pelatihan Machine Learning terdistribusi dalam skala besar.

Persia telah dirilis sebagai proyek sumber terbuka di github dengan petunjuk penyiapan untuk Google Cloud —semua orang dari akademisi dan industri akan merasa mudah untuk melatih model rekomendasi pembelajaran mendalam skala 100 triliun parameter.

Brian Wang adalah Pemimpin Pemikiran Futuris dan blogger Sains populer dengan 1 juta pembaca per bulan. Blognya Nextbigfuture.com berada di peringkat #1 Blog Berita Sains. Ini mencakup banyak teknologi dan tren yang mengganggu termasuk Luar Angkasa, Robotika, Kecerdasan Buatan, Kedokteran, Bioteknologi Anti-penuaan, dan Nanoteknologi.

Dikenal karena mengidentifikasi teknologi mutakhir, dia saat ini adalah salah satu pendiri startup dan penggalangan dana untuk perusahaan tahap awal yang berpotensi tinggi. Dia adalah Kepala Riset untuk Alokasi untuk investasi teknologi dalam dan Angel Investor di Space Angels.

Sering menjadi pembicara di perusahaan, dia telah menjadi pembicara TEDx, pembicara Universitas Singularitas dan tamu di berbagai wawancara untuk radio dan podcast. Dia terbuka untuk berbicara di depan umum dan memberikan nasihat.

Stempel Waktu: 28 Agustus 202228 Agustus 2022