100 Trilyon Parametre Yapay Zeka Eğitim Modelleri

Kaynak Düğüm: 1642849
görüntü

Önerici yapay zeka sistemleri günümüzde İnternet hizmetlerinin önemli bir bileşenidir: Amazon ve Netflix gibi milyar dolarlık gelir sağlayan işletmeler doğrudan öneri hizmetleri tarafından yönlendirilmektedir.

Yapay zeka tavsiyecileri büyüdükçe daha iyi hale geliyor. Çok yakın zamanda milyarlarca hatta trilyonlara kadar parametre içeren çeşitli modeller piyasaya sürüldü. Model kapasitesindeki her artış kaliteye önemli bir iyileşme getirdi. 100 trilyon parametrenin çağı çok yakında.

Karmaşık, yoğun dinlenme sinir ağı, her eğitim yinelemesinde 100'den fazla TFLOP ile giderek daha fazla hesaplama yoğunluğuna sahip oluyor. Bu nedenle, bu tür eğitim görevleri için heterojen kaynaklara sahip bir kümeyi yönetmek için bazı karmaşık mekanizmalara sahip olmak önemlidir.

Son zamanlarda, ETH Zürih'ten Kwai Seattle AI Lab ve DS3 Lab, hem eğitim algoritmasının hem de eğitim sisteminin dikkatli bir şekilde birlikte tasarlanması yoluyla bu sorunun üstesinden gelmek için "Persia" adlı yeni bir sistem önermek üzere işbirliği yaptı. Algoritma düzeyinde Persia, gömme katmanını ve yoğun sinir ağı modüllerini farklı şekilde ele almak için hibrit bir eğitim algoritmasını benimser. Gömme katmanı, eğitim örneklerinin verimini artırmak için eşzamansız olarak eğitilirken, geri kalan sinir ağı, istatistiksel verimliliği korumak için eşzamanlı olarak eğitilir. Sistem düzeyinde, hibrit algoritmanın tüm potansiyelini ortaya çıkarmak için bellek yönetimi ve iletişim azaltımına yönelik çok çeşitli sistem optimizasyonları uygulandı.

100 Trilyon Parametreli Yapay Zeka Modelleri için Bulut Kaynakları

İran'ın 100 trilyon parametreli yapay zeka iş yükü, aşağıdaki heterojen kaynaklar üzerinde çalışır:

3,000 çekirdek bilgi işlem yoğunluklu Sanal Makine
Toplam 8 A2 Nvidia GPU ekleyen 64 A100 Sanal Makine
Her biri 30 TB RAM'e sahip 12 Yüksek Bellekli Sanal Makine, toplam 360 TB
Kubernetes ile Orkestrasyon
Ağ gecikmesini en aza indirmek için tüm kaynakların aynı bölgede eşzamanlı olarak başlatılması gerekiyordu. Google Cloud, gerekli kapasiteyi çok kısa sürede sağlamayı başardı.

Yapay Zeka Eğitimi'nin anlık kaynaklara ihtiyacı var.

138 sanal makinenin ve yazılım kapsayıcısının dağıtımını düzenlemek için Google Kubernetes Engine (GKE) kullanıldı. İş yükünün kapsayıcıya alınması aynı zamanda eğitimin taşınmasına ve tekrarlanabilirliğine de olanak tanır.

Sonuçlar ve Sonuçlar
Ekip, Google Cloud altyapısının desteğiyle Persia'nın 100 trilyon parametreye kadar ölçeklenebilirliğini gösterdi. Hibrit dağıtılmış eğitim algoritması, bir yandan klasik SGD kadar hızlı yakınsama yaparken, bir yandan da heterojen kümelerin verimli kullanımı için ayrıntılı sistem gevşemeleri sağladı. Google Cloud, şirket içi donanım sınırlamalarının üstesinden gelmek için çok önemliydi ve çok büyük ölçekte dağıtılmış Makine Öğrenimi eğitimi için en uygun bilgi işlem ortamı olduğunu kanıtladı.

Persia, Google Cloud kurulum talimatlarını içeren, github üzerinde açık kaynaklı bir proje olarak yayınlandı. Hem akademiden hem de sektörden herkes, 100 trilyon parametre ölçeğinde, derin öğrenme öneri modellerini eğitmeyi kolay bulacaktır.

Brian Wang, Fütürist Düşünce Lideri ve ayda 1 milyon okuyucusu olan popüler bir Bilim blog yazarıdır. Blogu Nextbigfuture.com, Science News Blog'da 1. sırada yer alıyor. Uzay, Robotik, Yapay Zeka, Tıp, Yaşlanma Karşıtı Biyoteknoloji ve Nanoteknoloji dahil olmak üzere birçok yıkıcı teknoloji ve trendi kapsar.

En son teknolojileri tanımlamasıyla tanınan, şu anda yüksek potansiyele sahip erken aşamadaki şirketler için bir başlangıç ​​ve bağış toplama kuruluşunun Kurucu Ortağıdır. Derin teknoloji yatırımları için Tahsis Araştırma Başkanı ve Space Angels'ta Melek Yatırımcıdır.

Şirketlerde sık sık konuşmacı olarak, TEDx konuşmacısı, Singularity Üniversitesi konuşmacısı ve radyo ve podcast'ler için çok sayıda röportajda konuk olmuştur. Topluluk önünde konuşma ve danışmanlık görüşmelerine açıktır.

Zaman Damgası:

Den fazla Sonraki Büyük Gelecekler