100 تريليون نموذج تدريب على الذكاء الاصطناعي

عقدة المصدر: 1642849
صورة

تعد أنظمة التوصية بالذكاء الاصطناعي عنصرًا مهمًا في خدمات الإنترنت اليوم: الشركات التي تدر عائدات بمليارات الدولارات مثل Amazon و Netflix مدفوعة مباشرة بخدمات التوصية.

يتحسن موصيو الذكاء الاصطناعي كلما كبروا. تم إصدار العديد من النماذج سابقًا بمليارات من المعلمات حتى تريليون مؤخرًا. أدت كل قفزة في سعة النموذج إلى تحسن كبير في الجودة. لقد اقترب عصر 100 تريليون معلمة.

الشبكة العصبية المعقدة والكثيفة للراحة هي عملية حسابية مكثفة بشكل متزايد مع أكثر من 100 TFLOPs في كل تكرار تدريب. وبالتالي ، من المهم أن يكون لديك آلية معقدة لإدارة مجموعة بموارد غير متجانسة لمهام التدريب هذه.

في الآونة الأخيرة ، تعاون Kwai Seattle AI Lab و DS3 Lab من ETH Zurich لاقتراح نظام جديد يسمى "Persia" لمعالجة هذه المشكلة من خلال التصميم المشترك الدقيق لكل من خوارزمية التدريب ونظام التدريب. على مستوى الخوارزمية ، تتبنى بلاد فارس خوارزمية تدريب هجينة للتعامل مع طبقة التضمين ووحدات الشبكة العصبية الكثيفة بشكل مختلف. يتم تدريب طبقة التضمين بشكل غير متزامن لتحسين إنتاجية عينات التدريب ، بينما يتم تدريب الشبكة العصبية الباقية بشكل متزامن للحفاظ على الكفاءة الإحصائية. على مستوى النظام ، تم تنفيذ مجموعة واسعة من تحسينات النظام لإدارة الذاكرة وتقليل الاتصالات لإطلاق العنان للإمكانات الكاملة للخوارزمية الهجينة.

موارد السحابة لـ 100 تريليون من نماذج الذكاء الاصطناعي

يتم تشغيل عبء عمل الذكاء الاصطناعي بقيمة 100 تريليون معامل في بلاد فارس على الموارد غير المتجانسة التالية:

3,000 مركز من الأجهزة الافتراضية التي تتطلب عمليات حسابية مكثفة
أضافت 8 أجهزة افتراضية A2 إجمالي 64 وحدة معالجة رسومات Nvidia A100
30 آلة افتراضية ذات ذاكرة عالية ، لكل منها 12 تيرابايت من ذاكرة الوصول العشوائي ، بإجمالي 360 تيرابايت
تزامن مع Kubernetes
يجب إطلاق جميع الموارد بشكل متزامن في نفس المنطقة لتقليل زمن انتقال الشبكة. كان Google Cloud قادرًا على توفير السعة المطلوبة مع إشعار قصير جدًا.

يحتاج تدريب الذكاء الاصطناعي إلى موارد على شكل دفعات.

تم استخدام Google Kubernetes Engine (GKE) لتنظيم عملية نشر 138 جهاز ظاهري وحاويات برامج. كما أن وجود عبء العمل في حاوية يسمح أيضًا بنقل التدريب وتكراره.

النتائج والاستنتاجات
وبدعم من بنية Google Cloud الأساسية ، أظهر الفريق قابلية التوسع لبلاد فارس بما يصل إلى 100 تريليون معلمة. قدمت خوارزمية التدريب الموزع الهجين عمليات استرخاء للنظام من أجل الاستخدام الفعال للمجموعات غير المتجانسة ، بينما تتقارب بسرعة الفانيليا SGD. كان Google Cloud ضروريًا للتغلب على قيود الأجهزة المحلية وأثبت أنه بيئة حوسبة مثالية لتوزيع تدريب التعلم الآلي على نطاق واسع.

تم إصدار بلاد فارس كمشروع مفتوح المصدر على جيثب مع إرشادات الإعداد لـ Google Cloud - سيجد الجميع من الأوساط الأكاديمية والصناعية أنه من السهل تدريب نماذج اقتراح التعلم العميق بمقياس 100 تريليون معلمة.

بريان وانج هو رائد الفكر المستقبلي ومدون علمي شهير لديه مليون قارئ شهريًا. صنفت مدونته Nextbigfuture.com على المرتبة الأولى في مدونة أخبار العلوم. ويغطي العديد من التقنيات والاتجاهات التخريبية بما في ذلك الفضاء ، والروبوتات ، والذكاء الاصطناعي ، والطب ، والتكنولوجيا الحيوية لمكافحة الشيخوخة ، وتكنولوجيا النانو.

معروف بتحديد أحدث التقنيات ، وهو حاليًا أحد مؤسسي شركة ناشئة وجمع التبرعات لشركات المرحلة المبكرة ذات الإمكانات العالية. وهو رئيس قسم الأبحاث للتخصيصات للاستثمارات التكنولوجية العميقة ومستثمر ملاك في Space Angels.

متحدث متكرر في الشركات ، كان متحدثًا في TEDx ومتحدثًا بجامعة Singularity وضيفًا في العديد من المقابلات للإذاعة والبودكاست. إنه منفتح على التحدث أمام الجمهور وتقديم المشورة.

الطابع الزمني:

اكثر من العقود الآجلة التالية