حققت نماذج المحولات الكبيرة القائمة على الانتباه مكاسب هائلة في معالجة اللغة الطبيعية (NLP). ومع ذلك ، فإن تدريب هذه الشبكات العملاقة من البداية يتطلب قدرًا هائلاً من البيانات والحساب. بالنسبة لمجموعات البيانات NLP الأصغر ، تتمثل الإستراتيجية البسيطة والفعالة في استخدام محول مدرب مسبقًا ، وعادة ما يتم تدريبه بطريقة غير خاضعة للإشراف على مجموعات بيانات كبيرة جدًا ، وضبطه على مجموعة البيانات ذات الأهمية. وجه يعانق يحتفظ بنموذج حديقة حيوان كبير من هذه المحولات المدربة مسبقًا ويسهل الوصول إليها حتى للمستخدمين المبتدئين.
ومع ذلك ، لا يزال ضبط هذه النماذج يتطلب معرفة متخصصة ، لأنها حساسة جدًا لمعلماتها الفائقة ، مثل معدل التعلم أو حجم الدُفعة. في هذا المنشور ، نوضح كيفية تحسين هذه المعلمات الفائقة باستخدام إطار عمل مفتوح المصدر لحن ساين لتحسين المعلمة الفائقة الموزعة (HPO). يسمح لنا Syne Tune بالعثور على تكوين أفضل للمعلمات الفائقة يحقق تحسنًا نسبيًا بين 1-4٪ مقارنة بالمعلمات التشعبية الافتراضية على الشائعة GLUE مجموعات البيانات المعيارية. يمكن أيضًا اعتبار اختيار النموذج المدرَّب مسبقًا نفسه معلمة فائقة ، وبالتالي يتم تحديده تلقائيًا بواسطة Syne Tune. في مشكلة تصنيف النص ، يؤدي هذا إلى زيادة إضافية في الدقة تقارب 5٪ مقارنة بالنموذج الافتراضي. ومع ذلك ، يمكننا أتمتة المزيد من القرارات التي يحتاجها المستخدم ؛ نوضح ذلك أيضًا من خلال الكشف عن نوع المثيل كمعامل تشعبي نستخدمه لاحقًا لنشر النموذج. من خلال تحديد نوع المثيل الصحيح ، يمكننا العثور على التكوينات التي تقايض التكلفة ووقت الاستجابة على النحو الأمثل.
للحصول على مقدمة إلى Syne Tune ، يرجى الرجوع إلى قم بتشغيل وظائف المعلمات الفائقة الموزعة وضبط العمارة العصبية باستخدام Syne Tune.
تحسين Hyperparameter باستخدام Syne Tune
وسوف نستخدم GLUE مجموعة المعايير ، والتي تتكون من تسع مجموعات بيانات لمهام فهم اللغة الطبيعية ، مثل التعرف على الضمانات النصية أو تحليل المشاعر. لذلك ، نحن نتكيف مع Hugging Face run_glue.py نص التدريب. تأتي مجموعات بيانات GLUE مع مجموعة تدريب وتقييم محددة مسبقًا مع تسميات بالإضافة إلى مجموعة اختبار الانتظار بدون تسميات. لذلك ، قمنا بتقسيم مجموعة التدريب إلى مجموعات تدريب وتحقق (تقسيم 70٪ / 30٪) واستخدام مجموعة التقييم كمجموعة بيانات اختبار الانتظار. علاوة على ذلك ، أضفنا وظيفة رد اتصال أخرى إلى Hugging Face's Trainer API التي تُبلغ عن أداء التحقق بعد كل فترة إلى Syne Tune. انظر الكود التالي:
نبدأ بتحسين معلمات التدريب النموذجية: معدل التعلم ، ونسبة الإحماء لزيادة معدل التعلم ، وحجم الدُفعة لضبط BERT مسبق التدريب (غلاف بيرت) النموذج ، وهو النموذج الافتراضي في مثال Hugging Face. انظر الكود التالي:
كطريقة HPO الخاصة بنا ، نستخدم أ ش أ، الذي يأخذ عينات تكوينات المعلمات الفائقة بشكل موحد عشوائيًا ويوقف بشكل متكرر تقييم التكوينات ذات الأداء السيئ. على الرغم من أن الأساليب الأكثر تعقيدًا تستخدم نموذجًا احتماليًا للوظيفة الموضوعية ، مثل BO أو MoBster ، فإننا نستخدم ASHA لهذا المنشور لأنه يأتي بدون أي افتراضات على مساحة البحث.
في الشكل التالي ، نقارن التحسن النسبي في خطأ الاختبار على التكوين الافتراضي للمعامل التشعبي Hugging Faces.
من أجل البساطة ، نحصر المقارنة مع MRPC و COLA و STSB ، لكننا نلاحظ أيضًا تحسينات مماثلة أيضًا لمجموعات بيانات GLUE الأخرى. لكل مجموعة بيانات ، نقوم بتشغيل ASHA على ml.g4dn.xlarge واحد الأمازون SageMaker مثيل بميزانية وقت تشغيل تبلغ 1,800 ثانية ، وهو ما يتوافق مع ما يقرب من 13 و 7 و 9 تقييمات كاملة للوظائف على مجموعات البيانات هذه ، على التوالي. لحساب العشوائية الجوهرية لعملية التدريب ، على سبيل المثال الناتجة عن أخذ عينات دفعة صغيرة ، نقوم بتشغيل كل من ASHA والتكوين الافتراضي لخمسة تكرارات مع بذرة مستقلة لمولد الأرقام العشوائية والإبلاغ عن المتوسط والانحراف المعياري لـ تحسن نسبي عبر التكرار. يمكننا أن نرى أنه في جميع مجموعات البيانات ، يمكننا في الواقع تحسين الأداء التنبئي بنسبة 1-3٪ بالنسبة إلى أداء التكوين الافتراضي المحدد بعناية.
أتمتة اختيار النموذج المدرب مسبقًا
يمكننا استخدام HPO ليس فقط للعثور على المعلمات الفائقة ، ولكن أيضًا تحديد النموذج المناسب المدربين مسبقًا تلقائيًا. لماذا نريد أن نفعل هذا؟ نظرًا لعدم وجود نموذج واحد يتفوق في الأداء عبر جميع مجموعات البيانات ، يتعين علينا تحديد النموذج المناسب لمجموعة بيانات معينة. لإثبات ذلك ، نقوم بتقييم مجموعة من نماذج المحولات الشائعة من Hugging Face. لكل مجموعة بيانات ، نقوم بتصنيف كل نموذج من خلال أداء الاختبار الخاص به. يتغير الترتيب عبر مجموعات البيانات (انظر الشكل التالي) وليس نموذجًا واحدًا يسجل أعلى الدرجات في كل مجموعة بيانات. كمرجع ، نعرض أيضًا أداء الاختبار المطلق لكل نموذج ومجموعة بيانات في الشكل التالي.
لتحديد النموذج الصحيح تلقائيًا ، يمكننا اختيار النموذج كمعلمات فئوية وإضافتها إلى مساحة البحث الخاصة بالمعلمات الفائقة:
على الرغم من أن مساحة البحث الآن أكبر ، فإن هذا لا يعني بالضرورة أنه من الصعب تحسينها. يوضح الشكل التالي خطأ الاختبار لأفضل تكوين تمت ملاحظته (استنادًا إلى خطأ التحقق من الصحة) على مجموعة بيانات MRPC الخاصة بـ ASHA بمرور الوقت عندما نبحث في المساحة الأصلية (الخط الأزرق) (باستخدام نموذج BERT-base-cased مدرب مسبقًا ) أو في مساحة البحث المعززة الجديدة (الخط البرتقالي). بالنظر إلى نفس الميزانية ، فإن ASHA قادرة على العثور على تكوين أفضل أداء للمعلمة الفائقة في مساحة البحث الممتدة مقارنة بالمساحة الأصغر.
أتمتة تحديد نوع المثيل
في الممارسة العملية ، قد لا نهتم فقط بتحسين الأداء التنبئي. قد نهتم أيضًا بأهداف أخرى ، مثل وقت التدريب أو التكلفة (بالدولار) أو زمن الوصول أو مقاييس الإنصاف. نحتاج أيضًا إلى اتخاذ خيارات أخرى بخلاف المعلمات الفائقة للنموذج ، على سبيل المثال تحديد نوع المثيل.
على الرغم من أن نوع المثيل لا يؤثر على الأداء التنبئي ، إلا أنه يؤثر بشدة على التكلفة (بالدولار) ووقت تشغيل التدريب ووقت الاستجابة. يصبح هذا الأخير مهمًا بشكل خاص عند نشر النموذج. يمكننا صياغة HPO كمشكلة تحسين متعددة الأغراض ، حيث نهدف إلى تحسين أهداف متعددة في وقت واحد. ومع ذلك ، لا يوجد حل واحد يعمل على تحسين جميع المقاييس في نفس الوقت. بدلاً من ذلك ، نهدف إلى العثور على مجموعة من التكوينات التي تقايض هدفًا مقابل الآخر على النحو الأمثل. هذا يسمى مجموعة باريتو.
لتحليل هذا الإعداد بشكل أكبر ، نضيف اختيار نوع المثيل كمعلمة تشعبية فئوية إضافية إلى مساحة البحث الخاصة بنا:
نستخدم مو آشا، والذي يكيّف ASHA مع السيناريو متعدد الأهداف باستخدام الفرز غير المسيطر عليه. في كل تكرار ، يحدد MO-ASHA أيضًا لكل تكوين نوع المثيل الذي نريد تقييمه بناءً عليه. لتشغيل HPO على مجموعة غير متجانسة من المثيلات ، يوفر Syne Tune الواجهة الخلفية لـ SageMaker. باستخدام هذه الواجهة الخلفية ، يتم تقييم كل تجربة كوظيفة تدريب مستقلة لـ SageMaker على نسختها الخاصة. يحدد عدد العمال عدد وظائف SageMaker التي نديرها بالتوازي في وقت معين. يعمل المُحسِّن نفسه ، MO-ASHA في حالتنا ، إما على الجهاز المحلي أو دفتر Sagemaker أو على وظيفة تدريب SageMaker منفصلة. انظر الكود التالي:
تُظهر الأشكال التالية خطأ وقت الاستجابة مقابل الاختبار على اليسار ووقت الاستجابة مقابل التكلفة على اليمين للتكوينات العشوائية التي تم أخذ عينات منها بواسطة MO-ASHA (نحد من محور الرؤية) في مجموعة بيانات MRPC بعد تشغيلها لمدة 10,800 ثانية على أربعة عمال. يشير اللون إلى نوع المثيل. يمثل الخط الأسود المتقطع مجموعة باريتو ، مما يعني مجموعة النقاط التي تهيمن على جميع النقاط الأخرى في هدف واحد على الأقل.
يمكننا ملاحظة المفاضلة بين وقت الاستجابة وخطأ الاختبار ، مما يعني أن أفضل تكوين مع أقل خطأ اختبار لا يحقق أدنى زمن انتقال. بناءً على تفضيلاتك ، يمكنك تحديد تكوين المعلمة الفائقة الذي يضحي بأداء الاختبار ولكنه يأتي مع زمن انتقال أصغر. نرى أيضًا المفاضلة بين زمن الوصول والتكلفة. باستخدام مثال ml.g4dn.xlarge الأصغر ، على سبيل المثال ، فإننا نزيد وقت الاستجابة بشكل هامشي فقط ، لكننا ندفع ربع تكلفة مثيل ml.g4dn.8xlarge.
وفي الختام
في هذا المنشور ، ناقشنا تحسين المعلمة الفائقة لضبط نماذج المحولات المدربة مسبقًا من Hugging Face استنادًا إلى Syne Tune. لقد رأينا أنه من خلال تحسين المعلمات الفائقة مثل معدل التعلم وحجم الدفعة ونسبة الإحماء ، يمكننا تحسين التكوين الافتراضي المختار بعناية. يمكننا أيضًا توسيع هذا عن طريق التحديد التلقائي للنموذج المدرَّب مسبقًا عبر تحسين المعلمة الفائقة.
بمساعدة الواجهة الخلفية لـ SageMaker من Syne Tune ، يمكننا التعامل مع نوع المثيل كمعلمة فائقة. على الرغم من أن نوع المثيل لا يؤثر على الأداء ، إلا أنه له تأثير كبير على زمن الوصول والتكلفة. لذلك ، من خلال تصوير HPO كمشكلة تحسين متعددة الأهداف ، يمكننا العثور على مجموعة من التكوينات التي تتعامل على النحو الأمثل مع هدف مقابل الآخر. إذا كنت ترغب في تجربة ذلك بنفسك ، تحقق من سبيل المثال دفتر.
حول المؤلف
آرون كلاين هو عالم تطبيقي في AWS.
ماتياس سيجر هو عالم تطبيقي رئيسي في AWS.
ديفيد ساليناس هو عالم تطبيقي كبير في AWS.
إميلي ويبر انضم إلى AWS بعد إطلاق SageMaker مباشرة ، وما زال يحاول إخبار العالم عنها منذ ذلك الحين! خارج بناء تجارب تعلم جديدة للعملاء ، تتمتع إميلي بالتأمل ودراسة البوذية التبتية.
سيدريك ارشامبو هو عالم تطبيقي رئيسي في AWS وزميل في المختبر الأوروبي للتعلم والأنظمة الذكية.
- كوينسمارت. أفضل بورصة للبيتكوين والعملات المشفرة في أوروبا.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. دخول مجاني.
- كريبتوهوك. الرادار. تجربة مجانية.
- المصدر: https://aws.amazon.com/blogs/machine-learning/hyperparameter-optimization-for-fine-tuning-pre-trained-transformer-models-from-hugging-face/
- "
- 10
- 100
- 7
- 9
- a
- من نحن
- مطلق
- يمكن الوصول
- حسابي
- التأهيل
- في
- إضافي
- تؤثر
- الكل
- يسمح
- بالرغم ان
- أمازون
- كمية
- تحليل
- تحليل
- آخر
- API
- تطبيقي
- ما يقرب من
- هندسة معمارية
- المعزز
- أتمتة
- تلقائيا
- المتوسط
- AWS
- محور
- لان
- مؤشر
- أفضل
- أفضل
- ما بين
- Beyond
- اسود
- الخطّ الغامق
- زيادة
- ميزانية
- ابني
- يهمني
- حقيبة
- تسبب
- خيار
- الخيارات
- اختيار
- فئة
- تصنيف
- الكود
- تأتي
- مقارنة
- إحصاء
- الاعداد
- مراقبة
- العملاء
- البيانات
- القرارات
- شرح
- نشر
- نشر
- وزعت
- لا
- دولار
- كل
- بسهولة
- الطُرق الفعّالة
- المجلة الأوروبية
- تقييم
- تقييم
- مثال
- خبرة
- خبير
- مد
- الوجه
- الأزياء
- الشكل
- متابعيك
- الإطار
- تبدأ من
- بالإضافة إلى
- وظيفة
- إضافي
- علاوة على ذلك
- مولد كهربائي
- مساعدة
- هنا
- كيفية
- كيفية
- لكن
- HTTPS
- التأثير
- أهمية
- تحسن
- تحسين
- القيمة الاسمية
- مستقل
- تأثير
- مثل
- ذكي
- مصلحة
- IT
- نفسها
- وظيفة
- المشــاريــع
- انضم
- المعرفة
- مختبر
- ملصقات
- لغة
- كبير
- أكبر
- أطلقت
- يؤدي
- تعلم
- مما سيحدث
- خط
- محلي
- آلة
- جعل
- يصنع
- هائل
- معنى
- طرق
- المقاييس
- ربما
- ML
- نموذج
- عارضات ازياء
- الأكثر من ذلك
- متعدد
- طبيعي
- بالضرورة
- إحتياجات
- الشبكات
- مفكرة
- عدد
- أهداف
- تم الحصول عليها
- التحسين
- الأمثل
- تحسين
- أصلي
- أخرى
- الخاصة
- خاصة
- أداء
- أداء
- من فضلك
- نقاط
- أكثر الاستفسارات
- ممارسة
- رئيسي
- المشكلة
- عملية المعالجة
- معالجة
- ويوفر
- نطاق
- تصنيف
- تقرير
- صحافي
- التقارير
- يمثل
- يتطلب
- النتائج
- يجري
- تشغيل
- نفسه
- عالم
- بحث
- ثواني
- بذرة
- مختار
- عاطفة
- طقم
- ضبط
- إظهار
- هام
- مماثل
- الاشارات
- عزباء
- حجم
- حل
- متطور
- الفضاء
- محدد
- انقسم
- معيار
- بداية
- الولايه او المحافظه
- لا يزال
- الإستراتيجيات
- أنظمة
- المهام
- تجربه بالعربي
- •
- العالم
- وبالتالي
- الوقت
- تجارة
- قادة الإيمان
- علاج
- هائل
- محاكمة
- فهم
- us
- تستخدم
- المستخدمين
- عادة
- الاستفادة من
- التحقق من صحة
- رؤية
- ويكيبيديا
- بدون
- العمال
- العالم
- حل متجر العقارات الشامل الخاص بك في جورجيا