تحسين المعلمات الفائقة للضبط الدقيق لنماذج المحولات المدربة مسبقًا من الوجه المعانق

أعاد نشره أفلاطون

المتابعون: 0

حققت نماذج المحولات الكبيرة القائمة على الانتباه مكاسب هائلة في معالجة اللغة الطبيعية (NLP). ومع ذلك ، فإن تدريب هذه الشبكات العملاقة من البداية يتطلب قدرًا هائلاً من البيانات والحساب. بالنسبة لمجموعات البيانات NLP الأصغر ، تتمثل الإستراتيجية البسيطة والفعالة في استخدام محول مدرب مسبقًا ، وعادة ما يتم تدريبه بطريقة غير خاضعة للإشراف على مجموعات بيانات كبيرة جدًا ، وضبطه على مجموعة البيانات ذات الأهمية. وجه يعانق يحتفظ بنموذج حديقة حيوان كبير من هذه المحولات المدربة مسبقًا ويسهل الوصول إليها حتى للمستخدمين المبتدئين.

ومع ذلك ، لا يزال ضبط هذه النماذج يتطلب معرفة متخصصة ، لأنها حساسة جدًا لمعلماتها الفائقة ، مثل معدل التعلم أو حجم الدُفعة. في هذا المنشور ، نوضح كيفية تحسين هذه المعلمات الفائقة باستخدام إطار عمل مفتوح المصدر لحن ساين لتحسين المعلمة الفائقة الموزعة (HPO). يسمح لنا Syne Tune بالعثور على تكوين أفضل للمعلمات الفائقة يحقق تحسنًا نسبيًا بين 1-4٪ مقارنة بالمعلمات التشعبية الافتراضية على الشائعة GLUE مجموعات البيانات المعيارية. يمكن أيضًا اعتبار اختيار النموذج المدرَّب مسبقًا نفسه معلمة فائقة ، وبالتالي يتم تحديده تلقائيًا بواسطة Syne Tune. في مشكلة تصنيف النص ، يؤدي هذا إلى زيادة إضافية في الدقة تقارب 5٪ مقارنة بالنموذج الافتراضي. ومع ذلك ، يمكننا أتمتة المزيد من القرارات التي يحتاجها المستخدم ؛ نوضح ذلك أيضًا من خلال الكشف عن نوع المثيل كمعامل تشعبي نستخدمه لاحقًا لنشر النموذج. من خلال تحديد نوع المثيل الصحيح ، يمكننا العثور على التكوينات التي تقايض التكلفة ووقت الاستجابة على النحو الأمثل.

للحصول على مقدمة إلى Syne Tune ، يرجى الرجوع إلى قم بتشغيل وظائف المعلمات الفائقة الموزعة وضبط العمارة العصبية باستخدام Syne Tune.

تحسين Hyperparameter باستخدام Syne Tune

وسوف نستخدم GLUE مجموعة المعايير ، والتي تتكون من تسع مجموعات بيانات لمهام فهم اللغة الطبيعية ، مثل التعرف على الضمانات النصية أو تحليل المشاعر. لذلك ، نحن نتكيف مع Hugging Face run_glue.py نص التدريب. تأتي مجموعات بيانات GLUE مع مجموعة تدريب وتقييم محددة مسبقًا مع تسميات بالإضافة إلى مجموعة اختبار الانتظار بدون تسميات. لذلك ، قمنا بتقسيم مجموعة التدريب إلى مجموعات تدريب وتحقق (تقسيم 70٪ / 30٪) واستخدام مجموعة التقييم كمجموعة بيانات اختبار الانتظار. علاوة على ذلك ، أضفنا وظيفة رد اتصال أخرى إلى Hugging Face's Trainer API التي تُبلغ عن أداء التحقق بعد كل فترة إلى Syne Tune. انظر الكود التالي:

import transformers from syne_tune.report import Reporter class SyneTuneReporter(transformers.trainer_callback.TrainerCallback): def __init__(self): self.report = Reporter() def on_evaluate(self, args, state, control, **kwargs): results = kwargs['metrics'].copy() results['step'] = state.global_step results['epoch'] = int(state.epoch) self.report(**results)

نبدأ بتحسين معلمات التدريب النموذجية: معدل التعلم ، ونسبة الإحماء لزيادة معدل التعلم ، وحجم الدُفعة لضبط BERT مسبق التدريب (غلاف بيرت) النموذج ، وهو النموذج الافتراضي في مثال Hugging Face. انظر الكود التالي:

config_space = dict()
config_space['learning_rate'] = loguniform(1e-6, 1e-4)
config_space['per_device_train_batch_size'] = randint(16, 48)
config_space['warmup_ratio'] = uniform(0, 0.5)

كطريقة HPO الخاصة بنا ، نستخدم أ ش أ، الذي يأخذ عينات تكوينات المعلمات الفائقة بشكل موحد عشوائيًا ويوقف بشكل متكرر تقييم التكوينات ذات الأداء السيئ. على الرغم من أن الأساليب الأكثر تعقيدًا تستخدم نموذجًا احتماليًا للوظيفة الموضوعية ، مثل BO أو MoBster ، فإننا نستخدم ASHA لهذا المنشور لأنه يأتي بدون أي افتراضات على مساحة البحث.

في الشكل التالي ، نقارن التحسن النسبي في خطأ الاختبار على التكوين الافتراضي للمعامل التشعبي Hugging Faces.

من أجل البساطة ، نحصر المقارنة مع MRPC و COLA و STSB ، لكننا نلاحظ أيضًا تحسينات مماثلة أيضًا لمجموعات بيانات GLUE الأخرى. لكل مجموعة بيانات ، نقوم بتشغيل ASHA على ml.g4dn.xlarge واحد الأمازون SageMaker مثيل بميزانية وقت تشغيل تبلغ 1,800 ثانية ، وهو ما يتوافق مع ما يقرب من 13 و 7 و 9 تقييمات كاملة للوظائف على مجموعات البيانات هذه ، على التوالي. لحساب العشوائية الجوهرية لعملية التدريب ، على سبيل المثال الناتجة عن أخذ عينات دفعة صغيرة ، نقوم بتشغيل كل من ASHA والتكوين الافتراضي لخمسة تكرارات مع بذرة مستقلة لمولد الأرقام العشوائية والإبلاغ عن المتوسط والانحراف المعياري لـ تحسن نسبي عبر التكرار. يمكننا أن نرى أنه في جميع مجموعات البيانات ، يمكننا في الواقع تحسين الأداء التنبئي بنسبة 1-3٪ بالنسبة إلى أداء التكوين الافتراضي المحدد بعناية.

أتمتة اختيار النموذج المدرب مسبقًا

يمكننا استخدام HPO ليس فقط للعثور على المعلمات الفائقة ، ولكن أيضًا تحديد النموذج المناسب المدربين مسبقًا تلقائيًا. لماذا نريد أن نفعل هذا؟ نظرًا لعدم وجود نموذج واحد يتفوق في الأداء عبر جميع مجموعات البيانات ، يتعين علينا تحديد النموذج المناسب لمجموعة بيانات معينة. لإثبات ذلك ، نقوم بتقييم مجموعة من نماذج المحولات الشائعة من Hugging Face. لكل مجموعة بيانات ، نقوم بتصنيف كل نموذج من خلال أداء الاختبار الخاص به. يتغير الترتيب عبر مجموعات البيانات (انظر الشكل التالي) وليس نموذجًا واحدًا يسجل أعلى الدرجات في كل مجموعة بيانات. كمرجع ، نعرض أيضًا أداء الاختبار المطلق لكل نموذج ومجموعة بيانات في الشكل التالي.

لتحديد النموذج الصحيح تلقائيًا ، يمكننا اختيار النموذج كمعلمات فئوية وإضافتها إلى مساحة البحث الخاصة بالمعلمات الفائقة:

config_space['model_name_or_path'] = choice(['bert-base-cased', 'bert-base-uncased', 'distilbert-base-uncased', 'distilbert-base-cased', 'roberta-base', 'albert-base-v2', 'distilroberta-base', 'xlnet-base-cased', 'albert-base-v1'])

على الرغم من أن مساحة البحث الآن أكبر ، فإن هذا لا يعني بالضرورة أنه من الصعب تحسينها. يوضح الشكل التالي خطأ الاختبار لأفضل تكوين تمت ملاحظته (استنادًا إلى خطأ التحقق من الصحة) على مجموعة بيانات MRPC الخاصة بـ ASHA بمرور الوقت عندما نبحث في المساحة الأصلية (الخط الأزرق) (باستخدام نموذج BERT-base-cased مدرب مسبقًا ) أو في مساحة البحث المعززة الجديدة (الخط البرتقالي). بالنظر إلى نفس الميزانية ، فإن ASHA قادرة على العثور على تكوين أفضل أداء للمعلمة الفائقة في مساحة البحث الممتدة مقارنة بالمساحة الأصغر.

أتمتة تحديد نوع المثيل

في الممارسة العملية ، قد لا نهتم فقط بتحسين الأداء التنبئي. قد نهتم أيضًا بأهداف أخرى ، مثل وقت التدريب أو التكلفة (بالدولار) أو زمن الوصول أو مقاييس الإنصاف. نحتاج أيضًا إلى اتخاذ خيارات أخرى بخلاف المعلمات الفائقة للنموذج ، على سبيل المثال تحديد نوع المثيل.

على الرغم من أن نوع المثيل لا يؤثر على الأداء التنبئي ، إلا أنه يؤثر بشدة على التكلفة (بالدولار) ووقت تشغيل التدريب ووقت الاستجابة. يصبح هذا الأخير مهمًا بشكل خاص عند نشر النموذج. يمكننا صياغة HPO كمشكلة تحسين متعددة الأغراض ، حيث نهدف إلى تحسين أهداف متعددة في وقت واحد. ومع ذلك ، لا يوجد حل واحد يعمل على تحسين جميع المقاييس في نفس الوقت. بدلاً من ذلك ، نهدف إلى العثور على مجموعة من التكوينات التي تقايض هدفًا مقابل الآخر على النحو الأمثل. هذا يسمى مجموعة باريتو.

لتحليل هذا الإعداد بشكل أكبر ، نضيف اختيار نوع المثيل كمعلمة تشعبية فئوية إضافية إلى مساحة البحث الخاصة بنا:

config_space['st_instance_type'] = choice(['ml.g4dn.xlarge', 'ml.g4dn.2xlarge', 'ml.p2.xlarge', 'ml.g4dn.4xlarge', 'ml.g4dn.8xlarge', 'ml.p3.2xlarge'])

نستخدم مو آشا، والذي يكيّف ASHA مع السيناريو متعدد الأهداف باستخدام الفرز غير المسيطر عليه. في كل تكرار ، يحدد MO-ASHA أيضًا لكل تكوين نوع المثيل الذي نريد تقييمه بناءً عليه. لتشغيل HPO على مجموعة غير متجانسة من المثيلات ، يوفر Syne Tune الواجهة الخلفية لـ SageMaker. باستخدام هذه الواجهة الخلفية ، يتم تقييم كل تجربة كوظيفة تدريب مستقلة لـ SageMaker على نسختها الخاصة. يحدد عدد العمال عدد وظائف SageMaker التي نديرها بالتوازي في وقت معين. يعمل المُحسِّن نفسه ، MO-ASHA في حالتنا ، إما على الجهاز المحلي أو دفتر Sagemaker أو على وظيفة تدريب SageMaker منفصلة. انظر الكود التالي:

backend = SageMakerBackend( sm_estimator=HuggingFace( entry_point=str('run_glue.py'), source_dir=os.getcwd(), base_job_name='glue-moasha', # instance-type given here are override by Syne Tune with values sampled from `st_instance_type`. instance_type='ml.m5.large', instance_count=1, py_version="py38", pytorch_version='1.9', transformers_version='4.12', max_run=3600, role=get_execution_role(), ),
)

تُظهر الأشكال التالية خطأ وقت الاستجابة مقابل الاختبار على اليسار ووقت الاستجابة مقابل التكلفة على اليمين للتكوينات العشوائية التي تم أخذ عينات منها بواسطة MO-ASHA (نحد من محور الرؤية) في مجموعة بيانات MRPC بعد تشغيلها لمدة 10,800 ثانية على أربعة عمال. يشير اللون إلى نوع المثيل. يمثل الخط الأسود المتقطع مجموعة باريتو ، مما يعني مجموعة النقاط التي تهيمن على جميع النقاط الأخرى في هدف واحد على الأقل.

يمكننا ملاحظة المفاضلة بين وقت الاستجابة وخطأ الاختبار ، مما يعني أن أفضل تكوين مع أقل خطأ اختبار لا يحقق أدنى زمن انتقال. بناءً على تفضيلاتك ، يمكنك تحديد تكوين المعلمة الفائقة الذي يضحي بأداء الاختبار ولكنه يأتي مع زمن انتقال أصغر. نرى أيضًا المفاضلة بين زمن الوصول والتكلفة. باستخدام مثال ml.g4dn.xlarge الأصغر ، على سبيل المثال ، فإننا نزيد وقت الاستجابة بشكل هامشي فقط ، لكننا ندفع ربع تكلفة مثيل ml.g4dn.8xlarge.

وفي الختام

في هذا المنشور ، ناقشنا تحسين المعلمة الفائقة لضبط نماذج المحولات المدربة مسبقًا من Hugging Face استنادًا إلى Syne Tune. لقد رأينا أنه من خلال تحسين المعلمات الفائقة مثل معدل التعلم وحجم الدفعة ونسبة الإحماء ، يمكننا تحسين التكوين الافتراضي المختار بعناية. يمكننا أيضًا توسيع هذا عن طريق التحديد التلقائي للنموذج المدرَّب مسبقًا عبر تحسين المعلمة الفائقة.

بمساعدة الواجهة الخلفية لـ SageMaker من Syne Tune ، يمكننا التعامل مع نوع المثيل كمعلمة فائقة. على الرغم من أن نوع المثيل لا يؤثر على الأداء ، إلا أنه له تأثير كبير على زمن الوصول والتكلفة. لذلك ، من خلال تصوير HPO كمشكلة تحسين متعددة الأهداف ، يمكننا العثور على مجموعة من التكوينات التي تتعامل على النحو الأمثل مع هدف مقابل الآخر. إذا كنت ترغب في تجربة ذلك بنفسك ، تحقق من سبيل المثال دفتر.

حول المؤلف

آرون كلاين هو عالم تطبيقي في AWS.

ماتياس سيجر هو عالم تطبيقي رئيسي في AWS.

ديفيد ساليناس هو عالم تطبيقي كبير في AWS.

إميلي ويبر انضم إلى AWS بعد إطلاق SageMaker مباشرة ، وما زال يحاول إخبار العالم عنها منذ ذلك الحين! خارج بناء تجارب تعلم جديدة للعملاء ، تتمتع إميلي بالتأمل ودراسة البوذية التبتية.

سيدريك ارشامبو هو عالم تطبيقي رئيسي في AWS وزميل في المختبر الأوروبي للتعلم والأنظمة الذكية.

الطابع الزمني: 29 حزيران، 2022

الطابع الزمني: أغسطس 29، 2023

تحسين Hyperparameter لضبط نماذج المحولات المدربة مسبقًا من Hugging Face

أعاد نشره أفلاطون

تحسين Hyperparameter باستخدام Syne Tune

أتمتة اختيار النموذج المدرب مسبقًا

أتمتة تحديد نوع المثيل

وفي الختام

حول المؤلف

اكثر من التعلم الآلي من AWS

الجزء 4: كيف قامت NatWest Group بترحيل نماذج ML إلى بنيات Amazon SageMaker

أتمتة وتنفيذ التحكم في الإصدار للأسئلة الشائعة حول Amazon Kendra

تدعم قواعد المعرفة الخاصة بـ Amazon Bedrock الآن تصفية البيانات التعريفية لتحسين دقة الاسترجاع | خدمات الويب الأمازون

جديد – تتوفر الآن إمكانات الذكاء الاصطناعي المولدة بدون تعليمات برمجية في Amazon SageMaker Canvas | خدمات ويب أمازون

كيف يحقق Amazon Search استنتاج T5 بزمن انتقال منخفض وعالي الإنتاجية باستخدام NVIDIA Triton على AWS

عمليات MLOs للاستدلال المجمعي مع مراقبة النموذج وإعادة التدريب باستخدام Amazon SageMaker وHashiCorp Terraform وGitLab CI/CD | خدمات ويب أمازون

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي