हगिंग फेस से पूर्व-प्रशिक्षित ट्रांसफार्मर मॉडल को फाइन-ट्यूनिंग के लिए हाइपरपैरामीटर ऑप्टिमाइज़ेशन

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

बड़े ध्यान-आधारित ट्रांसफॉर्मर मॉडल ने प्राकृतिक भाषा प्रसंस्करण (एनएलपी) पर भारी लाभ प्राप्त किया है। हालाँकि, इन विशाल नेटवर्क को खरोंच से प्रशिक्षित करने के लिए भारी मात्रा में डेटा और गणना की आवश्यकता होती है। छोटे एनएलपी डेटासेट के लिए, एक सरल लेकिन प्रभावी रणनीति एक पूर्व-प्रशिक्षित ट्रांसफॉर्मर का उपयोग करना है, जिसे आमतौर पर बहुत बड़े डेटासेट पर एक असुरक्षित तरीके से प्रशिक्षित किया जाता है, और इसे रुचि के डेटासेट पर फाइन-ट्यून किया जाता है। गले लगना इन पूर्व-प्रशिक्षित ट्रांसफार्मरों का एक बड़ा मॉडल चिड़ियाघर रखता है और नौसिखिए उपयोगकर्ताओं के लिए भी उन्हें आसानी से सुलभ बनाता है।

हालाँकि, इन मॉडलों को फ़ाइन-ट्यूनिंग के लिए अभी भी विशेषज्ञ ज्ञान की आवश्यकता होती है, क्योंकि वे अपने हाइपरपैरामीटर, जैसे सीखने की दर या बैच आकार के प्रति काफी संवेदनशील होते हैं। इस पोस्ट में, हम दिखाते हैं कि इन हाइपरपैरामीटर को ओपन-सोर्स फ्रेमवर्क के साथ कैसे अनुकूलित किया जाए सिन ट्यून वितरित हाइपरपैरामीटर ऑप्टिमाइज़ेशन (HPO) के लिए। सिन ट्यून हमें एक बेहतर हाइपरपैरामीटर कॉन्फ़िगरेशन खोजने की अनुमति देता है जो लोकप्रिय पर डिफ़ॉल्ट हाइपरपैरामीटर की तुलना में 1-4% के बीच एक सापेक्ष सुधार प्राप्त करता है GLUE बेंचमार्क डेटासेट। पूर्व-प्रशिक्षित मॉडल की पसंद को भी एक हाइपरपैरामीटर माना जा सकता है और इसलिए इसे सिने ट्यून द्वारा स्वचालित रूप से चुना जा सकता है। पाठ वर्गीकरण समस्या पर, यह डिफ़ॉल्ट मॉडल की तुलना में लगभग 5% की सटीकता में अतिरिक्त वृद्धि की ओर जाता है। हालांकि, हम एक उपयोगकर्ता द्वारा किए जाने वाले अधिक निर्णयों को स्वचालित कर सकते हैं; हम इसे हाइपरपैरामीटर के रूप में उदाहरण के प्रकार को भी उजागर करके प्रदर्शित करते हैं जिसका उपयोग हम बाद में मॉडल को परिनियोजित करने के लिए करते हैं। सही इंस्टेंस प्रकार का चयन करके, हम ऐसे कॉन्फ़िगरेशन ढूंढ सकते हैं जो लागत और विलंबता को बेहतर ढंग से व्यापार करते हैं।

सिन ट्यून के परिचय के लिए कृपया देखें Syne Tune के साथ वितरित हाइपरपैरामीटर और तंत्रिका वास्तुकला ट्यूनिंग कार्य चलाएँ.

Syne Tune के साथ हाइपरपैरामीटर अनुकूलन

हम उपयोग करेंगे GLUE बेंचमार्क सूट, जिसमें प्राकृतिक भाषा समझने के कार्यों के लिए नौ डेटासेट होते हैं, जैसे कि टेक्स्टुअल एंटेलमेंट रिकग्निशन या सेंटिमेंट एनालिसिस। उसके लिए, हम हगिंग फेस का अनुकूलन करते हैं run_ग्लू.py प्रशिक्षण स्क्रिप्ट। GLUE डेटासेट लेबल के साथ एक पूर्वनिर्धारित प्रशिक्षण और मूल्यांकन सेट के साथ-साथ बिना लेबल के होल्ड-आउट परीक्षण सेट के साथ आते हैं। इसलिए, हम प्रशिक्षण सेट को प्रशिक्षण और सत्यापन सेट (70%/30% विभाजन) में विभाजित करते हैं और मूल्यांकन सेट को हमारे होल्डआउट परीक्षण डेटासेट के रूप में उपयोग करते हैं। इसके अलावा, हम हगिंग फेस के ट्रेनर एपीआई में एक और कॉलबैक फ़ंक्शन जोड़ते हैं जो प्रत्येक युग के बाद सिन ट्यून पर सत्यापन प्रदर्शन की रिपोर्ट करता है। निम्नलिखित कोड देखें:

import transformers from syne_tune.report import Reporter class SyneTuneReporter(transformers.trainer_callback.TrainerCallback): def __init__(self): self.report = Reporter() def on_evaluate(self, args, state, control, **kwargs): results = kwargs['metrics'].copy() results['step'] = state.global_step results['epoch'] = int(state.epoch) self.report(**results)

हम विशिष्ट प्रशिक्षण हाइपरपैरामीटर के अनुकूलन के साथ शुरू करते हैं: सीखने की दर, सीखने की दर को बढ़ाने के लिए वार्मअप अनुपात, और एक पूर्व-प्रशिक्षित BERT को ठीक करने के लिए बैच का आकार (बर्ट-बेस-केसेड) मॉडल, जो हगिंग फेस उदाहरण में डिफ़ॉल्ट मॉडल है। निम्नलिखित कोड देखें:

config_space = dict()
config_space['learning_rate'] = loguniform(1e-6, 1e-4)
config_space['per_device_train_batch_size'] = randint(16, 48)
config_space['warmup_ratio'] = uniform(0, 0.5)

हमारी एचपीओ विधि के रूप में, हम उपयोग करते हैं आशा, जो यादृच्छिक रूप से समान रूप से हाइपरपैरामीटर कॉन्फ़िगरेशन का नमूना लेता है और खराब प्रदर्शन करने वाले कॉन्फ़िगरेशन के मूल्यांकन को पुनरावृत्त रूप से रोकता है। यद्यपि अधिक परिष्कृत तरीके उद्देश्य फ़ंक्शन के एक संभाव्य मॉडल का उपयोग करते हैं, जैसे कि BO या MoBster मौजूद है, हम इस पोस्ट के लिए आशा का उपयोग करते हैं क्योंकि यह खोज स्थान पर बिना किसी धारणा के आता है।

निम्नलिखित आंकड़े में, हम हगिंग फेस के डिफ़ॉल्ट हाइपरपैरामीटर कॉन्फ़िगरेशन पर परीक्षण त्रुटि में सापेक्ष सुधार की तुलना करते हैं।

सरलता के लिए, हम तुलना को MRPC, COLA, और STSB तक सीमित करते हैं, लेकिन हम अन्य GLUE डेटासेट के लिए भी इसी तरह के सुधारों को देखते हैं। प्रत्येक डेटासेट के लिए, हम आशा को एक ml.g4dn.xlarge . पर चलाते हैं अमेज़न SageMaker उदाहरण के लिए 1,800 सेकंड के रनटाइम बजट के साथ, जो क्रमशः इन डेटासेट पर लगभग 13, 7, और 9 पूर्ण फ़ंक्शन मूल्यांकन के अनुरूप है। प्रशिक्षण प्रक्रिया की आंतरिक यादृच्छिकता के लिए खाते में, उदाहरण के लिए मिनी-बैच नमूनाकरण के कारण, हम यादृच्छिक संख्या जनरेटर के लिए एक स्वतंत्र बीज के साथ पांच पुनरावृत्तियों के लिए आशा और डिफ़ॉल्ट कॉन्फ़िगरेशन दोनों चलाते हैं और औसत और मानक विचलन की रिपोर्ट करते हैं दोहराव में सापेक्ष सुधार। हम देख सकते हैं कि, सभी डेटासेट में, हम वास्तव में सावधानीपूर्वक चयनित डिफ़ॉल्ट कॉन्फ़िगरेशन के प्रदर्शन के सापेक्ष पूर्वानुमानित प्रदर्शन में 1-3% तक सुधार कर सकते हैं।

पूर्व-प्रशिक्षित मॉडल का चयन स्वचालित करें

हम एचपीओ का उपयोग न केवल हाइपरपैरामीटर खोजने के लिए कर सकते हैं, बल्कि स्वचालित रूप से सही पूर्व-प्रशिक्षित मॉडल का चयन भी कर सकते हैं। हम ऐसा क्यों करना चाहते हैं? चूंकि सभी डेटासेट में कोई भी मॉडल बेहतर प्रदर्शन नहीं करता है, इसलिए हमें किसी विशिष्ट डेटासेट के लिए सही मॉडल का चयन करना होगा। इसे प्रदर्शित करने के लिए, हम हगिंग फेस से लोकप्रिय ट्रांसफॉर्मर मॉडल की एक श्रृंखला का मूल्यांकन करते हैं। प्रत्येक डेटासेट के लिए, हम प्रत्येक मॉडल को उसके परीक्षण प्रदर्शन के आधार पर रैंक करते हैं। डेटासेट में रैंकिंग (निम्न चित्र देखें) बदलती है और एक एकल मॉडल नहीं है जो प्रत्येक डेटासेट पर उच्चतम स्कोर करता है। संदर्भ के रूप में हम निम्नलिखित आंकड़े में प्रत्येक मॉडल और डेटासेट का पूर्ण परीक्षण प्रदर्शन भी दिखाते हैं।

स्वचालित रूप से सही मॉडल का चयन करने के लिए, हम मॉडल की पसंद को श्रेणीबद्ध मापदंडों के रूप में डाल सकते हैं और इसे अपने हाइपरपैरामीटर खोज स्थान में जोड़ सकते हैं:

config_space['model_name_or_path'] = choice(['bert-base-cased', 'bert-base-uncased', 'distilbert-base-uncased', 'distilbert-base-cased', 'roberta-base', 'albert-base-v2', 'distilroberta-base', 'xlnet-base-cased', 'albert-base-v1'])

हालांकि खोज स्थान अब बड़ा हो गया है, लेकिन इसका मतलब यह नहीं है कि इसे अनुकूलित करना कठिन है। जब हम मूल स्थान (नीली रेखा) में खोज करते हैं (बीईआरटी-आधार-आवरण पूर्व-प्रशिक्षित मॉडल के साथ) समय के साथ आशा के एमआरपीसी डेटासेट पर सर्वोत्तम अवलोकन किए गए कॉन्फ़िगरेशन (सत्यापन त्रुटि के आधार पर) की परीक्षण त्रुटि को निम्न आंकड़ा दिखाता है ) या नए संवर्धित खोज स्थान (नारंगी रेखा) में। उसी बजट को देखते हुए, आशा छोटी जगह की तुलना में विस्तारित खोज स्थान में बेहतर प्रदर्शन करने वाले हाइपरपैरामीटर कॉन्फ़िगरेशन को खोजने में सक्षम है।

इंस्टेंस प्रकार का चयन स्वचालित करें

व्यवहार में, हम केवल भविष्य कहनेवाला प्रदर्शन को अनुकूलित करने की परवाह नहीं कर सकते। हम अन्य उद्देश्यों की भी परवाह कर सकते हैं, जैसे प्रशिक्षण समय, (डॉलर) लागत, विलंबता, या निष्पक्षता मीट्रिक। हमें मॉडल के हाइपरपैरामीटर के अलावा अन्य विकल्प भी बनाने होंगे, उदाहरण के लिए इंस्टेंस प्रकार का चयन करना।

हालांकि इंस्टेंस प्रकार भविष्य कहनेवाला प्रदर्शन को प्रभावित नहीं करता है, यह (डॉलर) लागत, प्रशिक्षण रनटाइम और विलंबता को दृढ़ता से प्रभावित करता है। जब मॉडल तैनात किया जाता है तो उत्तरार्द्ध विशेष रूप से महत्वपूर्ण हो जाता है। हम एचपीओ को एक बहुउद्देश्यीय अनुकूलन समस्या के रूप में परिभाषित कर सकते हैं, जहां हम एक साथ कई उद्देश्यों को अनुकूलित करने का लक्ष्य रखते हैं। हालांकि, कोई भी एकल समाधान एक ही समय में सभी मीट्रिक का अनुकूलन नहीं करता है। इसके बजाय, हमारा लक्ष्य ऐसे विन्यासों का एक सेट खोजना है जो एक उद्देश्य बनाम दूसरे उद्देश्य को बेहतर ढंग से व्यापार करते हैं। इसे कहा जाता है परेतो सेट.

इस सेटिंग का और अधिक विश्लेषण करने के लिए, हम अपने खोज स्थान में एक अतिरिक्त श्रेणीबद्ध हाइपरपैरामीटर के रूप में इंस्टेंस प्रकार की पसंद को जोड़ते हैं:

config_space['st_instance_type'] = choice(['ml.g4dn.xlarge', 'ml.g4dn.2xlarge', 'ml.p2.xlarge', 'ml.g4dn.4xlarge', 'ml.g4dn.8xlarge', 'ml.p3.2xlarge'])

हम का उपयोग करें मो-आशा, जो गैर-प्रधान छँटाई का उपयोग करके आशा को बहु-उद्देश्यीय परिदृश्य के अनुकूल बनाता है। प्रत्येक पुनरावृत्ति में, MO-ASHA प्रत्येक कॉन्फ़िगरेशन के लिए भी चयन करता है, जिस प्रकार का उदाहरण हम इसका मूल्यांकन करना चाहते हैं। एचपीओ को उदाहरणों के विषम सेट पर चलाने के लिए, सिन ट्यून सेजमेकर बैकएंड प्रदान करता है। इस बैकएंड के साथ, प्रत्येक परीक्षण का मूल्यांकन अपने स्वयं के उदाहरण पर एक स्वतंत्र सेजमेकर प्रशिक्षण कार्य के रूप में किया जाता है। श्रमिकों की संख्या परिभाषित करती है कि हम एक निश्चित समय में कितनी सेजमेकर नौकरियां समानांतर में चलाते हैं। हमारे मामले में ऑप्टिमाइज़र, MO-ASHA, या तो स्थानीय मशीन पर चलता है, एक सेजमेकर नोटबुक या एक अलग सेजमेकर प्रशिक्षण कार्य पर। निम्नलिखित कोड देखें:

backend = SageMakerBackend( sm_estimator=HuggingFace( entry_point=str('run_glue.py'), source_dir=os.getcwd(), base_job_name='glue-moasha', # instance-type given here are override by Syne Tune with values sampled from `st_instance_type`. instance_type='ml.m5.large', instance_count=1, py_version="py38", pytorch_version='1.9', transformers_version='4.12', max_run=3600, role=get_execution_role(), ),
)

निम्नलिखित आंकड़े चार श्रमिकों पर 10,800 सेकंड के लिए चलाने के बाद एमआरपीसी डेटासेट पर एमओ-आशा (हम दृश्यता के लिए अक्ष को सीमित करते हैं) द्वारा नमूना किए गए यादृच्छिक विन्यास के लिए बाईं ओर विलंबता बनाम परीक्षण त्रुटि और विलंबता बनाम लागत दिखाते हैं। रंग उदाहरण प्रकार को इंगित करता है। धराशायी काली रेखा पारेतो सेट का प्रतिनिधित्व करती है, जिसका अर्थ है कि कम से कम एक उद्देश्य में अन्य सभी बिंदुओं पर हावी होने वाले बिंदुओं का समूह।

हम विलंबता और परीक्षण त्रुटि के बीच एक ट्रेड-ऑफ देख सकते हैं, जिसका अर्थ है कि सबसे कम परीक्षण त्रुटि के साथ सबसे अच्छा कॉन्फ़िगरेशन न्यूनतम विलंबता प्राप्त नहीं करता है। अपनी पसंद के आधार पर, आप एक हाइपरपैरामीटर कॉन्फ़िगरेशन का चयन कर सकते हैं जो परीक्षण प्रदर्शन पर बलिदान देता है लेकिन एक छोटी विलंबता के साथ आता है। हम विलंबता और लागत के बीच व्यापार बंद भी देखते हैं। उदाहरण के लिए, एक छोटे ml.g4dn.xlarge इंस्टेंस का उपयोग करके, हम केवल विलंबता को मामूली रूप से बढ़ाते हैं, लेकिन ml.g4dn.8xबड़े इंस्टेंस की लागत का एक चौथाई भुगतान करते हैं।

निष्कर्ष

इस पोस्ट में, हमने सिने ट्यून पर आधारित हगिंग फेस से पूर्व-प्रशिक्षित ट्रांसफॉर्मर मॉडल को फाइन-ट्यूनिंग के लिए हाइपरपैरामीटर ऑप्टिमाइज़ेशन पर चर्चा की। हमने देखा कि सीखने की दर, बैच आकार और वार्म-अप अनुपात जैसे हाइपरपैरामीटर को अनुकूलित करके, हम सावधानीपूर्वक चुने गए डिफ़ॉल्ट कॉन्फ़िगरेशन में सुधार कर सकते हैं। हम हाइपरपैरामीटर ऑप्टिमाइज़ेशन के माध्यम से पूर्व-प्रशिक्षित मॉडल को स्वचालित रूप से चुनकर भी इसे बढ़ा सकते हैं।

सिने ट्यून के सेजमेकर बैकएंड की मदद से, हम इंस्टेंस प्रकार को हाइपरपैरामीटर के रूप में मान सकते हैं। हालांकि इंस्टेंस प्रकार प्रदर्शन को प्रभावित नहीं करता है, लेकिन विलंबता और लागत पर इसका महत्वपूर्ण प्रभाव पड़ता है। इसलिए, एचपीओ को एक बहु-उद्देश्य अनुकूलन समस्या के रूप में कास्टिंग करके, हम कॉन्फ़िगरेशन का एक सेट ढूंढने में सक्षम हैं जो एक उद्देश्य बनाम दूसरे को बेहतर तरीके से व्यापार करता है। यदि आप इसे स्वयं आज़माना चाहते हैं, तो हमारी जाँच करें उदाहरण नोटबुक.

लेखक के बारे में

आरोन क्लेन एडब्ल्यूएस में एप्लाइड साइंटिस्ट हैं।

मथायस सीगर एडब्ल्यूएस में प्रिंसिपल एप्लाइड साइंटिस्ट हैं।

डेविड सेलिनास एडब्ल्यूएस में सीनियर एप्लाइड साइंटिस्ट हैं।

एमिली वेबर सेजमेकर के लॉन्च होने के ठीक बाद एडब्ल्यूएस में शामिल हुआ, और तब से दुनिया को इसके बारे में बताने की कोशिश कर रहा है! ग्राहकों के लिए नए एमएल अनुभवों के निर्माण के अलावा, एमिली को तिब्बती बौद्ध धर्म का ध्यान और अध्ययन करना पसंद है।

सेड्रिक आर्कमब्यू एडब्ल्यूएस में प्रिंसिपल एप्लाइड साइंटिस्ट और लर्निंग एंड इंटेलिजेंट सिस्टम के लिए यूरोपीय लैब के फेलो हैं।

समय टिकट: 29 जून 2022

से अधिक AWS मशीन लर्निंग

अमेज़ॅन सैजमेकर स्वचालित मॉडल ट्यूनिंग के साथ बेस्ट एग ने तीन गुना तेज एमएल मॉडल प्रशिक्षण प्राप्त किया

स्रोत क्लस्टर:

AWS मशीन लर्निंग

स्रोत नोड: 1922073

समय टिकट: जनवरी 26, 2023

जेनरेटिव एआई और अमेज़ॅन सेजमेकर कैनवस | का उपयोग करके नो-कोड डेटा तैयारी के साथ सुरक्षा निष्कर्षों का तेजी से विश्लेषण करें अमेज़न वेब सेवाएँ

AWS मशीन लर्निंग

स्रोत नोड: 2534596

समय टिकट: अप्रैल 3, 2024

हगिंग फेस से पूर्व-प्रशिक्षित ट्रांसफॉर्मर मॉडल को फाइन-ट्यूनिंग के लिए हाइपरपैरामीटर ऑप्टिमाइज़ेशन

प्लेटो द्वारा पुनर्प्रकाशित

Syne Tune के साथ हाइपरपैरामीटर अनुकूलन

पूर्व-प्रशिक्षित मॉडल का चयन स्वचालित करें

इंस्टेंस प्रकार का चयन स्वचालित करें

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

बड़े मॉडल अनुमान कंटेनरों का उपयोग करके AWS Inferentia2 पर बड़े भाषा मॉडल तैनात करें

अमेज़ॅन सेजमेकर जम्पस्टार्ट के साथ वृद्धिशील प्रशिक्षण

Amazon SageMaker कैनवास के साथ नो-कोड मशीन लर्निंग के लिए 40 से अधिक डेटा स्रोतों से डेटा आयात करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा