چہرے کو گلے لگانے سے پہلے سے تربیت یافتہ ٹرانسفارمر ماڈلز کے لیے ہائیپر پیرامیٹر کی اصلاح

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

بڑے توجہ پر مبنی ٹرانسفارمر ماڈلز نے قدرتی زبان کی پروسیسنگ (NLP) پر بڑے پیمانے پر فوائد حاصل کیے ہیں۔ تاہم، شروع سے ان بڑے نیٹ ورکس کو تربیت دینے کے لیے بہت زیادہ ڈیٹا اور کمپیوٹ کی ضرورت ہوتی ہے۔ چھوٹے NLP ڈیٹاسیٹس کے لیے، ایک سادہ لیکن موثر حکمت عملی یہ ہے کہ پہلے سے تربیت یافتہ ٹرانسفارمر کا استعمال کیا جائے، جو عام طور پر بہت بڑے ڈیٹا سیٹس پر بغیر نگرانی کے انداز میں تربیت یافتہ ہوتا ہے، اور اسے دلچسپی کے ڈیٹاسیٹ پر ٹھیک بناتا ہے۔ گلے لگانے والا چہرہ ان پہلے سے تربیت یافتہ ٹرانسفارمرز کے ایک بڑے ماڈل چڑیا گھر کو برقرار رکھتا ہے اور انہیں نوسکھئیے صارفین کے لیے بھی آسانی سے قابل رسائی بناتا ہے۔

تاہم، ان ماڈلز کو ٹھیک کرنے کے لیے ابھی بھی ماہر علم کی ضرورت ہوتی ہے، کیونکہ وہ اپنے ہائپر پیرامیٹر، جیسے سیکھنے کی شرح یا بیچ سائز کے لیے کافی حساس ہوتے ہیں۔ اس پوسٹ میں، ہم دکھاتے ہیں کہ اوپن سورس فریم ورک کے ساتھ ان ہائپر پیرامیٹر کو کیسے بہتر بنایا جائے۔ سائین ٹیون تقسیم شدہ ہائپر پیرامیٹر آپٹیمائزیشن (HPO) کے لیے۔ Syne Tune ہمیں ایک بہتر ہائپر پیرامیٹر کنفیگریشن تلاش کرنے کی اجازت دیتا ہے جو مقبول پر ڈیفالٹ ہائپر پیرامیٹر کے مقابلے میں 1-4% کے درمیان نسبتاً بہتری حاصل کرتا ہے۔ گلو بینچ مارک ڈیٹاسیٹس۔ پہلے سے تربیت یافتہ ماڈل کے انتخاب کو بھی ایک ہائپر پیرامیٹر سمجھا جا سکتا ہے اور اس لیے خود بخود Syne Tune کے ذریعے منتخب کیا جا سکتا ہے۔ متن کی درجہ بندی کے مسئلے پر، یہ ڈیفالٹ ماڈل کے مقابلے میں تقریباً 5% کی درستگی میں اضافی اضافہ کا باعث بنتا ہے۔ تاہم، ہم مزید فیصلے خودکار کر سکتے ہیں جو صارف کو کرنے کی ضرورت ہے۔ ہم مثال کی قسم کو ایک ہائپر پیرامیٹر کے طور پر سامنے لا کر بھی اس کا مظاہرہ کرتے ہیں جسے ہم بعد میں ماڈل کو تعینات کرنے کے لیے استعمال کرتے ہیں۔ صحیح مثال کی قسم کو منتخب کرنے سے، ہم ایسی کنفیگریشنز تلاش کر سکتے ہیں جو بہترین طور پر لاگت اور تاخیر سے تجارت کرتی ہیں۔

Syne Tune کے تعارف کے لیے براہ کرم ملاحظہ کریں۔ Syne Tune کے ساتھ تقسیم شدہ ہائپر پیرامیٹر اور نیورل آرکیٹیکچر ٹیوننگ جابز چلائیں۔.

Syne Tune کے ساتھ Hyperparameter کی اصلاح

ہم استعمال کریں گے گلو بینچ مارک سویٹ، جس میں فطری زبان کی تفہیم کے کاموں کے لیے نو ڈیٹا سیٹس پر مشتمل ہوتا ہے، جیسے کہ متنی انٹیلمنٹ کی شناخت یا جذبات کا تجزیہ۔ اس کے لیے، ہم Hugging Face's کو اپناتے ہیں۔ run_glue.py تربیتی سکرپٹ. GLUE ڈیٹاسیٹس لیبل کے ساتھ پہلے سے طے شدہ تربیت اور تشخیص کے سیٹ کے ساتھ ساتھ لیبل کے بغیر ہولڈ آؤٹ ٹیسٹ سیٹ کے ساتھ آتے ہیں۔ لہذا، ہم ٹریننگ سیٹ کو تربیت اور توثیق کے سیٹ (70%/30% تقسیم) میں تقسیم کرتے ہیں اور تشخیصی سیٹ کو اپنے ہولڈ آؤٹ ٹیسٹ ڈیٹاسیٹ کے طور پر استعمال کرتے ہیں۔ مزید برآں، ہم Hugging Face's Trainer API میں ایک اور کال بیک فنکشن شامل کرتے ہیں جو ہر دور کے بعد Syne Tune پر واپسی کی توثیق کی کارکردگی کو رپورٹ کرتا ہے۔ درج ذیل کوڈ دیکھیں:

import transformers from syne_tune.report import Reporter class SyneTuneReporter(transformers.trainer_callback.TrainerCallback): def __init__(self): self.report = Reporter() def on_evaluate(self, args, state, control, **kwargs): results = kwargs['metrics'].copy() results['step'] = state.global_step results['epoch'] = int(state.epoch) self.report(**results)

ہم عام تربیت کے ہائپر پیرامیٹر کو بہتر بنانے کے ساتھ شروع کرتے ہیں: سیکھنے کی شرح، سیکھنے کی شرح کو بڑھانے کے لیے وارم اپ تناسب، اور پہلے سے تربیت یافتہ BERT کو ٹھیک کرنے کے لیے بیچ کا سائز (bert-base-cased) ماڈل، جو Hugging Face مثال میں پہلے سے طے شدہ ماڈل ہے۔ درج ذیل کوڈ دیکھیں:

config_space = dict()
config_space['learning_rate'] = loguniform(1e-6, 1e-4)
config_space['per_device_train_batch_size'] = randint(16, 48)
config_space['warmup_ratio'] = uniform(0, 0.5)

ہمارے HPO طریقہ کے طور پر، ہم استعمال کرتے ہیں۔ اشھاجو کہ ہائپر پیرامیٹر کنفیگریشنز کو یکساں طور پر بے ترتیب طور پر نمونے دیتا ہے اور بار بار خراب کارکردگی کا مظاہرہ کرنے والی کنفیگریشنز کی تشخیص کو روکتا ہے۔ اگرچہ زیادہ نفیس طریقے معروضی فنکشن کے امکانی ماڈل کو استعمال کرتے ہیں، جیسے کہ BO یا MoBster موجود ہے، ہم اس پوسٹ کے لیے ASHA کا استعمال کرتے ہیں کیونکہ یہ تلاش کی جگہ پر بغیر کسی قیاس کے آتا ہے۔

مندرجہ ذیل اعداد و شمار میں، ہم ہگنگ فیسس کی ڈیفالٹ ہائپر پیرامیٹر کنفیگریشن کے مقابلے ٹیسٹ کی خرابی میں نسبتا بہتری کا موازنہ کرتے ہیں۔

سادگی کے لیے، ہم MRPC، COLA، اور STSB کے مقابلے کو محدود کرتے ہیں، لیکن ہم دیگر GLUE ڈیٹاسیٹس کے لیے بھی اسی طرح کی بہتری کا مشاہدہ کرتے ہیں۔ ہر ڈیٹاسیٹ کے لیے، ہم ASHA کو ایک ml.g4dn.xlarge پر چلاتے ہیں۔ ایمیزون سیج میکر مثال کے طور پر 1,800 سیکنڈ کے رن ٹائم بجٹ کے ساتھ، جو کہ ان ڈیٹاسیٹس پر بالترتیب تقریباً 13، 7، اور 9 مکمل فنکشن کی تشخیص کے مساوی ہے۔ تربیتی عمل کی اندرونی بے ترتیب پن کا حساب کتاب کرنے کے لیے، مثال کے طور پر منی بیچ کے نمونے لینے کی وجہ سے، ہم بے ترتیب نمبر جنریٹر کے لیے ایک آزاد بیج کے ساتھ پانچ تکرار کے لیے ASHA اور ڈیفالٹ کنفیگریشن دونوں چلاتے ہیں اور اوسط اور معیاری انحراف کی اطلاع دیتے ہیں۔ تکرار میں نسبتا بہتری۔ ہم دیکھ سکتے ہیں کہ، تمام ڈیٹا سیٹس میں، ہم درحقیقت احتیاط سے منتخب ڈیفالٹ کنفیگریشن کی کارکردگی کے مقابلے میں پیشین گوئی کی کارکردگی کو 1-3% تک بہتر بنا سکتے ہیں۔

پہلے سے تربیت یافتہ ماڈل کا انتخاب خودکار کریں۔

ہم HPO کا استعمال نہ صرف ہائپر پیرامیٹر تلاش کرنے کے لیے کر سکتے ہیں بلکہ خود بخود صحیح پہلے سے تربیت یافتہ ماڈل کا انتخاب بھی کر سکتے ہیں۔ ہم ایسا کیوں کرنا چاہتے ہیں؟ چونکہ تمام ڈیٹاسیٹ میں کوئی ایک ماڈل بہتر کارکردگی کا مظاہرہ نہیں کرتا ہے، ہمیں ایک مخصوص ڈیٹاسیٹ کے لیے صحیح ماڈل کا انتخاب کرنا ہوگا۔ اس کو ظاہر کرنے کے لیے، ہم Hugging Face سے مقبول ٹرانسفارمر ماڈلز کی ایک رینج کا جائزہ لیتے ہیں۔ ہر ڈیٹاسیٹ کے لیے، ہم ہر ماڈل کو اس کی ٹیسٹ کارکردگی کے مطابق درجہ بندی کرتے ہیں۔ ڈیٹا سیٹس میں درجہ بندی (مندرجہ ذیل شکل دیکھیں) میں تبدیلیاں آتی ہیں اور ایک بھی ایسا ماڈل نہیں جو ہر ڈیٹا سیٹ پر سب سے زیادہ اسکور کرتا ہو۔ حوالہ کے طور پر ہم مندرجہ ذیل اعداد و شمار میں ہر ماڈل اور ڈیٹاسیٹ کی مطلق ٹیسٹ کارکردگی بھی دکھاتے ہیں۔

صحیح ماڈل کو خود بخود منتخب کرنے کے لیے، ہم ماڈل کے انتخاب کو بطور خاص پیرامیٹرز کاسٹ کر سکتے ہیں اور اسے اپنی ہائپر پیرامیٹر تلاش کی جگہ میں شامل کر سکتے ہیں:

config_space['model_name_or_path'] = choice(['bert-base-cased', 'bert-base-uncased', 'distilbert-base-uncased', 'distilbert-base-cased', 'roberta-base', 'albert-base-v2', 'distilroberta-base', 'xlnet-base-cased', 'albert-base-v1'])

اگرچہ تلاش کی جگہ اب بڑی ہے، لیکن اس کا لازمی مطلب یہ نہیں ہے کہ اسے بہتر بنانا مشکل ہے۔ مندرجہ ذیل اعداد و شمار وقت کے ساتھ ساتھ ASHA کے MRPC ڈیٹاسیٹ پر بہترین مشاہدہ شدہ کنفیگریشن (توثیق کی غلطی کی بنیاد پر) کی جانچ کی غلطی کو ظاہر کرتا ہے جب ہم اصل جگہ (بلیو لائن) میں تلاش کرتے ہیں (BERT-base-cased pre-trained ماڈل کے ساتھ) ) یا نئی بڑھی ہوئی تلاش کی جگہ (اورنج لائن) میں۔ اسی بجٹ کو دیکھتے ہوئے، ASHA چھوٹی جگہ کے مقابلے میں توسیع شدہ تلاش کی جگہ میں زیادہ بہتر کارکردگی کا مظاہرہ کرنے والا ہائپر پیرامیٹر کنفیگریشن تلاش کرنے کے قابل ہے۔

مثال کی قسم کا انتخاب خودکار کریں۔

عملی طور پر، ہم صرف پیش گوئی کی کارکردگی کو بہتر بنانے کی پرواہ نہیں کرسکتے ہیں۔ ہم دوسرے مقاصد کی بھی پرواہ کر سکتے ہیں، جیسے کہ تربیت کا وقت، (ڈالر) لاگت، تاخیر، یا فیئرنس میٹرکس۔ ہمیں ماڈل کے ہائپر پیرامیٹرز سے ہٹ کر دوسرے انتخاب کرنے کی بھی ضرورت ہے، مثال کے طور پر مثال کی قسم کو منتخب کرنا۔

اگرچہ مثال کی قسم پیشین گوئی کی کارکردگی کو متاثر نہیں کرتی ہے، لیکن یہ (ڈالر) لاگت، ٹریننگ رن ٹائم، اور تاخیر پر سخت اثر انداز ہوتی ہے۔ مؤخر الذکر خاص طور پر اہم ہو جاتا ہے جب ماڈل کو تعینات کیا جاتا ہے۔ ہم HPO کو ایک کثیر مقصدی اصلاحی مسئلہ کے طور پر بیان کر سکتے ہیں، جہاں ہمارا مقصد بیک وقت متعدد مقاصد کو بہتر بنانا ہے۔ تاہم، کوئی ایک حل ایک ہی وقت میں تمام میٹرکس کو بہتر نہیں کرتا ہے۔ اس کے بجائے، ہمارا مقصد کنفیگریشنز کا ایک سیٹ تلاش کرنا ہے جو ایک مقصد کے مقابلے میں دوسرے مقصد کو بہترین طریقے سے تجارت کرتی ہے۔ اسے کہا جاتا ہے۔ پاریٹو سیٹ.

اس ترتیب کا مزید تجزیہ کرنے کے لیے، ہم مثال کی قسم کے انتخاب کو اپنی تلاش کی جگہ میں اضافی درجہ بندی ہائپر پیرامیٹر کے طور پر شامل کرتے ہیں:

config_space['st_instance_type'] = choice(['ml.g4dn.xlarge', 'ml.g4dn.2xlarge', 'ml.p2.xlarge', 'ml.g4dn.4xlarge', 'ml.g4dn.8xlarge', 'ml.p3.2xlarge'])

ہم استعمال کرتے ہیں ایم او آشا، جو غیر غلبہ والی چھانٹی کا استعمال کرکے ASHA کو کثیر مقصدی منظر نامے کے مطابق ڈھالتا ہے۔ ہر تکرار میں، MO-ASHA ہر کنفیگریشن کے لیے بھی اس قسم کا انتخاب کرتا ہے جس پر ہم اس کا جائزہ لینا چاہتے ہیں۔ HPO کو مختلف مثالوں کے سیٹ پر چلانے کے لیے، Syne Tune SageMaker کا بیک اینڈ فراہم کرتا ہے۔ اس پسدید کے ساتھ، ہر آزمائش کا اندازہ اس کی اپنی مثال کے طور پر ایک آزاد SageMaker تربیتی کام کے طور پر کیا جاتا ہے۔ کارکنوں کی تعداد اس بات کی وضاحت کرتی ہے کہ ہم ایک مقررہ وقت میں SageMaker کی کتنی ملازمتیں متوازی طور پر چلاتے ہیں۔ خود اصلاح کرنے والا، ہمارے معاملے میں MO-ASHA، یا تو مقامی مشین، سیج میکر نوٹ بک یا علیحدہ سیج میکر ٹریننگ جاب پر چلتا ہے۔ درج ذیل کوڈ دیکھیں:

backend = SageMakerBackend( sm_estimator=HuggingFace( entry_point=str('run_glue.py'), source_dir=os.getcwd(), base_job_name='glue-moasha', # instance-type given here are override by Syne Tune with values sampled from `st_instance_type`. instance_type='ml.m5.large', instance_count=1, py_version="py38", pytorch_version='1.9', transformers_version='4.12', max_run=3600, role=get_execution_role(), ),
)

مندرجہ ذیل اعداد و شمار MRPC ڈیٹاسیٹ پر 10,800 سیکنڈ تک چار کارکنوں پر چلانے کے بعد MO-ASHA (ہم مرئیت کے لیے محور کو محدود کرتے ہیں) کے نمونے کے لیے بائیں جانب تاخیر بمقابلہ ٹیسٹ کی خرابی اور دائیں جانب تاخیر بمقابلہ لاگت دکھاتے ہیں۔ رنگ مثال کی قسم کی نشاندہی کرتا ہے۔ ڈیشڈ بلیک لائن Pareto سیٹ کی نمائندگی کرتی ہے، یعنی پوائنٹس کا سیٹ جو کم از کم ایک مقصد میں دوسرے تمام پوائنٹس پر حاوی ہوتا ہے۔

ہم تاخیر اور ٹیسٹ کی خرابی کے درمیان تجارت کا مشاہدہ کر سکتے ہیں، یعنی سب سے کم ٹیسٹ کی خرابی کے ساتھ بہترین ترتیب سب سے کم تاخیر کو حاصل نہیں کرتی ہے۔ آپ کی ترجیح کی بنیاد پر، آپ ایک ہائپر پیرامیٹر کنفیگریشن منتخب کر سکتے ہیں جو ٹیسٹ کی کارکردگی پر قربانی دیتی ہے لیکن تھوڑی دیر کے ساتھ آتی ہے۔ ہم تاخیر اور لاگت کے درمیان تجارت کو بھی دیکھتے ہیں۔ ایک چھوٹی ml.g4dn.xlarge مثال استعمال کرنے سے، مثال کے طور پر، ہم صرف لیٹنسی میں معمولی اضافہ کرتے ہیں، لیکن ml.g4dn.8xlarge مثال کی قیمت کا چوتھا حصہ ادا کرتے ہیں۔

نتیجہ

اس پوسٹ میں، ہم نے Syne Tune کی بنیاد پر Hugging Face سے پہلے سے تربیت یافتہ ٹرانسفارمر ماڈلز کو فائن ٹیوننگ کے لیے ہائپر پیرامیٹر آپٹیمائزیشن پر تبادلہ خیال کیا۔ ہم نے دیکھا کہ سیکھنے کی شرح، بیچ سائز، اور وارم اپ ریشو جیسے ہائپر پیرامیٹر کو بہتر بنا کر، ہم احتیاط سے منتخب کردہ ڈیفالٹ کنفیگریشن کو بہتر بنا سکتے ہیں۔ ہم ہائپر پیرامیٹر آپٹیمائزیشن کے ذریعے پہلے سے تربیت یافتہ ماڈل کو خود بخود منتخب کرکے بھی اس کو بڑھا سکتے ہیں۔

Syne Tune کے SageMaker بیک اینڈ کی مدد سے، ہم مثال کی قسم کو ایک ہائپر پیرامیٹر کے طور پر دیکھ سکتے ہیں۔ اگرچہ مثال کی قسم کارکردگی کو متاثر نہیں کرتی ہے، لیکن اس کا تاخیر اور لاگت پر اہم اثر پڑتا ہے۔ لہذا، HPO کو ایک کثیر مقصدی اصلاحی مسئلہ کے طور پر کاسٹ کرنے سے، ہم کنفیگریشنز کا ایک سیٹ تلاش کرنے کے قابل ہو جاتے ہیں جو ایک مقصد بمقابلہ دوسرے مقصد کو بہترین طریقے سے تجارت کرتی ہے۔ اگر آپ اسے خود آزمانا چاہتے ہیں تو ہمارا چیک کریں۔ مثال کے طور پر نوٹ بک.

مصنفین کے بارے میں

ایرون کلین AWS میں ایک اپلائیڈ سائنٹسٹ ہے۔

میتھیاس سیگر AWS میں پرنسپل اپلائیڈ سائنٹسٹ ہیں۔

ڈیوڈ سیلیناس AWS میں ایک Sr Applied Scientist ہے۔

ایملی ویبر SageMaker کے لانچ ہونے کے فوراً بعد AWS میں شامل ہوا، اور تب سے دنیا کو اس کے بارے میں بتانے کی کوشش کر رہا ہے! صارفین کے لیے ایم ایل کے نئے تجربات بنانے کے علاوہ، ایملی کو تبتی بدھ مت کا مراقبہ اور مطالعہ کرنا پسند ہے۔

سیڈرک آرچمبیو AWS میں پرنسپل اپلائیڈ سائنٹسٹ اور یورپی لیب فار لرننگ اینڈ انٹیلیجنٹ سسٹمز کے فیلو ہیں۔

ٹائم اسٹیمپ: جون 29، 2022

ٹائم اسٹیمپ: 19 فرمائے، 2022

ہیگنگ فیس سے پہلے سے تربیت یافتہ ٹرانسفارمر ماڈلز کو ٹھیک کرنے کے لیے ہائپر پیرامیٹر کی اصلاح

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

Syne Tune کے ساتھ Hyperparameter کی اصلاح

پہلے سے تربیت یافتہ ماڈل کا انتخاب خودکار کریں۔

مثال کی قسم کا انتخاب خودکار کریں۔

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

ایمیزون بیڈرک میں نالج بیسز اب ایک ہی دستاویز پر سوالات پوچھنا آسان بناتا ہے۔ ایمیزون ویب سروسز

ایمیزون کینڈر کا استعمال کرتے ہوئے ذہانت سے الفریسکو مواد تلاش کریں۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ