אופטימיזציית היפרפרמטר לכוונון עדין של דגמי רובוטריקים מאומנים מראש מפנים מחבקות

הועלה מחדש על ידי אפלטון

עוקב: 0

מודלים גדולים של שנאים מבוססי תשומת לב השיגו רווחים מסיביים בעיבוד שפה טבעית (NLP). עם זאת, אימון רשתות ענק אלו מאפס דורש כמות אדירה של נתונים ומחשוב. עבור מערכי נתונים קטנים יותר של NLP, אסטרטגיה פשוטה אך יעילה היא להשתמש בשנאי מאומן מראש, בדרך כלל מאומן בצורה לא מפוקחת על מערכי נתונים גדולים מאוד, ולכוונן אותו במערך הנתונים המעניין. פנים מחבקות מחזיקה בגן חיות מדגם גדול של השנאים שעברו הכשרה מראש והופכת אותם לנגישים בקלות גם למשתמשים מתחילים.

עם זאת, כוונון עדין של מודלים אלה עדיין דורש ידע מומחה, מכיוון שהם די רגישים לפרמטרים ההיפר-פרמטרים שלהם, כגון קצב למידה או גודל אצווה. בפוסט זה, אנו מראים כיצד לבצע אופטימיזציה של ההיפרפרמטרים הללו עם מסגרת הקוד הפתוח Syne Tune עבור אופטימיזציה של היפרפרמטרים מבוזרת (HPO). Syne Tune מאפשר לנו למצוא תצורת היפרפרמטר טובה יותר המשיגה שיפור יחסי בין 1-4% בהשוואה לפרמטרי היפרפרמטרים המוגדרים כברירת מחדל בפופולרי דבק מערכי נתונים של benchmark. גם הבחירה בדגם שהוכשר מראש עצמו יכולה להיחשב כהיפרפרמטר ולכן תיבחר אוטומטית על ידי Syne Tune. בבעיית סיווג טקסט, זה מוביל לעלייה נוספת ברמת הדיוק של כ-5% בהשוואה למודל ברירת המחדל. עם זאת, אנו יכולים להפוך יותר החלטות שמשתמש צריך לקבל; אנו מדגימים זאת גם על ידי חשיפת סוג המופע כהיפרפרמטר שבו אנו משתמשים מאוחר יותר לפריסת המודל. על ידי בחירת סוג המופע המתאים, נוכל למצוא תצורות המחליפות את העלות והשהייה בצורה אופטימלית.

למבוא ל-Syne Tune עיין ב הפעל עבודות כוונון של היפרפרמטרים וארכיטקטורה עצבית עם Syne Tune.

אופטימיזציה של היפרפרמטרים עם Syne Tune

אנו נשתמש דבק חבילת benchmark, המורכבת מתשעה מערכי נתונים עבור משימות הבנת שפה טבעית, כגון זיהוי טקסטואלי או ניתוח סנטימנטים. לשם כך, אנו מתאימים את Hugging Face's run_glue.py תסריט אימון. מערכי נתונים של GLUE מגיעים עם ערכת הכשרה והערכה מוגדרת מראש עם תוויות וכן ערכת בדיקות חזקה ללא תוויות. לכן, אנו מחלקים את מערך ההדרכה למערכי הדרכה ואימות (70%/30% פיצול) ומשתמשים בערכת ההערכה כמערך הנתונים של מבחן ההחזקה שלנו. יתרה מזאת, אנו מוסיפים עוד פונקציית התקשרות חוזרת ל-Trainer API של Hugging Face המדווחת על ביצועי האימות לאחר כל תקופה חזרה ל-Syne Tune. ראה את הקוד הבא:

import transformers from syne_tune.report import Reporter class SyneTuneReporter(transformers.trainer_callback.TrainerCallback): def __init__(self): self.report = Reporter() def on_evaluate(self, args, state, control, **kwargs): results = kwargs['metrics'].copy() results['step'] = state.global_step results['epoch'] = int(state.epoch) self.report(**results)

אנו מתחילים באופטימיזציה של היפרפרמטרים טיפוסיים לאימון: קצב הלמידה, יחס החימום להגדלת קצב הלמידה וגודל האצווה לכוונון עדין של BERT מאומן מראש (bert-base-case) model, שהוא דגם ברירת המחדל בדוגמה של Hugging Face. ראה את הקוד הבא:

config_space = dict()
config_space['learning_rate'] = loguniform(1e-6, 1e-4)
config_space['per_device_train_batch_size'] = randint(16, 48)
config_space['warmup_ratio'] = uniform(0, 0.5)

כשיטת HPO שלנו, אנו משתמשים ASHA, אשר דוגמת תצורות היפרפרמטרים באופן אחיד באקראי ומפסיקה באופן איטרטיבי את ההערכה של תצורות בעלות ביצועים גרועים. למרות ששיטות מתוחכמות יותר משתמשות במודל הסתברותי של הפונקציה האובייקטיבית, כגון BO או MoBster קיים, אנו משתמשים ב-ASHA עבור פוסט זה מכיוון שהוא מגיע ללא הנחות על מרחב החיפוש.

באיור הבא, אנו משווים את השיפור היחסי בשגיאת הבדיקה לעומת תצורת ההיפרפרמטרים המוגדרים כברירת מחדל של Hugging Faces.

למען הפשטות, אנו מגבילים את ההשוואה ל-MRPC, COLA ו-STSB, אך אנו רואים גם שיפורים דומים גם עבור מערכי נתונים אחרים של GLUE. עבור כל מערך נתונים, אנו מפעילים את ASHA על ml.g4dn.xlarge יחיד אמזון SageMaker מופע עם תקציב זמן ריצה של 1,800 שניות, המתאים לכ-13, 7 ו-9 הערכות פונקציות מלאות במערך הנתונים הללו, בהתאמה. כדי לתת את הדעת על האקראיות הפנימית של תהליך האימון, למשל הנגרמת על ידי דגימת המיני-אצווה, אנו מפעילים גם את ASHA וגם את תצורת ברירת המחדל עבור חמש חזרות עם סיד עצמאי עבור מחולל המספרים האקראיים ומדווחים על סטיית התקן הממוצעת והתקן של שיפור יחסי על פני החזרות. אנו יכולים לראות שבכל מערכי הנתונים, אנו יכולים למעשה לשפר את הביצועים החזויים ב-1-3% ביחס לביצועים של תצורת ברירת המחדל שנבחרה בקפידה.

אוטומציה של בחירת הדגם שהוכשר מראש

אנו יכולים להשתמש ב-HPO כדי לא רק למצוא היפרפרמטרים, אלא גם לבחור אוטומטית את הדגם המאומן מראש הנכון. למה אנחנו רוצים לעשות את זה? מכיוון שאף מודל אחד לא מתעלה על כל מערכי הנתונים, עלינו לבחור את המודל המתאים עבור מערך נתונים ספציפי. כדי להדגים זאת, אנו מעריכים מגוון דגמי שנאים פופולריים מבית Hugging Face. עבור כל מערך נתונים, אנו מדרגים כל מודל לפי ביצועי הבדיקה שלו. הדירוג על פני מערכי נתונים (ראה את האיור הבא) משתנה ולא מודל אחד שמקבל את הציון הגבוה ביותר בכל מערך נתונים. כהתייחסות אנו מציגים גם את ביצועי הבדיקה המוחלטים של כל מודל ומערך נתונים באיור הבא.

כדי לבחור אוטומטית את הדגם הנכון, נוכל להטיל את בחירת המודל כפרמטרים קטגוריים ולהוסיף את זה למרחב החיפוש ההיפרפרמטר שלנו:

config_space['model_name_or_path'] = choice(['bert-base-cased', 'bert-base-uncased', 'distilbert-base-uncased', 'distilbert-base-cased', 'roberta-base', 'albert-base-v2', 'distilroberta-base', 'xlnet-base-cased', 'albert-base-v1'])

למרות שמרחב החיפוש כעת גדול יותר, זה לא אומר בהכרח שקשה יותר לבצע אופטימיזציה. האיור הבא מציג את שגיאת הבדיקה של התצורה הנצפית הטובה ביותר (בהתבסס על שגיאת האימות) במערך הנתונים של MRPC של ASHA לאורך זמן כאשר אנו מחפשים במרחב המקורי (קו כחול) (עם מודל מאומן מראש מבוסס BERT ) או במרחב החיפוש המוגדל החדש (קו כתום). בהינתן אותו תקציב, ASHA מסוגלת למצוא תצורת היפרפרמטרים בעלת ביצועים טובים בהרבה במרחב החיפוש המורחב מאשר במרחב הקטן יותר.

הפוך את בחירת סוג המופע לאוטומטי

בפועל, אולי לא אכפת לנו רק מאופטימיזציה של ביצועים חזויים. אולי אכפת לנו גם ממטרות אחרות, כגון זמן אימון, עלות (דולר), זמן אחזור או מדדי הגינות. אנחנו צריכים גם לעשות בחירות אחרות מעבר לפרמטרים ההיפר של המודל, למשל בחירת סוג המופע.

למרות שסוג המופע אינו משפיע על ביצועים חזויים, הוא משפיע מאוד על העלות (הדולר), זמן הריצה של האימון והשהייה. האחרון הופך חשוב במיוחד כאשר המודל נפרס. אנו יכולים לנסח את HPO כבעיית אופטימיזציה רב-אובייקטיבית, שבה אנו שואפים לייעל מספר יעדים בו-זמנית. עם זאת, אין פתרון אחד שמייעל את כל המדדים בו-זמנית. במקום זאת, אנו שואפים למצוא קבוצה של תצורות המחליפות באופן אופטימלי יעד אחד לעומת השני. זה נקרא ה סט פארטו.

כדי לנתח עוד הגדרה זו, אנו מוסיפים את הבחירה בסוג המופע כהיפרפרמטר קטגורי נוסף למרחב החיפוש שלנו:

config_space['st_instance_type'] = choice(['ml.g4dn.xlarge', 'ml.g4dn.2xlarge', 'ml.p2.xlarge', 'ml.g4dn.4xlarge', 'ml.g4dn.8xlarge', 'ml.p3.2xlarge'])

אנו משתמשים MO-ASHA, אשר מתאים את ASHA לתרחיש הרב-אובייקטיבי על ידי שימוש במיון שאינו נשלט. בכל איטרציה, MO-ASHA גם בוחר עבור כל תצורה גם את סוג המופע שאנו רוצים להעריך אותו. כדי להפעיל HPO על קבוצה הטרוגנית של מופעים, Syne Tune מספקת את ה-SageMaker backend. עם הקצה העורפי הזה, כל ניסוי מוערך כעבודת הכשרה עצמאית של SageMaker במופע משלו. מספר העובדים מגדיר כמה משרות SageMaker אנו מפעילים במקביל בזמן נתון. האופטימיזר עצמו, MO-ASHA במקרה שלנו, פועל על המכונה המקומית, מחברת Sagemaker או על עבודת אימון נפרדת של SageMaker. ראה את הקוד הבא:

backend = SageMakerBackend( sm_estimator=HuggingFace( entry_point=str('run_glue.py'), source_dir=os.getcwd(), base_job_name='glue-moasha', # instance-type given here are override by Syne Tune with values sampled from `st_instance_type`. instance_type='ml.m5.large', instance_count=1, py_version="py38", pytorch_version='1.9', transformers_version='4.12', max_run=3600, role=get_execution_role(), ),
)

האיורים הבאים מציגים את שגיאת ההשהיה לעומת שגיאת הבדיקה בצד שמאל ואת ההשהיה לעומת העלות בצד ימין עבור תצורות אקראיות שנדגמו על ידי MO-ASHA (אנו מגבילים את הציר לניראות) במערך הנתונים של MRPC לאחר הפעלתו במשך 10,800 שניות על ארבעה עובדים. צבע מציין את סוג המופע. הקו השחור המקווקו מייצג את קבוצת פארטו, כלומר קבוצת הנקודות השולטת בכל הנקודות האחרות לפחות ביעד אחד.

אנו יכולים לראות פשרה בין זמן חביון לשגיאת בדיקה, כלומר התצורה הטובה ביותר עם שגיאת הבדיקה הנמוכה ביותר אינה משיגה את השהייה הנמוכה ביותר. בהתבסס על ההעדפה שלך, אתה יכול לבחור תצורת היפרפרמטר שמקריבה את ביצועי הבדיקה אך מגיעה עם זמן השהייה קטן יותר. אנו רואים גם את ההחלפה בין חביון לעלות. על ידי שימוש במופע קטן יותר של ml.g4dn.xlarge, למשל, אנו מגדילים רק מעט את זמן ההשהיה, אך משלמים רבע מהעלות של מופע ml.g4dn.8xlarge.

סיכום

בפוסט זה, דנו באופטימיזציה של היפרפרמטרים לכוונון עדין של דגמי שנאים מאומנים מראש מבית Hugging Face על בסיס Syne Tune. ראינו שעל ידי אופטימיזציה של הפרמטרים כמו קצב למידה, גודל אצווה ויחס החימום, נוכל לשפר את תצורת ברירת המחדל שנבחרה בקפידה. אנו יכולים גם להרחיב זאת על ידי בחירה אוטומטית של המודל המאומן מראש באמצעות אופטימיזציה של היפרפרמטרים.

בעזרת ה-SageMaker האחורי של Syne Tune, נוכל להתייחס לסוג המופע כאל היפרפרמטר. למרות שסוג המופע אינו משפיע על הביצועים, יש לו השפעה משמעותית על ההשהיה והעלות. לכן, על ידי יציקת HPO כבעיית אופטימיזציה רב-אובייקטיבית, אנו מסוגלים למצוא קבוצה של תצורות המחליפות באופן אופטימלי יעד אחד לעומת השני. אם אתה רוצה לנסות את זה בעצמך, בדוק את שלנו מחברת דוגמה.

על הכותבים

אהרון קליין הוא מדען יישומי ב-AWS.

מתיאס סיגר הוא מדען יישומי ראשי ב-AWS.

דיוויד סלינס הוא Sr Applied Scientist ב-AWS.

אמילי וובר הצטרף ל-AWS מיד לאחר השקת SageMaker, ומאז הוא מנסה לספר על כך לעולם! מלבד בניית חוויות ML חדשות ללקוחות, אמילי נהנית לעשות מדיטציה וללמוד בודהיזם טיבטי.

סדריק ארכמבו הוא מדען יישומי ראשי ב-AWS ועמית במעבדה האירופית ללמידה ומערכות חכמות.

בול זמן: יוני 29, 2022

בול זמן: יוני 12, 2023

היכרות עם Amazon Textract Bulk Document Uploader להערכה וניתוח משופרים | שירותי האינטרנט של אמזון

אשכול המקור:

למידת מכונות AWS

צומת המקור: 2095632

בול זמן: מאי 15, 2023

מקסם את ביצועי הדיפוזיה היציבים והורד את עלויות ההסקה עם AWS Inferentia2 | שירותי האינטרנט של אמזון

אשכול המקור:

למידת מכונות AWS

צומת המקור: 2187298

בול זמן: יולי 26, 2023

אופטימיזציה של היפרפרמטרים לכוונון עדין של דגמי שנאים שעברו הכשרה מראש מבית Hugging Face

הועלה מחדש על ידי אפלטון

אופטימיזציה של היפרפרמטרים עם Syne Tune

אוטומציה של בחירת הדגם שהוכשר מראש

הפוך את בחירת סוג המופע לאוטומטי

סיכום

על הכותבים

עוד מ למידת מכונות AWS

שפר חשיבה מרובה הופ בלימודי LLM על ידי למידה ממשוב אנושי עשיר

בנו מזהה ישויות מותאם אישית עבור מסמכי PDF באמצעות Amazon Comprehend

חפש בצורה חכמה תוכן Alfresco באמצעות Amazon Kendra

היכרות עם Amazon Textract Bulk Document Uploader להערכה וניתוח משופרים | שירותי האינטרנט של אמזון

מקסם את ביצועי הדיפוזיה היציבים והורד את עלויות ההסקה עם AWS Inferentia2 | שירותי האינטרנט של אמזון

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן