Гіперпараметрична оптимізація для точного налаштування попередньо навчених моделей трансформаторів із обіймаючого обличчя

Перевидано Платоном

читають: 0

Великі моделі трансформаторів, орієнтовані на увагу, отримали величезні переваги в обробці природної мови (NLP). Однак навчання цих гігантських мереж з нуля вимагає величезної кількості даних і обчислень. Для менших наборів даних НЛП проста, але ефективна стратегія полягає у використанні попередньо навченого трансформатора, який зазвичай навчається без нагляду на дуже великих наборах даних, і точно налаштувати його на цікавий набір даних. Обіймати обличчя підтримує великий модельний зоопарк цих попередньо навчених трансформерів і робить їх легкодоступними навіть для початківців користувачів.

Однак для точного налаштування цих моделей все ще потрібні знання експертів, оскільки вони досить чутливі до своїх гіперпараметрів, таких як швидкість навчання або розмір пакету. У цій публікації ми покажемо, як оптимізувати ці гіперпараметри за допомогою фреймворка з відкритим кодом Мелодія Syne для оптимізації розподілених гіперпараметрів (HPO). Syne Tune дозволяє нам знайти кращу конфігурацію гіперпараметрів, яка досягає відносного покращення на 1-4% порівняно з гіперпараметрами за замовчуванням на популярних КЛЕЙ контрольні набори даних. Вибір попередньо підготовленої моделі також можна вважати гіперпараметром і, отже, автоматично вибиратися Syne Tune. У проблемі класифікації тексту це призводить до додаткового підвищення точності приблизно на 5% порівняно з моделлю за замовчуванням. Однак ми можемо автоматизувати більше рішень, які користувач повинен приймати; ми демонструємо це, також показуючи тип екземпляра як гіперпараметр, який ми пізніше використовуємо для розгортання моделі. Вибравши правильний тип екземпляра, ми можемо знайти конфігурації, які оптимально компенсують вартість і затримку.

Щоб ознайомитися з Syne Tune, див Виконуйте завдання з налаштування розподілених гіперпараметрів і нейронної архітектури за допомогою Syne Tune.

Оптимізація гіперпараметрів за допомогою Syne Tune

Ми будемо використовувати КЛЕЙ набір тестів, який складається з дев'яти наборів даних для завдань розуміння природної мови, таких як розпізнавання тексту або аналіз настроїв. Для цього ми адаптуємо Hugging Face run_glue.py сценарій навчання. Набори даних GLUE поставляються з попередньо визначеним набором для навчання та оцінки з мітками, а також із набором тривалих тестів без міток. Тому ми розділили навчальний набір на набори для навчання та перевірки (розділ 70%/30%) і використовуємо набір оцінки як набір даних для тесту очікування. Крім того, ми додаємо ще одну функцію зворотного виклику до Hugging Face Trainer API, яка повідомляє про ефективність перевірки після кожної епохи назад до Syne Tune. Дивіться наступний код:

import transformers from syne_tune.report import Reporter class SyneTuneReporter(transformers.trainer_callback.TrainerCallback): def __init__(self): self.report = Reporter() def on_evaluate(self, args, state, control, **kwargs): results = kwargs['metrics'].copy() results['step'] = state.global_step results['epoch'] = int(state.epoch) self.report(**results)

Ми починаємо з оптимізації типових тренувальних гіперпараметрів: швидкість навчання, коефіцієнт розминки для збільшення швидкості навчання та розмір пакету для точного налаштування попередньо підготовленого BERT (bert-base-case) модель, яка є моделлю за замовчуванням у прикладі Hugging Face. Дивіться наступний код:

config_space = dict()
config_space['learning_rate'] = loguniform(1e-6, 1e-4)
config_space['per_device_train_batch_size'] = randint(16, 48)
config_space['warmup_ratio'] = uniform(0, 0.5)

Як наш метод HPO ми використовуємо АША, який випадковим чином рівномірно відбирає конфігурації гіперпараметрів і ітераційно припиняє оцінку конфігурацій з поганою продуктивністю. Хоча більш складні методи використовують імовірнісну модель цільової функції, таку як існує BO або MoBster, ми використовуємо ASHA для цієї публікації, оскільки вона поставляється без будь-яких припущень щодо простору пошуку.

На наступному малюнку ми порівнюємо відносне покращення помилки тестування порівняно з конфігурацією гіперпараметрів за замовчуванням Hugging Faces.

Для простоти ми обмежуємо порівняння з MRPC, COLA та STSB, але ми також спостерігаємо подібні покращення також для інших наборів даних GLUE. Для кожного набору даних ми запускаємо ASHA на одному ml.g4dn.xlarge Amazon SageMaker екземпляр з бюджетом виконання 1,800 секунд, що відповідає приблизно 13, 7 і 9 повним оцінкам функцій у цих наборах даних відповідно. Щоб врахувати внутрішню випадковість процесу навчання, наприклад, викликану вибіркою міні-партії, ми запускаємо як ASHA, так і конфігурацію за замовчуванням для п’яти повторень з незалежним початковим елементом для генератора випадкових чисел і повідомляємо про середнє та стандартне відхилення для відносне поліпшення під час повторень. Ми бачимо, що в усіх наборах даних ми фактично можемо покращити прогнозну продуктивність на 1-3% порівняно з продуктивністю ретельно відібраної конфігурації за замовчуванням.

Автоматизуйте вибір попередньо навченої моделі

Ми можемо використовувати HPO, щоб не тільки знаходити гіперпараметри, але й автоматично вибирати потрібну попередньо навчену модель. Чому ми хочемо це зробити? Оскільки жодна модель не перевершує всі набори даних, ми повинні вибрати правильну модель для певного набору даних. Щоб продемонструвати це, ми оцінюємо цілий ряд популярних моделей трансформерів від Hugging Face. Для кожного набору даних ми оцінюємо кожну модель за її тестовою продуктивністю. Рейтинг між наборами даних (див. наступний малюнок) змінюється, а не одна модель, яка має найвищі оцінки для кожного набору даних. Як довідник ми також показуємо абсолютну продуктивність тесту кожної моделі та набору даних на наступному малюнку.

Щоб автоматично вибрати правильну модель, ми можемо відтворити вибір моделі як категоріальні параметри та додати це до нашого простору пошуку гіперпараметрів:

config_space['model_name_or_path'] = choice(['bert-base-cased', 'bert-base-uncased', 'distilbert-base-uncased', 'distilbert-base-cased', 'roberta-base', 'albert-base-v2', 'distilroberta-base', 'xlnet-base-cased', 'albert-base-v1'])

Хоча простір для пошуку тепер більше, це не обов’язково означає, що його важче оптимізувати. На наступному малюнку показано помилку тестування найкращої спостережуваної конфігурації (на основі помилки перевірки) у наборі даних MRPC ASHA з часом, коли ми шукаємо в оригінальному просторі (синя лінія) (за допомогою попередньо навченої моделі на основі BERT ) або в новому розширеному просторі пошуку (оранжевий рядок). Враховуючи той самий бюджет, ASHA може знайти набагато кращу конфігурацію гіперпараметрів у розширеному просторі пошуку, ніж у меншому просторі.

Автоматичний вибір типу екземпляра

На практиці ми можемо не дбати лише про оптимізацію прогнозної продуктивності. Ми також можемо піклуватися про інші цілі, такі як час навчання, вартість (у доларах), затримка або показники справедливості. Нам також потрібно зробити інші варіанти, крім гіперпараметрів моделі, наприклад, вибрати тип екземпляра.

Хоча тип екземпляра не впливає на прогнозну продуктивність, він сильно впливає на вартість (долар), час виконання навчання та затримку. Останнє стає особливо важливим, коли модель розгортається. Ми можемо сформулювати HPO як проблему багатоцільової оптимізації, де ми прагнемо оптимізувати кілька цілей одночасно. Однак жодне рішення не оптимізує всі показники одночасно. Замість цього ми прагнемо знайти набір конфігурацій, які оптимально компенсують одну ціль проти іншої. Це називається Набір Парето.

Для подальшого аналізу цього параметра ми додаємо вибір типу екземпляра як додатковий категоричний гіперпараметр до нашого простору пошуку:

config_space['st_instance_type'] = choice(['ml.g4dn.xlarge', 'ml.g4dn.2xlarge', 'ml.p2.xlarge', 'ml.g4dn.4xlarge', 'ml.g4dn.8xlarge', 'ml.p3.2xlarge'])

Ми використовуємо МО-АША, який адаптує ASHA до багатоцільового сценарію за допомогою сортування без домінування. На кожній ітерації MO-ASHA також вибирає для кожної конфігурації також тип екземпляра, на якому ми хочемо його оцінити. Щоб запустити HPO на гетерогенному наборі екземплярів, Syne Tune надає бекенд SageMaker. За допомогою цього бекенда кожне випробування оцінюється як незалежне навчальне завдання SageMaker у окремому екземплярі. Кількість працівників визначає, скільки завдань SageMaker ми виконуємо паралельно в певний час. Сам оптимізатор, у нашому випадку MO-ASHA, працює або на локальній машині, у блокноті Sagemaker, або на окремому навчальному заданні SageMaker. Дивіться наступний код:

backend = SageMakerBackend( sm_estimator=HuggingFace( entry_point=str('run_glue.py'), source_dir=os.getcwd(), base_job_name='glue-moasha', # instance-type given here are override by Syne Tune with values sampled from `st_instance_type`. instance_type='ml.m5.large', instance_count=1, py_version="py38", pytorch_version='1.9', transformers_version='4.12', max_run=3600, role=get_execution_role(), ),
)

На наступних малюнках показано співвідношення затримки та помилки тесту ліворуч і затримки від вартості праворуч для випадкових конфігурацій, відібраних MO-ASHA (ми обмежуємо вісь для видимості) у наборі даних MRPC після його запуску протягом 10,800 XNUMX секунд на чотирьох працівниках. Колір вказує на тип екземпляра. Пунктирна чорна лінія представляє набір Парето, тобто набір точок, які домінують над усіма іншими точками принаймні в одній цілі.

Ми можемо спостерігати компроміс між затримкою та помилкою тестування, тобто найкраща конфігурація з найменшою помилкою тестування не досягає найменшої затримки. На основі ваших уподобань ви можете вибрати конфігурацію гіперпараметра, яка жертвує продуктивністю тестування, але має меншу затримку. Ми також бачимо компроміс між затримкою та вартістю. Наприклад, використовуючи менший екземпляр ml.g4dn.xlarge, ми лише незначно збільшуємо затримку, але сплачуємо четверту частину вартості екземпляра ml.g4dn.8xlarge.

Висновок

У цій публікації ми обговорили оптимізацію гіперпараметрів для точного налаштування попередньо навчених моделей трансформаторів від Hugging Face на основі Syne Tune. Ми побачили, що оптимізуючи гіперпараметри, такі як швидкість навчання, розмір пакету та коефіцієнт розігріву, ми можемо покращити ретельно вибрану конфігурацію за замовчуванням. Ми також можемо розширити це, автоматично вибравши попередньо навчену модель за допомогою оптимізації гіперпараметрів.

За допомогою бекенда Syne Tune SageMaker ми можемо розглядати тип екземпляра як гіперпараметр. Хоча тип екземпляра не впливає на продуктивність, він має значний вплив на затримку та вартість. Тому, відтворюючи HPO як багатоцільову оптимізаційну проблему, ми можемо знайти набір конфігурацій, які оптимально компенсують одну ціль проти іншої. Якщо ви хочете спробувати це самі, завітайте до нас приклад блокнота.

Про авторів

Аарон Кляйн є вченим-прикладником в AWS.

Матіас Сігер є головним прикладним науковцем у AWS.

Девід Салінас є старшим прикладним науковцем в AWS.

Емілі Веббер приєднався до AWS відразу після запуску SageMaker і з тих пір намагається розповісти про це всьому світу! Крім створення нових можливостей ML для клієнтів, Емілі любить медитувати та вивчати тибетський буддизм.

Седрік Арчамбо є головним прикладним науковцем в AWS і членом Європейської лабораторії навчання та інтелектуальних систем.

Часова мітка: 29 Червня, 2022.

Часова мітка: Квітень 23, 2024

Оптимізація гіперпараметрів для точного налаштування попередньо навчених моделей трансформаторів від Hugging Face

Перевидано Платоном

Оптимізація гіперпараметрів за допомогою Syne Tune

Автоматизуйте вибір попередньо навченої моделі

Автоматичний вибір типу екземпляра

Висновок

Про авторів

Більше від AWS Машинне навчання

Ефективно навчайте, налаштовуйте та розгортайте власні ансамблі за допомогою Amazon SageMaker | Веб-сервіси Amazon

Gradient робить порівняльний аналіз LLM економічно ефективним і легким за допомогою AWS Inferentia | Веб-сервіси Amazon

Представляємо налаштування популярності для Similar-Items в Amazon Personalize | Веб-сервіси Amazon

Досягніть швидких бізнес-результатів за допомогою швидшого навчання моделі ML за допомогою Amazon SageMaker Canvas

Навчання та розгортання моделей ML у багатохмарному середовищі за допомогою Amazon SageMaker | Веб-сервіси Amazon

Створюйте, навчайте та розгортайте модель мови з мільярдом параметрів на терабайтах даних за допомогою TensorFlow та Amazon SageMaker

Найкращі практики та шаблони проектування для створення робочих процесів машинного навчання за допомогою Amazon SageMaker Pipelines | Веб-сервіси Amazon

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки