Оптимизация гиперпараметров для тонкой настройки предварительно обученных моделей трансформаторов с обниманием лица

Переиздано Платоном

Читают: 0

Большие модели преобразователей, основанные на внимании, добились огромных успехов в обработке естественного языка (NLP). Однако для обучения этих гигантских сетей с нуля требуется огромное количество данных и вычислений. Для небольших наборов данных НЛП простой, но эффективной стратегией является использование предварительно обученного преобразователя, обычно обучаемого без присмотра на очень больших наборах данных, и его точная настройка на интересующем наборе данных. Обнимая лицо поддерживает большой модельный зоопарк этих предварительно обученных трансформеров и делает их легко доступными даже для начинающих пользователей.

Однако тонкая настройка этих моделей по-прежнему требует экспертных знаний, поскольку они очень чувствительны к своим гиперпараметрам, таким как скорость обучения или размер пакета. В этом посте мы покажем, как оптимизировать эти гиперпараметры с помощью платформы с открытым исходным кодом. Сине Мелодия для распределенной оптимизации гиперпараметров (HPO). Syne Tune позволяет нам найти лучшую конфигурацию гиперпараметров, которая дает относительное улучшение на 1-4% по сравнению с гиперпараметрами по умолчанию на популярных КЛЕЙ эталонные наборы данных. Выбор самой предварительно обученной модели также можно считать гиперпараметром, и поэтому Syne Tune выбирает ее автоматически. В задаче классификации текста это приводит к дополнительному повышению точности примерно на 5% по сравнению с моделью по умолчанию. Однако мы можем автоматизировать больше решений, которые должен принять пользователь; мы демонстрируем это, также предоставляя тип экземпляра в качестве гиперпараметра, который мы позже используем для развертывания модели. Выбрав правильный тип экземпляра, мы можем найти конфигурации, которые оптимально сочетают стоимость и задержку.

Для ознакомления с Syne Tune см. Запуск распределенных заданий по настройке гиперпараметров и нейронной архитектуры с помощью Syne Tune.

Оптимизация гиперпараметров с помощью Syne Tune

Мы будем использовать КЛЕЙ набор эталонных тестов, который состоит из девяти наборов данных для задач понимания естественного языка, таких как распознавание текстовых следствий или анализ настроений. Для этого мы адаптируем Hugging Face run_glue.py сценарий обучения. Наборы данных GLUE поставляются с предопределенным набором для обучения и оценки с метками, а также набором тестов удержания без меток. Поэтому мы разделяем тренировочный набор на обучающий и проверочный наборы (разделение 70%/30%) и используем оценочный набор в качестве нашего тестового набора данных. Кроме того, мы добавляем еще одну функцию обратного вызова в API Trainer Hugging Face, которая сообщает о производительности проверки после каждой эпохи обратно в Syne Tune. См. следующий код:

import transformers from syne_tune.report import Reporter class SyneTuneReporter(transformers.trainer_callback.TrainerCallback): def __init__(self): self.report = Reporter() def on_evaluate(self, args, state, control, **kwargs): results = kwargs['metrics'].copy() results['step'] = state.global_step results['epoch'] = int(state.epoch) self.report(**results)

Начнем с оптимизации типичных гиперпараметров обучения: скорости обучения, коэффициента прогрева для увеличения скорости обучения и размера партии для точной настройки предварительно обученного BERT (берт-основание-оболочка), которая является моделью по умолчанию в примере Hugging Face. См. следующий код:

config_space = dict()
config_space['learning_rate'] = loguniform(1e-6, 1e-4)
config_space['per_device_train_batch_size'] = randint(16, 48)
config_space['warmup_ratio'] = uniform(0, 0.5)

В качестве нашего метода HPO мы используем Аша, который случайным образом выбирает конфигурации гиперпараметров и итеративно останавливает оценку неэффективных конфигураций. Хотя существуют более сложные методы, использующие вероятностную модель целевой функции, такие как BO или MoBster, мы используем ASHA для этого поста, потому что он не содержит каких-либо предположений о пространстве поиска.

На следующем рисунке мы сравниваем относительное улучшение тестовой ошибки по сравнению с конфигурацией гиперпараметра Hugging Faces по умолчанию.

Для простоты мы ограничимся сравнением с MRPC, COLA и STSB, но мы также наблюдаем аналогичные улучшения и для других наборов данных GLUE. Для каждого набора данных мы запускаем ASHA на одном файле ml.g4dn.xlarge. Создатель мудреца Амазонки экземпляр с бюджетом времени выполнения 1,800 секунд, что соответствует приблизительно 13, 7 и 9 полноценным вычислениям функций для этих наборов данных соответственно. Чтобы учесть присущую процессу обучения случайность, вызванную, например, мини-пакетной выборкой, мы запускаем ASHA и конфигурацию по умолчанию для пяти повторений с независимым начальным числом для генератора случайных чисел и сообщаем среднее значение и стандартное отклонение относительное улучшение при повторениях. Мы видим, что во всех наборах данных мы действительно можем повысить производительность прогнозирования на 1-3% по сравнению с производительностью тщательно выбранной конфигурации по умолчанию.

Автоматизируйте выбор предварительно обученной модели

Мы можем использовать HPO не только для поиска гиперпараметров, но и для автоматического выбора правильной предварительно обученной модели. Почему мы хотим это сделать? Поскольку ни одна модель не превосходит все наборы данных, мы должны выбрать правильную модель для конкретного набора данных. Чтобы продемонстрировать это, мы оцениваем ряд популярных моделей-трансформеров от Hugging Face. Для каждого набора данных мы ранжируем каждую модель по ее тестовой производительности. Ранжирование по наборам данных (см. следующий рисунок) меняется, и ни одна модель не имеет наивысшего балла для каждого набора данных. В качестве справки мы также показываем абсолютную производительность теста каждой модели и набора данных на следующем рисунке.

Чтобы автоматически выбрать правильную модель, мы можем указать выбор модели как категориальные параметры и добавить их в наше пространство поиска гиперпараметров:

config_space['model_name_or_path'] = choice(['bert-base-cased', 'bert-base-uncased', 'distilbert-base-uncased', 'distilbert-base-cased', 'roberta-base', 'albert-base-v2', 'distilroberta-base', 'xlnet-base-cased', 'albert-base-v1'])

Хотя пространство поиска теперь больше, это не обязательно означает, что его сложнее оптимизировать. На следующем рисунке показана ошибка теста наилучшей наблюдаемой конфигурации (на основе ошибки проверки) в наборе данных MRPC ASHA с течением времени при поиске в исходном пространстве (синяя линия) (с предварительно обученной моделью на основе BERT). ) или в новом расширенном пространстве поиска (оранжевая линия). При том же бюджете ASHA может найти гораздо более эффективную конфигурацию гиперпараметров в расширенном пространстве поиска, чем в меньшем пространстве.

Автоматизируйте выбор типа экземпляра

На практике мы можем заботиться не только об оптимизации эффективности прогнозирования. Нас также могут интересовать другие цели, такие как время обучения, (долларовая) стоимость, задержка или показатели справедливости. Нам также необходимо сделать другие выборы помимо гиперпараметров модели, например, выбрать тип экземпляра.

Хотя тип экземпляра не влияет на производительность прогнозирования, он сильно влияет на стоимость (в долларах), время выполнения обучения и задержку. Последнее становится особенно важным при развертывании модели. Мы можем сформулировать HPO как многоцелевую задачу оптимизации, в которой мы стремимся оптимизировать несколько целей одновременно. Однако ни одно решение не оптимизирует все показатели одновременно. Вместо этого мы стремимся найти набор конфигураций, которые оптимально сочетают одну цель с другой. Это называется набор Парето.

Для дальнейшего анализа этого параметра мы добавляем выбор типа экземпляра в качестве дополнительного категориального гиперпараметра в наше пространство поиска:

config_space['st_instance_type'] = choice(['ml.g4dn.xlarge', 'ml.g4dn.2xlarge', 'ml.p2.xlarge', 'ml.g4dn.4xlarge', 'ml.g4dn.8xlarge', 'ml.p3.2xlarge'])

МЫ ИСПОЛЬЗУЕМ МО-АША, который адаптирует ASHA к многокритериальному сценарию, используя сортировку без доминирования. В каждой итерации MO-ASHA также выбирает для каждой конфигурации тип экземпляра, на котором мы хотим ее оценить. Для запуска HPO на разнородном наборе экземпляров Syne Tune предоставляет серверную часть SageMaker. При использовании этого бэкэнда каждое испытание оценивается как независимое обучающее задание SageMaker на собственном экземпляре. Количество рабочих определяет, сколько заданий SageMaker мы выполняем параллельно в данный момент времени. Сам оптимизатор, в нашем случае MO-ASHA, работает либо на локальном компьютере, либо на ноутбуке Sagemaker, либо на отдельном обучающем задании SageMaker. См. следующий код:

backend = SageMakerBackend( sm_estimator=HuggingFace( entry_point=str('run_glue.py'), source_dir=os.getcwd(), base_job_name='glue-moasha', # instance-type given here are override by Syne Tune with values sampled from `st_instance_type`. instance_type='ml.m5.large', instance_count=1, py_version="py38", pytorch_version='1.9', transformers_version='4.12', max_run=3600, role=get_execution_role(), ),
)

На следующих рисунках слева показано соотношение задержки и ошибки теста, а справа — соотношение задержки и стоимости для случайных конфигураций, отобранных MO-ASHA (мы ограничиваем ось для видимости) в наборе данных MRPC после его запуска в течение 10,800 XNUMX секунд на четырех рабочих процессах. Цвет указывает на тип экземпляра. Черная пунктирная линия представляет множество Парето, то есть множество точек, которые доминируют над всеми другими точками хотя бы в одной цели.

Мы можем наблюдать компромисс между задержкой и ошибкой теста, а это означает, что лучшая конфигурация с наименьшей ошибкой теста не обеспечивает наименьшую задержку. В зависимости от ваших предпочтений вы можете выбрать конфигурацию гиперпараметров, которая снижает производительность теста, но обеспечивает меньшую задержку. Мы также видим компромисс между задержкой и стоимостью. Например, используя инстанс ml.g4dn.xlarge меньшего размера, мы лишь незначительно увеличиваем задержку, но платим четверть стоимости инстанса ml.g4dn.8xlarge.

Заключение

В этом посте мы обсудили оптимизацию гиперпараметров для точной настройки предварительно обученных моделей трансформаторов от Hugging Face на основе Syne Tune. Мы увидели, что, оптимизируя гиперпараметры, такие как скорость обучения, размер пакета и коэффициент прогрева, мы можем улучшить тщательно выбранную конфигурацию по умолчанию. Мы также можем расширить это, автоматически выбрав предварительно обученную модель с помощью оптимизации гиперпараметров.

С помощью серверной части Syne Tune SageMaker мы можем рассматривать тип экземпляра как гиперпараметр. Хотя тип экземпляра не влияет на производительность, он существенно влияет на задержку и стоимость. Следовательно, рассматривая HPO как многокритериальную задачу оптимизации, мы можем найти набор конфигураций, которые оптимально сочетают одну цель с другой. Если вы хотите попробовать это сами, загляните в наш пример тетради.

Об авторах

Аарон Кляйн является прикладным ученым в AWS.

Матиас Сигер является ведущим научным сотрудником AWS.

Дэвид салинас является старшим научным сотрудником в AWS.

Эмили Уэббер присоединился к AWS сразу после запуска SageMaker и с тех пор пытается рассказать об этом миру! Помимо создания новых возможностей машинного обучения для клиентов, Эмили любит медитировать и изучать тибетский буддизм.

Седрик Аршамбо является ведущим научным сотрудником AWS и членом Европейской лаборатории обучения и интеллектуальных систем.

Отметка времени: 29 июня 2022

Отметка времени: 19 мая 2022

Оптимизация гиперпараметров для точной настройки предварительно обученных моделей трансформаторов от Hugging Face

Переиздано Платоном

Оптимизация гиперпараметров с помощью Syne Tune

Автоматизируйте выбор предварительно обученной модели

Автоматизируйте выбор типа экземпляра

Заключение

Об авторах

Больше от Машинное обучение AWS

Базы знаний в Amazon Bedrock теперь позволяют задавать вопросы в одном документе | Веб-сервисы Amazon

Интеллектуальный поиск содержимого Alfresco с помощью Amazon Kendra

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись