Эффективно решайте проблемы конвергенции распределенного обучения с помощью автоматической настройки модели Amazon SageMaker Hyperband

Переиздано Платоном

Читают: 0

Последние годы показали удивительный рост нейронных сетей глубокого обучения (DNN). Этот рост можно увидеть в более точных моделях и даже в открытии новых возможностей с генеративным ИИ: большие языковые модели (LLM), которые синтезируют естественный язык, генераторы преобразования текста в изображения и многое другое. Эти расширенные возможности DNN связаны с затратами на наличие массивных моделей, для обучения которых требуются значительные вычислительные ресурсы. Распределенное обучение решает эту проблему с помощью двух методов: параллелизм данных и параллелизм моделей. Параллелизм данных используется для масштабирования процесса обучения на несколько узлов и рабочих процессов, а параллелизм моделей разделяет модель и подгоняет ее к назначенной инфраструктуре. Создатель мудреца Амазонки распределенное обучение задания позволяют одним щелчком мыши (или одним вызовом API) настроить распределенный вычислительный кластер, обучить модель, сохранить результат в Простой сервис хранения Amazon (Amazon S3) и выключите кластер по завершении. Кроме того, SageMaker постоянно внедряет инновации в распределенное учебное пространство, запуская такие функции, как гетерогенные кластеры и распределенные обучающие библиотеки для параллелизм данных и параллелизм моделей.

Эффективное обучение в распределенной среде требует настройки гиперпараметров. Распространенным примером хорошей практики при обучении на нескольких графических процессорах является умножение размера пакета (или мини-пакета) на номер графического процессора, чтобы сохранить одинаковый размер пакета для каждого графического процессора. Однако настройка гиперпараметров часто влияет на сходимость модели. Следовательно, распределенное обучение должно сбалансировать три фактора: распределение, гиперпараметры и точность модели.

В этом посте мы исследуем влияние распределенного обучения на конвергенцию и способы его использования. Автоматическая настройка моделей Amazon SageMaker для точной настройки гиперпараметров модели для распределенного обучения с использованием параллелизма данных.

Исходный код, упомянутый в этом посте, можно найти на Репозиторий GitHub (рекомендуется экземпляр m5.xlarge).

Масштабируйте обучение с одной на распределенную среду

Параллелизм данных — это способ масштабировать процесс обучения на несколько вычислительных ресурсов и сократить время обучения. При параллелизме данных данные распределяются между вычислительными узлами, и каждый узел вычисляет градиенты на основе своего раздела и обновляет модель. Эти обновления можно выполнять с использованием одного или нескольких серверов параметров асинхронно, по принципу «один ко многим» или «все ко всем». Другим способом может быть использование алгоритма AllReduce. Например, в алгоритме Ring-AllReduce каждый узел взаимодействует только с двумя соседними узлами, тем самым сокращая общий объем передаваемых данных. Чтобы узнать больше о серверах параметров и Ring-allReduce, см. Простой запуск распределенного обучения TensorFlow с помощью Horovod или серверов параметров в Amazon SageMaker. Что касается разделения данных, если есть n вычислительных узлов, то каждый узел должен получить подмножество данных, примерно 1/n по размеру.

Чтобы продемонстрировать влияние масштабирования обучения на сходимость модели, мы проведем два простых эксперимента:

Обучение каждой модели выполнялось дважды: в одном экземпляре и распределено по нескольким экземплярам. Для распределенного обучения DNN, чтобы полностью использовать распределенные процессоры, мы умножили размер мини-пакета на количество экземпляров (четыре). В следующей таблице приведены настройки и результаты.

Тип проблемы	Классификация изображений		Бинарная классификация
Модель	DNN		XGBoost
Пример	мл.c4.xlarge		мл. m5.2xlarge
Набор данных	МНИСТ (Помеченные изображения)		Прямой маркетинг (табличные, числовые и векторизованные категории)
Метрика проверки	точность		ППК
Эпохи/раунды	20		150
Количество экземпляров	1	4	1	3
Тип раздачи	Нет	Сервер параметров	Нет	ВсеСвернуть
Время тренировки (минут)	8	3	3	1
Окончательная оценка проверки	0.97	0.11	0.78	0.63

Для обеих моделей время обучения сокращалось почти линейно на коэффициент распределения. Однако сходимость моделей значительно снизилась. Это поведение одинаково для двух разных моделей, разных вычислительных экземпляров, разных методов распределения и разных типов данных. Итак, почему распределение процесса обучения повлияло на точность модели?

Существует ряд теорий, пытающихся объяснить этот эффект:

Когда тензорные обновления имеют большой размер, трафик между рабочими процессами и сервером параметров может быть перегружен. Следовательно, асинхронные серверы параметров будут иметь значительно худшую сходимость из-за задержек в обновлении весов [1].
Увеличение размера партии может привести к переобучению и плохому обобщению, тем самым снижая точность проверки [2].
При асинхронном обновлении параметров модели некоторые DNN могут не использовать самые последние обновленные веса модели; поэтому они будут вычислять градиенты на основе весов, которые отстают на несколько итераций. Это приводит к несвежести веса [3] и может быть вызвано рядом причин.
Некоторые гиперпараметры зависят от модели или оптимизатора. Например, в официальной документации XGBoost говорится, что exact значение для tree_mode гиперпараметр не поддерживает распределенное обучение, поскольку XGBoost использует распределение данных с разделением строк, тогда как exact Метод дерева работает с отсортированным форматом столбца.
Некоторые исследователи предположили, что настройка более крупного мини-пакета может привести к градиентам с меньшей стохастичностью. Это может произойти, когда функция потерь содержит локальные минимумы и седловые точки, а размер шага не изменяется, чтобы оптимизация застряла в таких локальных минимумах или седловых точках [4].

Оптимизация для распределенного обучения

Оптимизация гиперпараметров (HPO) — это процесс поиска и выбора набора гиперпараметров, оптимальных для алгоритма обучения. SageMaker Automatic Model Tuning (AMT) предоставляет HPO как управляемую услугу, выполняя несколько заданий обучения на предоставленном наборе данных. SageMaker AMT выполняет поиск в диапазонах указанных вами гиперпараметров и возвращает наилучшие значения, измеряемые выбранной вами метрикой. Вы можете использовать SageMaker AMT со встроенными алгоритмами или использовать собственные алгоритмы и контейнеры.

Однако оптимизация для распределенного обучения отличается от обычной HPO, поскольку вместо запуска одного экземпляра для каждого задания обучения каждое задание фактически запускает кластер экземпляров. Это означает большее влияние на стоимость (особенно если учесть дорогостоящие инстансы с GPU-ускорением, типичные для DNN). В дополнение к АМТ-лимиты, вы могли бы ударить Ограничения учетной записи SageMaker для одновременного количества обучающих экземпляров. Наконец, запуск кластеров может привести к дополнительным операционным издержкам из-за более длительного времени запуска. SageMaker AMT имеет специальные функции для решения этих проблем. Гиперполоса с ранней остановкой гарантирует точную настройку эффективных конфигураций гиперпараметров и автоматическую остановку неэффективных конфигураций. Это позволяет эффективно использовать время обучения и снижает ненужные расходы. Кроме того, SageMaker AMT полностью поддерживает использование спотовых инстансов Amazon EC2, что позволяет оптимизировать стоимость обучения до 90% над экземплярами по требованию. Что касается длительного времени запуска, SageMaker AMT автоматически повторно использует обучающие экземпляры в каждом задании настройки, тем самым сокращая среднее время запуска каждого задания. тренировочная работа в 20 раз. Кроме того, вы должны следовать Лучшие практики АМТ, такие как выбор соответствующих гиперпараметров, их соответствующих диапазонов и масштабов, а также наилучшего количества одновременных заданий обучения, а также установка случайного начального числа для воспроизведения результатов.

В следующем разделе мы увидим эти функции в действии, когда мы настроим, запустим и проанализируем задание AMT, используя пример XGBoost, который мы обсуждали ранее.

Настройка, запуск и анализ задания настройки

Как упоминалось ранее, исходный код можно найти на Репо GitHub. На шагах 1–5 мы загружаем и подготавливаем данные, создаем xgb3 оценщик (распределенный оценщик XGBoost настроен на использование трех экземпляров), запустите обучающие задания и наблюдайте за результатами. В этом разделе мы описываем, как настроить задание настройки для этого оценщика, предполагая, что вы уже выполнили шаги 1–5.

Задание настройки вычисляет оптимальные гиперпараметры для запускаемых им обучающих заданий, используя метрику для оценки производительности. Ты можешь настроить собственную метрику, который SageMaker будет анализировать на основе регулярного выражения, которое вы настроите, и отправит в stdoutили используйте показатели Встроенные алгоритмы SageMaker. В этом примере мы используем встроенная целевая метрика XGBoost, поэтому нам не нужно настраивать регулярное выражение. Чтобы оптимизировать конвергенцию модели, мы оптимизируем на основе метрики проверки AUC:

objective_metric_name="validation:auc"

Мы настраиваем семь гиперпараметров:

num_round - Количество раундов для прокачки во время тренировки.
ОП – Уменьшение размера шага, используемое в обновлениях для предотвращения переобучения.
альфа – член регуляризации L1 по весам.
min_child_weight – Минимальная сумма веса экземпляра (гессен), необходимая в дочернем элементе. Если шаг разделения дерева приводит к листовому узлу с суммой весов экземпляров меньше, чем min_child_weight, процесс построения отказывается от дальнейшего разделения.
Максимальная глубина – Максимальная глубина дерева.
colsample_bylevel – Соотношение подвыборки столбцов для каждого разделения на каждом уровне. Эта подвыборка выполняется один раз для каждого нового уровня глубины, достигнутого в дереве.
colsample_bytree – Соотношение подвыборки столбцов при построении каждого дерева. Для каждого построенного дерева подвыборка происходит один раз.

Чтобы узнать больше о гиперпараметрах XGBoost, см. Гиперпараметры XGBoost. Следующий код показывает семь гиперпараметров и их диапазоны:

hyperparameter_ranges = { "num_round": IntegerParameter(100, 200), "eta": ContinuousParameter(0, 1), "min_child_weight": ContinuousParameter(1, 10), "alpha": ContinuousParameter(0, 2), "max_depth": IntegerParameter(1, 10), "colsample_bylevel": ContinuousParameter(0, 1), "colsample_bytree": ContinuousParameter(0, 1),
}

Далее предоставляем конфигурация для стратегии Hyperband и настройка объекта тюнера с помощью SageMaker SDK. HyperbandStrategyConfig может использовать два параметра: max_resource (необязательно) для максимального количества итераций, которые будут использоваться для задания обучения для достижения цели, и min_resource – минимальное количество итераций, которое должно быть использовано заданием обучения перед остановкой обучения. Мы используем HyperbandStrategyConfig настроить StrategyConfig, который позже используется определением задания настройки. См. следующий код:

hsc = HyperbandStrategyConfig(max_resource=30, min_resource=1)
sc = StrategyConfig(hyperband_strategy_config=hsc)

Теперь мы создаем HyperparameterTuner объект, которому мы передаем следующую информацию:

Оценщик XGBoost, настроенный на запуск с тремя экземплярами
Имя и определение объективной метрики
Наши диапазоны гиперпараметров
Настройка конфигураций ресурсов, таких как общее количество заданий обучения и количество заданий обучения, которые могут выполняться параллельно.
Настройки гиперполосы (стратегия и конфигурация, которые мы настроили на последнем шаге)
Ранняя остановка (early_stopping_type) установлен в Off

Почему мы отключили раннюю остановку? Задания обучения можно остановить досрочно, если они вряд ли улучшат объективную метрику задания настройки гиперпараметров. Это может помочь сократить время вычислений и избежать переобучения модели. Однако Hyperband использует расширенный встроенный механизм для применения ранней остановки. Следовательно, параметр early_stopping_type должен быть установлен на Off при использовании внутренней функции ранней остановки Hyperband. См. следующий код:

tuner = HyperparameterTuner( xgb3, objective_metric_name, hyperparameter_ranges, max_jobs=30, max_parallel_jobs=4, strategy="Hyperband", early_stopping_type="Off", strategy_config=sc
)

Наконец, мы запускаем задание автоматической настройки модели, вызывая метод соответствовать метод. Если вы хотите запустить задание асинхронно, установите wait в False, Смотрите следующий код:

tuner.fit(
{"train": s3_input_train, "validation": s3_input_validation},
include_cls_metadata=False,
wait=True,
)

Вы можете следить за ходом выполнения задания и сводкой на консоли SageMaker. На панели навигации в разделе Обучение, выберите Задания по настройке гиперпараметров, затем выберите соответствующее задание по настройке. На следующем снимке экрана показано задание настройки с подробными сведениями о состоянии и производительности заданий обучения.

Когда работа по настройке завершена, мы можем просмотреть результаты. В примере с записной книжкой показано, как извлекать результаты с помощью SageMaker SDK. Во-первых, мы исследуем, как работа по настройке увеличила сходимость модели. Вы можете прикрепить HyperparameterTuner объект, используя имя задания, и вызовите описывать метод. Метод возвращает словарь, содержащий метаданные и результаты задания настройки.

В следующем коде мы получаем значение наиболее эффективной учебной работы, измеряемое нашей объективной метрикой (проверка AUC):

tuner = HyperparameterTuner.attach(tuning_job_name=tuning_job_name)
tuner.describe()["BestTrainingJob"]["FinalHyperParameterTuningJobObjectiveMetric"]["Value"]

Результат составляет 0.78 в AUC на проверочном наборе. Это значительное улучшение по сравнению с исходной версией 0.63!

Далее, давайте посмотрим, как быстро прошла наша учебная работа. Для этого мы используем ГиперпараметрTuningJobAnalytics метод в SDK для получения результатов о задании настройки и считывания во фрейм данных Pandas для анализа и визуализации:

tuner_analytics = sagemaker.HyperparameterTuningJobAnalytics(tuning_job_name)
full_df = tuner_analytics.dataframe()
full_df.sort_values(by=["FinalObjectiveValue"], ascending=False).head()

Давайте посмотрим, сколько времени ушло на обучение в среднем по стратегии Hyperband:

full_df["TrainingElapsedTimeSeconds"].mean()

Среднее время заняло около 1 минуты. Это согласуется с механизмом стратегии Hyperband, который предотвращает неэффективные обучающие задания на ранней стадии. Что касается стоимости, работа по настройке стоила нам в общей сложности 30 минут обучения. Ожидается, что без ранней остановки Hyperband общая оплачиваемая продолжительность обучения составит 90 минут (30 заданий * 1 минута на задание * 3 экземпляра на задание). Это в три раза больше экономии! Наконец, мы видим, что задание по настройке выполнило 30 заданий обучения и заняло в общей сложности 12 минут. Это почти на 50% меньше ожидаемого времени (30 заданий/4 задания параллельно * 3 минуты на задание).

Заключение

В этом посте мы описали некоторые наблюдаемые проблемы конвергенции при обучении моделей в распределенных средах. Мы увидели, что SageMaker AMT с использованием Hyperband решает основные проблемы, связанные с оптимизацией данных при параллельном распределенном обучении: конвергенция (которая улучшилась более чем на 10%), операционная эффективность (задание по настройке заняло на 50 % меньше времени, чем последовательное, неоптимизированное задание). потрачено) и экономической эффективности (30 против 90 оплачиваемых минут рабочего времени обучения). В следующей таблице представлены наши результаты:

Метрика улучшения	Реализация без настройки/наивной настройки модели	SageMaker Hyperband Автоматическая настройка модели	Измеренное улучшение
Качество модели (Измеряется при проверке AUC)	0.63	0.78	15%
Цена (измеряется оплачиваемыми минутами обучения)	90	30	66%
Эксплуатационная эффективность (измеряется по общему времени работы)	24	12	50%

Чтобы точно настроить масштабирование (размер кластера), вы можете повторить задание по настройке с несколькими конфигурациями кластера и сравнить результаты, чтобы найти оптимальные гиперпараметры, удовлетворяющие скорости и точности модели.

Мы включили шаги для достижения этого в последнем разделе ноутбук.