Создатель мудреца Амазонки предоставляет набор встроенные алгоритмы, предварительно обученные моделикачества готовые шаблоны решений чтобы помочь специалистам по обработке и анализу данных и специалистам по машинному обучению (ML) быстро приступить к обучению и развертыванию моделей ML. Вы можете использовать эти алгоритмы и модели как для контролируемого, так и для неконтролируемого обучения. Они могут обрабатывать различные типы входных данных, в том числе табличные, графические и текстовые.
Начиная с сегодняшнего дня SageMaker предоставляет четыре новых встроенных алгоритма моделирования табличных данных: LightGBM, CatBoost, AutoGluon-Tabular и TabTransformer. Вы можете использовать эти популярные современные алгоритмы как для табличной классификации, так и для задач регрессии. Они доступны через встроенные алгоритмы на консоли SageMaker, а также через Amazon SageMaker JumpStart пользовательский интерфейс внутри Студия Amazon SageMaker.
Ниже приведен список четырех новых встроенных алгоритмов со ссылками на их документацию, примеры записных книжек и источник.
Документация | Примеры записных книжек | Источник |
Алгоритм LightGBM | Регрессия, классификация | СветGBM |
Алгоритм CatBoost | Регрессия, классификация | CatBoost |
Автоглюонно-табличный алгоритм | Регрессия, классификация | AutoGluon-Табулярный |
Алгоритм TabTransformer | Регрессия, классификация | ВкладкаТрансформер |
В следующих разделах мы приводим краткое техническое описание каждого алгоритма и примеры обучения модели с помощью SageMaker SDK или SageMaker Jumpstart.
СветGBM
СветGBM — это популярная и эффективная реализация с открытым исходным кодом алгоритма Gradient Boosting Decision Tree (GBDT). GBDT — это алгоритм обучения с учителем, который пытается точно предсказать целевую переменную, комбинируя ансамбль оценок из набора более простых и слабых моделей. LightGBM использует дополнительные методы для значительного повышения эффективности и масштабируемости обычного GBDT.
CatBoost
CatBoost — это популярная и высокопроизводительная реализация алгоритма GBDT с открытым исходным кодом. В CatBoost представлены два важных алгоритмических усовершенствования: реализация упорядоченного повышения, основанная на перестановках альтернатива классическому алгоритму и инновационный алгоритм обработки категориальных признаков. Оба метода были созданы для борьбы со сдвигом прогноза, вызванным особым типом целевой утечки, присутствующей во всех существующих в настоящее время реализациях алгоритмов повышения градиента.
AutoGluon-Табулярный
AutoGluon-Табулярный — это проект AutoML с открытым исходным кодом, разработанный и поддерживаемый Amazon, который выполняет расширенную обработку данных, глубокое обучение и объединение многоуровневых стеков. Он автоматически распознает тип данных в каждом столбце для надежной предварительной обработки данных, включая специальную обработку текстовых полей. AutoGluon подходит для различных моделей, от готовых расширенных деревьев до настраиваемых моделей нейронных сетей. Эти модели собраны по-новому: модели собраны в несколько слоев и обучены послойно, что гарантирует преобразование необработанных данных в высококачественные прогнозы в заданные временные рамки. На протяжении всего этого процесса переобучение смягчается за счет разбиения данных различными способами с тщательным отслеживанием несоответствующих примеров. AutoGluon оптимизирован для повышения производительности, и его стандартное использование достигло нескольких первых 3 и 10 позиций в конкурсах по науке о данных.
ВкладкаТрансформер
ВкладкаТрансформер — это новая архитектура моделирования глубоких табличных данных для контролируемого обучения. TabTransformer построен на Трансформерах, основанных на самоконтроле. Слои Transformer преобразуют вложения категориальных признаков в надежные контекстуальные вложения для достижения более высокой точности предсказания. Кроме того, контекстуальные вложения, извлеченные из TabTransformer, очень устойчивы как к отсутствующим, так и к зашумленным функциям данных и обеспечивают лучшую интерпретируемость. Эта модель является продуктом недавнего Амазонская наука исследование (бумаги и официальный блоге здесь) и был широко принят сообществом машинного обучения с различными сторонними реализациями (Keras, АвтоГлюон,) и функции социальных сетей, такие как чириканье, к науке, средний и Kaggle.
Преимущества встроенных алгоритмов SageMaker
При выборе алгоритма для конкретного типа задач и данных использование встроенного алгоритма SageMaker является самым простым вариантом, поскольку это дает следующие основные преимущества:
- Встроенные алгоритмы не требуют программирования для запуска экспериментов. Единственные входные данные, которые вам нужно предоставить, — это данные, гиперпараметры и вычислительные ресурсы. Это позволяет проводить эксперименты быстрее и с меньшими затратами на отслеживание результатов и изменений кода.
- Встроенные алгоритмы поставляются с распараллеливанием между несколькими экземплярами вычислений и встроенной поддержкой графического процессора для всех применимых алгоритмов (некоторые алгоритмы могут быть не включены из-за присущих им ограничений). Если у вас есть много данных для обучения модели, большинство встроенных алгоритмов можно легко масштабировать в соответствии с потребностями. Даже если у вас уже есть предварительно обученная модель, все же может быть проще использовать ее следствие в SageMaker и вводить уже известные гиперпараметры, чем портировать ее и самостоятельно писать сценарий обучения.
- Вы являетесь владельцем полученных артефактов модели. Вы можете взять эту модель и развернуть ее в SageMaker для нескольких различных шаблонов вывода (ознакомьтесь со всеми доступные типы развертывания) и легкое масштабирование и управление конечными точками, или вы можете развернуть его там, где вам это нужно.
Давайте теперь посмотрим, как обучить один из этих встроенных алгоритмов.
Обучите встроенный алгоритм с помощью SageMaker SDK
Чтобы обучить выбранную модель, нам нужно получить URI этой модели, а также URI обучающего сценария и образа контейнера, используемого для обучения. К счастью, эти три входа зависят исключительно от названия модели, версии (список доступных моделей см. Таблица доступных моделей JumpStart) и тип экземпляра, на котором вы хотите тренироваться. Это демонстрируется в следующем фрагменте кода:
Ассоциация train_model_id
изменения в lightgbm-regression-model
если мы имеем дело с проблемой регрессии. Идентификаторы всех остальных моделей, представленных в этом посте, перечислены в следующей таблице.
Модель | Тип проблемы | Модель ID |
СветGBM | классификация | lightgbm-classification-model |
. | Регрессия | lightgbm-regression-model |
CatBoost | классификация | catboost-classification-model |
. | Регрессия | catboost-regression-model |
AutoGluon-Табулярный | классификация | autogluon-classification-ensemble |
. | Регрессия | autogluon-regression-ensemble |
ВкладкаТрансформер | классификация | pytorch-tabtransformerclassification-model |
. | Регрессия | pytorch-tabtransformerregression-model |
Затем мы определяем, где находится наш ввод. Простой сервис хранения Amazon (Амазон С3). В этом примере мы используем общедоступный образец набора данных. Мы также определяем, куда должны направляться наши выходные данные, и извлекаем список гиперпараметров по умолчанию, необходимых для обучения выбранной модели. Вы можете изменить их значение по своему вкусу.
Наконец, мы создаем экземпляр SageMaker Estimator
со всеми полученными входными данными и запустите обучающее задание с помощью .fit
, передав ему URI нашего обучающего набора данных. entry_point
предоставленный сценарий называется transfer_learning.py
(то же самое для других задач и алгоритмов), а канал входных данных перешел к .fit
должен быть назван training
.
Обратите внимание, что вы можете обучать встроенные алгоритмы с помощью SageMaker автоматическая настройка модели для выбора оптимальных гиперпараметров и дальнейшего повышения производительности модели.
Обучите встроенный алгоритм с помощью SageMaker JumpStart
Вы также можете обучить любой из этих встроенных алгоритмов несколькими щелчками мыши через пользовательский интерфейс SageMaker JumpStart. JumpStart — это функция SageMaker, которая позволяет обучать и развертывать встроенные алгоритмы и предварительно обученные модели из различных платформ машинного обучения и концентраторов моделей через графический интерфейс. Он также позволяет развертывать полноценные решения машинного обучения, которые объединяют модели машинного обучения и различные другие сервисы AWS для решения целевого варианта использования.
Для получения дополнительной информации обратитесь к Запустите классификацию текста с помощью Amazon SageMaker JumpStart, используя модели TensorFlow Hub и Hugging Face..
Заключение
В этом посте мы объявили о запуске четырех новых мощных встроенных алгоритмов машинного обучения для табличных наборов данных, которые теперь доступны в SageMaker. Мы предоставили техническое описание этих алгоритмов, а также пример обучающего задания для LightGBM с использованием SageMaker SDK.
Принесите свой собственный набор данных и попробуйте эти новые алгоритмы в SageMaker, а также ознакомьтесь с образцами блокнотов, чтобы использовать встроенные алгоритмы, доступные на GitHub.
Об авторах
Доктор Синь Хуан — научный сотрудник Amazon SageMaker JumpStart и встроенных алгоритмов Amazon SageMaker. Он занимается разработкой масштабируемых алгоритмов машинного обучения. Его исследовательские интересы лежат в области обработки естественного языка, объяснимого глубокого обучения на табличных данных и надежного анализа непараметрической пространственно-временной кластеризации. Он опубликовал множество статей на конференциях ACL, ICDM, KDD и в журнале Royal Statistical Society: Series A.
Доктор Ашиш Хетан — старший научный сотрудник, работающий со встроенными алгоритмами Amazon SageMaker JumpStart и Amazon SageMaker и помогающий разрабатывать алгоритмы машинного обучения. Он является активным исследователем в области машинного обучения и статистических выводов и опубликовал множество статей на конференциях NeurIPS, ICML, ICLR, JMLR, ACL и EMNLP.
Жоао Моура является специалистом по архитектуре решений AI/ML в Amazon Web Services. Он в основном сосредоточен на примерах использования НЛП и помогает клиентам оптимизировать обучение и развертывание модели глубокого обучения. Он также является активным сторонником решений машинного обучения с низким кодом и специализированного оборудования для машинного обучения.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/new-built-in-amazon-sagemaker-algorithms-for-tabular-data-modeling-lightgbm-catboost-autogluon-tabular-and-tabtransformer/
- "
- 100
- a
- Достигать
- достигнутый
- через
- активный
- дополнительный
- продвинутый
- авансы
- против
- алгоритм
- алгоритмический
- алгоритмы
- Все
- позволяет
- уже
- альтернатива
- Amazon
- Amazon Web Services
- анализ
- объявило
- отношение
- прикладной
- архитектура
- ПЛОЩАДЬ
- Автоматический
- автоматически
- доступен
- AWS
- , так как:
- Преимущества
- Лучшая
- Повышенный
- стимулирование
- Коробка
- встроенный
- тщательный
- случаев
- вызванный
- изменение
- классический
- классификация
- код
- Кодирование
- Column
- как
- сообщество
- Соревнования
- Вычисление
- конференции
- Консоли
- Container
- Создайте
- создали
- критической
- В настоящее время
- изготовленный на заказ
- Клиенты
- данным
- обработка данных
- наука о данных
- занимавшийся
- решение
- глубоко
- Спрос
- убивают
- развертывание
- развертывание
- развертывание
- описание
- развивать
- развитый
- развивающийся
- различный
- Docker
- каждый
- легко
- затрат
- эффективный
- Конечная точка
- Оценки
- пример
- Примеры
- существующий
- Лицо
- Особенность
- Особенности
- Поля
- внимание
- фокусируется
- после
- каркасы
- от
- далее
- Более того
- GPU / ГРАФИЧЕСКИЙ ПРОЦЕССОР
- Управляемость
- Аппаратные средства
- высота
- помощь
- помощь
- помогает
- здесь
- высококачественный
- высший
- очень
- Как
- How To
- HTTPS
- хаб
- изображение
- реализация
- улучшать
- включены
- В том числе
- информация
- свойственный
- инновационный
- вход
- пример
- интересы
- Интерфейс
- IT
- работа
- журнал
- Знать
- язык
- запуск
- узнали
- изучение
- связи
- Список
- Включенный в список
- машина
- обучение с помощью машины
- основной
- управление
- способ
- Медиа
- средний
- ML
- модель
- Модели
- БОЛЕЕ
- самых
- с разными
- натуральный
- сеть
- Оптимизировать
- оптимизированный
- Опция
- Другие контрактные услуги
- собственный
- владелец
- особый
- Прохождение
- производительность
- Популярное
- мощный
- предсказывать
- прогноз
- Predictions
- представить
- Проблема
- процесс
- обработка
- Продукт
- Проект
- обеспечивать
- при условии
- приводит
- что такое варган?
- опубликованный
- быстро
- ранжирование
- Сырье
- признает
- область
- требовать
- исследованиям
- Полезные ресурсы
- в результате
- Итоги
- Run
- Бег
- то же
- Масштабируемость
- масштабируемые
- Шкала
- масштабирование
- Наука
- Ученый
- Ученые
- SDK
- выбранный
- Серии
- Серия A
- Услуги
- набор
- несколько
- сдвиг
- просто
- So
- Соцсети
- социальные сети
- Общество
- Решение
- Решения
- РЕШАТЬ
- некоторые
- особый
- специалист
- стек
- Начало
- и политические лидеры
- современное состояние
- статистический
- По-прежнему
- диск
- поддержка
- цель
- целевое
- задачи
- Технический
- снижения вреда
- Ассоциация
- сторонние
- три
- Через
- по всему
- время
- сегодня
- вместе
- Отслеживание
- Train
- Обучение
- Transform
- Типы
- ui
- созданного
- использование
- случаи использования
- ценностное
- различный
- версия
- способы
- Web
- веб-сервисы
- Что
- в
- ВАШЕ