Amazon Redshift ML упрощает использование машинного обучения (ML) за счет использования простых операторов SQL для создания и обучения моделей машинного обучения на основе данных в Амазонка Redshift. Amazon Redshift ML можно использовать для решения задач двоичной классификации, многоклассовой классификации и регрессии, а также напрямую использовать AutoML или XGBoost.
Этот пост является частью серии, в которой описывается использование Amazon Redshift ML. Для получения дополнительной информации о построении регрессии с помощью Amazon Redshift ML см. Создание регрессионных моделей с помощью Amazon Redshift ML.
Вы можете использовать Amazon Redshift ML для автоматизации подготовки данных, предварительной обработки и выбора типа проблемы, как показано на это сообщение в блоге. Мы предполагаем, что вы хорошо понимаете свои данные и тип проблемы, наиболее подходящий для вашего варианта использования. В этом посте особое внимание уделяется созданию моделей в Amazon Redshift с использованием типа задачи классификации нескольких классов., который заключается в классификации экземпляров в один из трех или более классов. Например, вы можете предсказать, является ли транзакция мошеннической, неудачной или успешной, будет ли клиент оставаться активным в течение 3 месяцев, шести месяцев, девяти месяцев, 12 месяцев или будут ли новости отмечены как спортивные, мировые новости, бизнес.
Предпосылки
В качестве предварительного условия для реализации этого решения вам необходимо настроить кластер Amazon Redshift с включенным на нем машинным обучением. Предварительные шаги для начала работы см. В разделе Создание, обучение и развертывание моделей машинного обучения в Amazon Redshift с помощью SQL с Amazon Redshift ML.
Примеры использования
В нашем случае мы хотим привлечь наших самых активных клиентов к специальной программе лояльности. Мы используем Amazon Redshift ML и мультиклассовую классификацию, чтобы спрогнозировать, сколько месяцев клиент будет активен в течение 13-месячного периода. Это позволяет получить до 13 возможных классов, что делает его более подходящим для мультиклассовой классификации. Клиенты с прогнозируемой активностью 7 месяцев и более становятся объектом специальной программы лояльности..
Введите необработанные данные
Чтобы подготовить необработанные данные для этой модели, мы заполнили таблицу ecommerce_sales в Amazon Redshift, используя общедоступный набор данных. Прогноз продаж электронной коммерции, который включает данные о продажах онлайн-магазина в Великобритании.
Введите следующие операторы, чтобы загрузить данные в Amazon Redshift:
Чтобы воспроизвести этот сценарий в своей среде, замените < > с Управление идентификацией и доступом AWS (IAM) ARN для кластера Amazon Redshift.
Подготовка данных для модели машинного обучения
Теперь, когда наш набор данных загружен, мы можем при желании разделить данные на три набора для обучения (80%), проверки (10%) и прогнозирования (10%). Обратите внимание, что Amazon Redshift ML Autopilot автоматически разделит данные на обучение и проверку, но, разделив их здесь, вы сможете проверить точность своей модели. Кроме того, мы вычисляем количество месяцев, в течение которых клиент был активен, так как это будет значение, которое мы хотим, чтобы наша модель предсказывала на новых данных. Мы используем случайную функцию в наших операторах SQL для разделения данных. См. Следующий код:
Обучающий набор
Набор для проверки
Набор прогнозов
Создайте модель в Amazon Redshift
Теперь, когда мы создали наши наборы данных для обучения и проверки, мы можем использовать создать модель заявление в Amazon Redshift для создания нашей модели машинного обучения с использованием Multiclass_Classification
. Мы указываем тип проблемы, но позволяем AutoML позаботиться обо всем остальном. В этой модели цель, которую мы хотим спрогнозировать, это nbr_months_active
. Создатель мудреца Амазонки создает функцию predict_customer_activity
, который мы используем для вывода в Amazon Redshift. См. Следующий код:
Чтобы воспроизвести этот сценарий в своей среде, замените < > с ролью IAM вашего кластера ARN.
Подтвердите прогнозы
На этом этапе мы оцениваем точность нашей модели машинного обучения по нашим данным проверки.
Создавая модель, Amazon SageMaker Автопилот автоматически разделяет входные данные на наборы для обучения и проверки и выбирает модель с наилучшей объективной метрикой, которая развернута в кластере Amazon Redshift. Вы можете использовать оператор show model в своем кластере для просмотра различных показателей, включая оценку точности. Если вы не укажете явно, SageMaker автоматически использует точность для типа цели. См. Следующий код:
Как показано в следующих выходных данных, наша модель имеет показатель точности 0.996580.
Основные | Значение |
Название модели | электронная торговля_клиент_активность |
Имя схемы | Общая |
Владелец | Демо |
Время создания | Пн, 22.03.2021 19:48:30 |
Состояние модели | ГОТОВ |
Статус работы по обучению | MaxAutoMLJobRuntimeReached |
проверка: точность | 0.996580 |
Ориентировочная стоимость | 4.260437 |
ДАННЫЕ ДЛЯ ОБУЧЕНИЯ: | |
запрос | ВЫБЕРИТЕ CUSTOMERID, COUNTRY, STOCKCODE, DESCRIPTION, INVOICEDATE, SALES_AMT, NBR_MONTHS_ACTIVE |
ОТ ECOMMERCE_SALES_CLN_TRAINING | |
Целевой столбец | NBR_MONTHS_ACTIVE |
ПАРАМЕТРЫ: | |
Тип модели | Авто |
Тип проблемы | Мультикласс |
Тип проблемы | точность |
Имя задания AutoML | 2021-03-07-19-48-30-960148-auto |
Имя функции | pred_customer_activity |
Параметры функции | страна-заказчик код товара описание invoicedate sales_amt |
Типы функциональных параметров | int8, varchar, varchar, varchar, varchar, float8 |
Давайте запустим запросы вывода для наших данных проверки, используя следующий код SQL для данных проверки:
Мы видим, что мы сделали правильный прогноз на 99.74% по нашему набору данных, что соответствует нашей оценке точности из модели шоу.
предсказанные_матчи | предсказано_не_матчес | total_predictions | pct_accuracy |
43489.00 | 132.00 | 43621.00 | 0.99697393 |
Теперь давайте запустим запрос, чтобы узнать, какие клиенты имеют право на участие в нашей программе лояльности, будучи активными не менее 7 месяцев:
В следующей таблице показаны наши результаты.
Пользовательский ИД | предсказанные_месяцы_активные |
16895 | 8 |
18283 | 10 |
15044 | 11 |
16746 | 11 |
14702 | 11 |
16607 | 10 |
12901 | 10 |
15078 | 13 |
16393 | 10 |
15005 | 12 |
УСТРАНЕНИЕ НЕПОЛАДОК
Несмотря на то, Create Model
Заявление в Amazon Redshift автоматически запускает процесс автопилота SageMaker для создания, обучения и настройки лучшей модели машинного обучения и развертывания этой модели в Amazon Redshift, вы можете просмотреть промежуточные шаги, выполняемые в этом процессе, которые также могут помочь в устранении неполадок если что-то пойдет не так. Вы также можете получить имя задания AutoML из выходных данных команды show model.
При создании модели необходимо указать Простой сервис хранения Amazon (Amazon S3) имя корзины в качестве значения параметра, s3_bucket
. Вы используете эту корзину для обмена данными обучения и артефактами между Amazon Redshift и SageMaker. Amazon Redshift создает в этом сегменте подпапку перед выгрузкой данных обучения. По завершении обучения подпапка и ее содержимое удаляются, если вы не установите параметр s3_garbage_collect
в off
, который можно использовать для устранения неполадок. Для получения дополнительной информации см. СОЗДАТЬ МОДЕЛЬ.
Для получения информации об использовании консоли SageMaker и Студия Amazon SageMakerСм. Создание регрессионных моделей с помощью Amazon Redshift ML.
Заключение
Amazon Redshift ML предоставляет пользователям баз данных подходящую платформу для создания, обучения и настройки моделей с помощью интерфейса SQL. В этом посте мы рассказали вам, как создать модель классификации с несколькими классами. Мы надеемся, что вы сможете воспользоваться преимуществами Amazon Redshift ML, чтобы получить ценные сведения.
Для получения дополнительной информации о создании различных моделей с помощью Amazon Redshift ML см. Создание регрессионных моделей с помощью Amazon Redshift ML , а также прочесть Амазонка Redshift Документация по ML.
Благодарности
Согласно репозиторию машинного обучения UCI, эти данные были предоставлены доктором Дацин Ченом, директором группы общественной аналитики. chend '@' lsbu.ac.uk, Школа инженерии, Лондонский университет Южного берега, Лондон SE1 0AA, Великобритания.
Дуа, Д. и Графф, К. (2019). Репозиторий машинного обучения UCI [http://archive.ics.uci.edu/ml]. Ирвин, Калифорния: Калифорнийский университет, Школа информационных и компьютерных наук.
Об авторах
Фил Бейтс является старшим специалистом по аналитике и архитектором решений в AWS с более чем 25-летним опытом работы с хранилищами данных.
Дебу Панда, главный менеджер по продуктам в AWS, является лидером в области аналитики, платформ приложений и технологий баз данных и имеет более чем 25-летний опыт работы в мире ИТ.
NИкос Кулурис является инженером по разработке программного обеспечения в AWS. Он получил докторскую степень в Калифорнийском университете в Сан-Диего и работал в области баз данных и аналитики.
Энрико Сарторелло является старшим инженером по разработке программного обеспечения в Amazon Web Services. Он помогает клиентам внедрять решения машинного обучения, соответствующие их потребностям, разрабатывая новые функции для Amazon SageMaker. В свободное время он страстно следит за своей футбольной командой и любит совершенствовать свои кулинарные навыки.
- '
- 100
- 11
- 2019
- 2021
- 7
- доступ
- активный
- плюс
- Amazon
- Создатель мудреца Амазонки
- Amazon Web Services
- аналитика
- Применение
- автопилот
- AWS
- Банка
- ЛУЧШЕЕ
- Блог
- строить
- Строительство
- бизнес
- Калифорния
- заботится
- классификация
- код
- Информатика
- содержание
- приготовление
- Создающий
- Лояльность клиентов
- Клиенты
- данным
- набор данных
- информационное хранилище
- База данных
- базы данных
- Развитие
- директор
- инженер
- Проект и
- Окружающая среда
- соответствовать
- функция
- хорошо
- группы
- здесь
- Как
- How To
- HTTPS
- IAM
- ICS
- Личность
- В том числе
- промышленность
- лидер отрасли
- информация
- размышления
- IT
- работа
- присоединиться
- изучение
- загрузка
- Лондон
- Лояльность
- Программа лояльности
- обучение с помощью машины
- Совпадение
- Метрика
- ML
- модель
- месяцев
- Новости
- онлайн
- Платформа
- Точность
- прогноз
- Продукт
- FitPartner™
- что такое варган?
- Сырье
- необработанные данные
- регресс
- розничный торговец
- Run
- sagemaker
- главная
- Сан -
- Сан Диего
- Школа
- Наука
- Серии
- Услуги
- набор
- Поделиться
- просто
- ШЕСТЬ
- навыки
- Футбольный
- Software
- разработка программного обеспечения
- Решения
- РЕШАТЬ
- Южная
- раскол
- Спорт
- SQL
- и политические лидеры
- заявление
- диск
- успешный
- цель
- технологии
- время
- Обучение
- сделка
- Uk
- Университет
- Университет Калифорнии
- пользователей
- ценностное
- Вид
- Склады
- Web
- веб-сервисы
- Мир
- лет