DotData извлекает ключевые функции данных, чтобы сделать машинное обучение полезным

Переиздано Платоном

Читают: 0

Повысьте уровень технологий и стратегии корпоративных данных на Преобразовать НЕТ.

Многие эксперты по искусственному интеллекту говорят, что запуск алгоритма ИИ — это только часть работы. Подготовка данных и их очистка — это только начало, но настоящая задача — понять, что изучать и где искать ответ. Он скрыт в книге транзакций? А может в цветовом узоре? Чтобы найти нужные функции для анализа алгоритма ИИ, часто требуется глубокое знание самого бизнеса, чтобы алгоритмы ИИ могли ориентироваться в нужном месте.

DotData хочет автоматизировать эту работу. Компания хочет помочь предприятиям выделить лучшие функции для Обработка AIи найти лучшее место для поиска таких функций. Компания запустила DotData Py Lite, контейнерную версию своего набора инструментов машинного обучения, которая позволяет пользователям быстро создавать доказательства концепции (POC). Владельцы данных, ищущие ответы, могут либо загрузить набор инструментов и запустить его локально, либо запустить в облачном сервисе DotData.

VentureBeat поговорил с основателем и генеральным директором DotData Рёхеем Фудзимаки, чтобы обсудить новый продукт и его роль в более широком подходе компании к упрощению рабочих нагрузок ИИ для всех, у кого больше данных, чем времени.

VentureBeat: Вы думаете о своем инструменте больше как о базе данных или об искусственном интеллекте?

Рёхей Фудзимаки: Наш инструмент больше похож на механизм искусственного интеллекта, но он тесно интегрирован с данными. Во многих компаниях существует три основных этапа обработки данных. Во-первых, есть озеро данных, которое в основном состоит из необработанных данных. Затем идет этап хранилища данных, который несколько очищен и спроектирован. Он в хорошем состоянии, но его еще не легко использовать. Затем есть витрина данных, которая представляет собой целеустремленный набор таблиц данных. Он легко потребляется бизнес-аналитика или алгоритм машинного обучения.

Мы начинаем работать с данными между озеро данных и хранилище данных сцена. [Затем мы готовим его] для алгоритмов машинного обучения. Наша действительно основная компетенция, наша основная способность — автоматизировать этот процесс.

VentureBeat: Процесс поиска нужных битов данных в огромном море?

Фудзимаки: Мы думаем об этом как о «конструировании функций», которое начинается с необработанных данных, где-то между этапами озера данных и хранилища данных, выполняет большую очистку данных и подачу алгоритму машинного обучения.

VentureBeat: Машинное обучение помогает найти важные функции?

Фудзимаки: Да. Функциональная инженерия в основном настраивает проблему машинного обучения на основе знаний предметной области.

VentureBeat: Насколько хорошо это работает?

Фудзимаки: Один из наших лучших примеров из практики клиентов связан с бизнесом по управлению подписками. Там компания использует свою платформу для управления клиентами. Проблема в том, что есть много отклоненных или задержанных транзакций. Для них это проблема почти на 300 миллионов долларов.

До появления DotData они вручную создавали 112 запросов для создания набора функций на основе 14 исходных столбцов из одной таблицы. Их точность составляла около 75%. Но мы взяли семь таблиц из их набора данных и обнаружили 122,000 90 шаблонов функций. Точность подскочила до более чем XNUMX%.

VentureBeat: Итак, обнаруженные вручную признаки были хороши, но ваше машинное обучение нашло в тысячу раз больше признаков и точность подскочила?

Фудзимаки: Да. Эта точность является просто техническим улучшением. В итоге им удалось избежать почти 35% плохих транзакций. Это почти 100 миллионов долларов.

Мы перешли от 14 различных столбцов в одной таблице к поиску почти по 300 столбцам в семи таблицах. Наша платформа будет определять, какие шаблоны функций являются более перспективными и важными, и с помощью наших важных функций они могут значительно повысить точность.

VentureBeat: Итак, какие функции он обнаруживает?

Фудзимаки: Давайте рассмотрим еще один пример прогнозирования спроса на продукт. Обнаруженные функции очень и очень просты. Машинное обучение использует временную агрегацию из таблиц транзакций, таких как продажи, за последние 14 дней. Очевидно, это может повлиять на спрос на продукцию на следующей неделе. Для продаж или предметов домашнего обихода алгоритм машинного обучения обнаружил, что 28-дневное окно было лучшим предсказателем.

VentureBeat: Это просто одно окно?

Фудзимаки: Наш движок может автоматически обнаруживать определенные модели тенденций продаж для предметов домашнего обихода. Это называется частичной или годовой периодической моделью. Алгоритм будет обнаруживать ежегодные периодические закономерности, которые особенно важны для эффекта сезонного события, такого как Рождество или День Благодарения. В этом случае есть много истории платежей, очень привлекательная история.

VentureBeat: Трудно ли найти хорошие данные?

Фудзимаки: Его часто бывает много, но это не всегда хорошо. Некоторые клиенты-производители изучают свои цепочки поставок. Мне понравился этот кейс от производственной компании. Они анализируют данные датчиков с помощью DotData, и их очень много. Они хотят обнаружить некоторые закономерности сбоев или попытаться максимизировать отдачу от производственного процесса. Мы поддерживаем их, внедряя нашу систему прогнозирования потоков на датчики [Интернета вещей] на заводе.

VentureBeat: Ваш инструмент избавляет человека от необходимости искать и пытаться представить все эти комбинации. Это должно упростить науку о данных.

Фудзимаки: Традиционно этот тип разработки признаков требовал больших навыков работы с данными, потому что данные очень большие и комбинаций очень много.

Большинство наших пользователей сегодня не специалисты по данным. Есть пара профилей. Один похож на пользователя [бизнес-аналитики]. Как эксперт по визуализации, который создает информационную панель для описательного анализа и хочет перейти к прогнозному анализу.

Другой — инженер данных или системный инженер, знакомый с такой концепцией модели данных. Системные инженеры могут легко понять и использовать наш инструмент для машинного обучения и искусственного интеллекта. Интерес со стороны самих специалистов по данным растет, но наш основной продукт в основном полезен для таких людей.

VentureBeat: Вы автоматизируете процесс обнаружения?

Фудзимаки: По сути, наши клиенты были очень, очень удивлены, когда мы показали, что автоматизируем извлечение этой функции. Это самая сложная и длинная часть. Обычно люди говорят, что это невозможно автоматизировать, потому что для этого требуется много знаний в предметной области. Но мы можем автоматизировать эту часть. Мы можем автоматизировать процесс до того, как машинное обучение манипулирует данными.

VentureBeat: Так что это не только этап поиска лучших функций, но и работа, которая предшествует этому. Работа по выявлению самих признаков.

Фудзимаки: Да! Мы используем ИИ для создания ввод ИИ. Есть много игроков, которые могут автоматизировать финальное машинное обучение. Большинство наших клиентов выбрали DotData, потому что мы можем сначала автоматизировать часть поиска функций. Эта часть — наш секретный соус, и мы этим очень гордимся.

VentureBeat

Миссия VentureBeat - стать цифровой городской площадью, где лица, принимающие технические решения, могут получить знания о трансформирующих технологиях и транзакциях. На нашем сайте представлена важная информация о технологиях и стратегиях обработки данных, которая поможет вам руководить своей организацией. Мы приглашаем вас стать членом нашего сообщества, чтобы получить доступ:

актуальная информация по интересующей вас тематике
наши новостные рассылки
закрытый контент для лидеров мнений и льготный доступ к нашим ценным мероприятиям, таким как Преобразовать НЕТ: Узнать больше
сетевые функции и многое другое

Становиться участником

Источник: https://venturebeat.com/2021/06/11/dotdata-extracts-key-data-features-to-make-machine-learning-useful/

Отметка времени: 11 июня 2021