Мощные рекомендации и поиск с использованием графика знаний IMDb

Переиздано Платоном

Читают: 0

Эта серия из трех частей демонстрирует, как использовать графовые нейронные сети (GNN) и Амазонка Нептун генерировать рекомендации фильмов с помощью IMDb и Box Office Mojo Movies/TV/OTT лицензируемый пакет данных, который предоставляет широкий спектр развлекательных метаданных, включая более 1 миллиарда пользовательских рейтингов; кредиты для более чем 11 миллионов актеров и членов съемочной группы; 9 миллионов наименований фильмов, телепередач и развлекательных программ; и глобальные отчетные данные о кассовых сборах из более чем 60 стран. Многие клиенты AWS в сфере медиа и развлечений лицензируют данные IMDb через Обмен данными AWS для улучшения обнаружения контента и повышения вовлеченности и удержания клиентов.

In Часть 1, мы обсудили применение GNN, а также то, как преобразовать и подготовить наши данные IMDb для запросов. В этом посте мы обсуждаем процесс использования Neptune для создания вложений, используемых для поиска вне каталога в части 3. Мы также переходим Amazon Нептун ML, функция машинного обучения (ML) Neptune и код, который мы используем в процессе разработки. В части 3 мы рассмотрим, как применить наши вложения графа знаний к варианту использования поиска вне каталога.

Обзор решения

Большие связанные наборы данных часто содержат ценную информацию, которую трудно извлечь с помощью запросов, основанных только на человеческой интуиции. Методы машинного обучения могут помочь найти скрытые корреляции в графиках с миллиардами взаимосвязей. Эти корреляции могут быть полезны для рекомендации продуктов, прогнозирования кредитоспособности, выявления мошенничества и многих других вариантов использования.

Neptune ML позволяет создавать и обучать полезные модели машинного обучения на больших графиках за часы, а не за недели. Для этого Neptune ML использует технологию GNN, основанную на Создатель мудреца Амазонки и Библиотека Deep Graph (DGL) (который открытые источники). GNN — это новая область искусственного интеллекта (например, см. Всесторонний обзор графовых нейронных сетей). Практическое руководство по использованию GNN с DGL см. Изучение графовых нейронных сетей с помощью Deep Graph Library.

В этом посте мы покажем, как использовать Neptune в нашем пайплайне для создания вложений.

На следующей диаграмме показан общий поток данных IMDb от загрузки до создания встраивания.

Для реализации решения мы используем следующие сервисы AWS:

В этом посте мы проведем вас через следующие шаги высокого уровня:

Настройте переменные среды
Создайте задание на экспорт.
Создайте задание обработки данных.
Отправьте задание на обучение.
Скачать вложения.

Код для команд Neptune ML

Мы используем следующие команды как часть реализации этого решения:

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

МЫ ИСПОЛЬЗУЕМ neptune_ml export чтобы проверить статус или запустить процесс экспорта Neptune ML, а также neptune_ml training для запуска и проверки состояния задания обучения модели Neptune ML.

Дополнительные сведения об этих и других командах см. Использование магии верстака Neptune в ваших ноутбуках.

Предпосылки

Чтобы следовать этому посту, у вас должно быть следующее:

An Аккаунт AWS
Знакомство с SageMaker, Amazon S3 и AWS CloudFormation.
Данные графика, загруженные в кластер Neptune (см. Часть 1 Чтобы получить больше информации)

Настройте переменные среды

Прежде чем мы начнем, вам нужно настроить среду, установив следующие переменные: s3_bucket_uri и processed_folder. s3_bucket_uri - это имя ведра, используемого в Части 1, и processed_folder — это расположение Amazon S3 для выходных данных задания экспорта.

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

Создать задание на экспорт

В части 1 мы создали записную книжку SageMaker и службу экспорта для экспорта наших данных из кластера Neptune DB в Amazon S3 в требуемом формате.

Теперь, когда наши данные загружены и сервис экспорта создан, нам нужно создать задание экспорта и запустить его. Для этого мы используем NeptuneExportApiUri и создайте параметры для задания экспорта. В следующем коде мы используем переменные expo и export_params, Набор expo . NeptuneExportApiUri значение, которое вы можете найти на Выходы вкладку вашего стека CloudFormation. За export_params, мы используем конечную точку вашего кластера Neptune и предоставляем значение для outputS3path, который является расположением Amazon S3 для выходных данных задания экспорта.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

Чтобы отправить задание на экспорт, используйте следующую команду:

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

Чтобы проверить статус задания экспорта, используйте следующую команду:

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

После завершения работы установите processed_folder для указания местоположения Amazon S3 обработанных результатов:

export_results['processed_location']= processed_folder

Создать задание обработки данных

Теперь, когда экспорт завершен, мы создаем задание обработки данных, чтобы подготовить данные для процесса обучения Neptune ML. Это можно сделать несколькими способами. Для этого шага вы можете изменить job_name и modelType переменные, но все остальные параметры должны оставаться неизменными. Основной частью этого кода является modelType параметром, который может быть либо разнородными графовыми моделями (heterogeneous) или графы знаний (kge).

Задание экспорта также включает training-data-configuration.json. Используйте этот файл, чтобы добавить или удалить любые узлы или ребра, которые вы не хотите предоставлять для обучения (например, если вы хотите предсказать связь между двумя узлами, вы можете удалить эту связь в этом файле конфигурации). Для этого сообщения в блоге мы используем исходный файл конфигурации. Для получения дополнительной информации см. Редактирование файла конфигурации обучения.

Создайте задание обработки данных с помощью следующего кода:

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

Чтобы проверить статус задания экспорта, используйте следующую команду:

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

Отправить работу по обучению

После того, как работа по обработке завершена, мы можем начать нашу работу по обучению, где мы создаем наши вложения. Мы рекомендуем тип экземпляра ml.m5.24xlarge, но вы можете изменить его в соответствии со своими вычислительными потребностями. См. следующий код:

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

Мы печатаем переменную training_results, чтобы получить идентификатор задания обучения. Используйте следующую команду, чтобы проверить статус вашего задания:

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

Скачать вложения

После того, как ваша учебная работа будет завершена, последним шагом будет загрузка необработанных вложений. Следующие шаги показывают, как загружать вложения, созданные с помощью KGE (вы можете использовать тот же процесс для RGCN).

В следующем коде мы используем neptune_ml.get_mapping() и get_embeddings() скачать файл сопоставления (mapping.info) и необработанный файл вложений (entity.npy). Затем нам нужно сопоставить соответствующие вложения с их соответствующими идентификаторами.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

Чтобы загрузить RGCN, выполните тот же процесс с новым именем задания обучения, обработав данные с параметром modelType, установленным на heterogeneous, затем обучите свою модель с параметром modelName, установленным на rgcn посмотреть здесь Больше подробностей. Как только это будет сделано, позвоните в get_mapping и get_embeddings функции для загрузки новых картографирование.info и сущность.npy файлы. После того, как у вас есть файлы сущности и сопоставления, процесс создания файла CSV идентичен.

Наконец, загрузите свои вложения в желаемое местоположение Amazon S3:

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

Убедитесь, что вы помните это местоположение S3, вам нужно будет использовать его в части 3.

Убирать

Когда вы закончите использовать решение, обязательно очистите все ресурсы, чтобы избежать текущих расходов.

Заключение

В этом посте мы обсудили, как использовать Neptune ML для обучения встраиванию GNN на основе данных IMDb.

Некоторыми связанными приложениями встраивания графа знаний являются такие концепции, как поиск вне каталога, рекомендации по содержанию, целевая реклама, прогнозирование отсутствующих ссылок, общий поиск и когортный анализ. Поиск вне каталога — это процесс поиска содержимого, которым вы не владеете, а также поиска или рекомендации содержимого в вашем каталоге, максимально близкого к тому, что искал пользователь. Мы углубимся в поиск вне каталога в части 3.

Об авторах

Мэтью Родс — специалист по данным. Я работаю в лаборатории решений Amazon ML. Он специализируется на построении конвейеров машинного обучения, включающих такие концепции, как обработка естественного языка и компьютерное зрение.

Дивья Бхаргави является специалистом по данным и руководителем направления медиа и развлечений в лаборатории решений Amazon ML, где она решает важные бизнес-задачи для клиентов AWS с помощью машинного обучения. Она работает над пониманием изображений/видео, рекомендательными системами графов знаний, предиктивными примерами использования рекламы.

Гаурав Реле — специалист по данным в лаборатории решений Amazon ML, где он работает с клиентами AWS в разных вертикалях, чтобы ускорить использование ими машинного обучения и облачных сервисов AWS для решения своих бизнес-задач.

Каран Синдвани — специалист по данным в лаборатории Amazon ML Solutions Lab, где он создает и развертывает модели глубокого обучения. Он специализируется в области компьютерного зрения. В свободное время любит пешие прогулки.

Соджи Адешина является прикладным ученым в AWS, где он разрабатывает модели на основе графовых нейронных сетей для машинного обучения на графовых задачах с приложениями для мошенничества и злоупотреблений, графов знаний, рекомендательных систем и наук о жизни. В свободное время любит читать и готовить.

Видья Сагар Равипати является менеджером в лаборатории решений Amazon ML, где он использует свой обширный опыт работы с крупномасштабными распределенными системами и свою страсть к машинному обучению, чтобы помочь клиентам AWS из разных отраслевых вертикалей ускорить внедрение ИИ и облачных технологий.

SEO-контент и PR-распределение. Получите усиление сегодня.
Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

Отметка времени: 20 декабря 2022

Отметка времени: 1 Марта, 2023

Переиздано Платоном

Создавайте интерактивные приложения, основанные на знаниях, используя LlamaIndex и Llama 2-Chat | Веб-сервисы Amazon

Индексируйте свой контент Alfresco с помощью нового коннектора Amazon Kendra Alfresco | Веб-сервисы Амазонки

Предотвращение захвата учетной записи при входе в систему с помощью новой модели Account Takeover Insights в Amazon Fraud Detector.

Точный поиск ответов с помощью Amazon Kendra S3 Connector с поддержкой VPC

Упростите непрерывное изучение пользовательских моделей Amazon Comprehend с помощью маховика Comprehend

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись