使用 IMDb 知识图提供强大的推荐和搜索—

由柏拉图重新发布

关注： 0

这个由三部分组成的系列演示了如何使用图神经网络 (GNN) 和亚马逊海王星使用生成电影推荐 IMDb 和 Box Office Mojo 电影/电视/OTT 可授权数据包，提供范围广泛的娱乐元数据，包括超过 1 亿的用户评级；超过 11 万演职人员的演职员表； 9 万部电影、电视和娱乐节目；以及来自 60 多个国家/地区的全球票房报告数据。许多 AWS 媒体和娱乐客户通过 AWS数据交换以改进内容发现并提高客户参与度和保留率。

In 部分1，我们讨论了 GNN 的应用，以及如何转换和准备我们的 IMDb 数据以供查询。在这篇文章中，我们讨论了使用 Neptune 生成嵌入的过程，这些嵌入用于执行我们在第 3 部分中的目录外搜索。我们也过去亚马逊海王星机器学习、Neptune 的机器学习 (ML) 功能，以及我们在开发过程中使用的代码。在第 3 部分中，我们介绍了如何将我们的知识图嵌入应用于目录外搜索用例。

解决方案概述

大型连接数据集通常包含有价值的信息，这些信息很难仅使用基于人类直觉的查询来提取。 ML 技术可以帮助在具有数十亿关系的图中找到隐藏的相关性。这些相关性有助于推荐产品、预测信用价值、识别欺诈和许多其他用例。

Neptune ML 可以在数小时而不是数周内在大型图形上构建和训练有用的 ML 模型。为实现这一目标，Neptune ML 使用由亚马逊SageMaker 和深度图库（DGL）（是的开放源码). GNN 是人工智能中的一个新兴领域（例如，请参见图神经网络综合综述). 有关将 GNN 与 DGL 结合使用的实践教程，请参阅使用 Deep Graph Library 学习图神经网络.

在这篇文章中，我们展示了如何在我们的管道中使用 Neptune 来生成嵌入。

下图描述了 IMDb 数据从下载到嵌入生成的整体流程。

我们使用以下 AWS 服务来实施该解决方案：

在这篇文章中，我们将引导您完成以下高级步骤：

设置环境变量
创建导出作业。
创建数据处理作业。
提交训练作业。
下载嵌入。

Neptune ML 命令的代码

我们使用以下命令作为实施此解决方案的一部分：

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

我们使用 neptune_ml export 检查状态或启动 Neptune ML 导出过程，以及 neptune_ml training 启动并检查 Neptune ML 模型训练作业的状态。

有关这些命令和其他命令的更多信息，请参阅在笔记本中使用 Neptune 工作台魔法.

先决条件

要跟进这篇文章，您应该具备以下条件：

An AWS账户
熟悉 SageMaker、Amazon S3 和 AWS CloudFormation
加载到 Neptune 集群中的图形数据（参见部分1 获取更多信息）

设置环境变量

在我们开始之前，您需要通过设置以下变量来设置您的环境： s3_bucket_uri 和 processed_folder. s3_bucket_uri 是第 1 部分中使用的存储桶的名称，并且 processed_folder 是导出作业输出的 Amazon S3 位置。

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

创建导出作业

在第 1 部分中，我们创建了一个 SageMaker 笔记本和导出服务，以将我们的数据以所需格式从 Neptune 数据库集群导出到 Amazon S3。

现在我们的数据已加载并创建了导出服务，我们需要创建一个导出作业来启动它。为此，我们使用 NeptuneExportApiUri 并为导出作业创建参数。在下面的代码中，我们使用变量 expo 和 export_params。组 expo 您的 NeptuneExportApiUri 值，您可以在输出 CloudFormation 堆栈的选项卡。为了 export_params，我们使用您的 Neptune 集群的端点并为 outputS3path，这是导出作业输出的 Amazon S3 位置。

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

要提交导出作业，请使用以下命令：

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

要检查导出作业的状态，请使用以下命令：

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

作业完成后，设置 processed_folder 提供处理结果的 Amazon S3 位置的变量：

export_results['processed_location']= processed_folder

创建数据处理作业

现在导出已完成，我们创建一个数据处理作业来为 Neptune ML 训练过程准备数据。这可以通过几种不同的方式来完成。对于这一步，您可以更改 job_name 和 modelType 变量，但所有其他参数必须保持不变。这段代码的主要部分是 modelType 参数，可以是异构图模型（heterogeneous) 或知识图谱 (kge).

导出作业还包括 training-data-configuration.json. 使用此文件添加或删除您不想为训练提供的任何节点或边（例如，如果您想要预测两个节点之间的链接，您可以在此配置文件中删除该链接）。对于这篇博文，我们使用原始配置文件。有关其他信息，请参阅编辑训练配置文件.

使用以下代码创建数据处理作业：

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

要检查导出作业的状态，请使用以下命令：

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

提交训练作业

处理工作完成后，我们可以开始我们的培训工作，这是我们创建嵌入的地方。我们推荐 ml.m5.24xlarge 实例类型，但您可以更改它以满足您的计算需求。请参见以下代码：

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

我们打印 training_results 变量以获取训练作业的 ID。使用以下命令检查作业的状态：

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

下载嵌入

训练工作完成后，最后一步是下载原始嵌入。以下步骤向您展示了如何下载使用 KGE 创建的嵌入（您可以对 RGCN 使用相同的过程）。

在下面的代码中，我们使用 neptune_ml.get_mapping() 和 get_embeddings() 下载映射文件（mapping.info) 和原始嵌入文件 (entity.npy). 然后我们需要将适当的嵌入映射到它们相应的 ID。

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

要下载 RGCN，请按照与新训练作业名称相同的过程处理数据，并将 modelType 参数设置为 heterogeneous，然后将 modelName 参数设置为 rgcn 看到此处更多细节。完成后，调用 get_mapping 和 get_embeddings 下载新功能的功能 映射.info 和 实体.npy 文件。拥有实体和映射文件后，创建 CSV 文件的过程是相同的。

最后，将您的嵌入上传到您想要的 Amazon S3 位置：

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

确保您记住这个 S3 位置，您将需要在第 3 部分中使用它。

清理

使用完该解决方案后，请务必清理所有资源以避免持续收费。

结论

在本文中，我们讨论了如何使用 Neptune ML 从 IMDb 数据训练 GNN 嵌入。

知识图嵌入的一些相关应用是目录外搜索、内容推荐、定向广告、预测缺失链接、一般搜索和队列分析等概念。目录外搜索是搜索不属于您的内容，并查找或推荐目录中与用户搜索内容尽可能接近的内容的过程。我们将在第 3 部分中深入探讨目录外搜索。

作者简介

马修·罗德斯 是一名数据科学家，我在 Amazon ML 解决方案实验室工作。他擅长构建涉及自然语言处理和计算机视觉等概念的机器学习管道。

迪维亚·巴尔加维（Divya Bhargavi） 是 Amazon ML 解决方案实验室的数据科学家和媒体和娱乐垂直主管，她使用机器学习为 AWS 客户解决高价值业务问题。她致力于图像/视频理解、知识图谱推荐系统、预测性广告用例。

高拉夫·雷尔（Gaurav Rele） 是Amazon ML解决方案实验室的数据科学家，他在这里与来自不同行业的AWS客户合作，以加快他们对机器学习和AWS Cloud服务的使用，以解决他们的业务挑战。

卡兰·辛德瓦尼（Karan Sindwani） 是 Amazon ML 解决方案实验室的数据科学家，负责构建和部署深度学习模型。他专攻计算机视觉领域。在业余时间，他喜欢徒步旅行。

索吉·阿德西纳 是 AWS 的一名应用科学家，他开发了基于图神经网络的模型，用于图任务的机器学习，并应用于欺诈和滥用、知识图谱、推荐系统和生命科学。在业余时间，他喜欢阅读和烹饪。

维迪亚·萨加尔·拉维帕蒂（Vidya Sagar Ravipati） 是 Amazon ML Solutions Lab 的经理，他利用自己在大型分布式系统方面的丰富经验和对机器学习的热情帮助不同垂直行业的 AWS 客户加速他们的 AI 和云采用。

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图区块链。 Web3 元宇宙智能。知识放大。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

时间戳记： 2022 年 12 月 20 日

时间戳记： 2023 年 4 月 24 日

由柏拉图重新发布

AWS 和 Hugging Face 合作使生成 AI 更易于访问且更具成本效益

在 Amazon SageMaker JumpStart 上使用大型语言模型构建无服务器会议摘要后端 | 亚马逊网络服务

Amazon Bedrock 中的知识库现在简化了针对单个文档提出问题 |亚马逊网络服务

使用 Test Workbench 加快 Amazon Lex 聊天机器人开发生命周期 | 亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理