这个由三部分组成的系列演示了如何使用图神经网络 (GNN) 和 亚马逊海王星 使用生成电影推荐 IMDb 和 Box Office Mojo 电影/电视/OTT 可授权数据包,提供范围广泛的娱乐元数据,包括超过 1 亿的用户评级; 超过 11 万演职人员的演职员表; 9 万部电影、电视和娱乐节目; 以及来自 60 多个国家/地区的全球票房报告数据。 许多 AWS 媒体和娱乐客户通过 AWS数据交换 以改进内容发现并提高客户参与度和保留率。
In 部分1,我们讨论了 GNN 的应用,以及如何转换和准备我们的 IMDb 数据以供查询。 在这篇文章中,我们讨论了使用 Neptune 生成嵌入的过程,这些嵌入用于执行我们在第 3 部分中的目录外搜索。 我们也过去 亚马逊海王星机器学习、Neptune 的机器学习 (ML) 功能,以及我们在开发过程中使用的代码。 在第 3 部分中,我们介绍了如何将我们的知识图嵌入应用于目录外搜索用例。
解决方案概述
大型连接数据集通常包含有价值的信息,这些信息很难仅使用基于人类直觉的查询来提取。 ML 技术可以帮助在具有数十亿关系的图中找到隐藏的相关性。 这些相关性有助于推荐产品、预测信用价值、识别欺诈和许多其他用例。
Neptune ML 可以在数小时而不是数周内在大型图形上构建和训练有用的 ML 模型。 为实现这一目标,Neptune ML 使用由 亚马逊SageMaker 和 深度图库(DGL) (是的 开放源码). GNN 是人工智能中的一个新兴领域(例如,请参见 图神经网络综合综述). 有关将 GNN 与 DGL 结合使用的实践教程,请参阅 使用 Deep Graph Library 学习图神经网络.
在这篇文章中,我们展示了如何在我们的管道中使用 Neptune 来生成嵌入。
下图描述了 IMDb 数据从下载到嵌入生成的整体流程。
我们使用以下 AWS 服务来实施该解决方案:
在这篇文章中,我们将引导您完成以下高级步骤:
- 设置环境变量
- 创建导出作业。
- 创建数据处理作业。
- 提交训练作业。
- 下载嵌入。
Neptune ML 命令的代码
我们使用以下命令作为实施此解决方案的一部分:
我们使用 neptune_ml export
检查状态或启动 Neptune ML 导出过程,以及 neptune_ml training
启动并检查 Neptune ML 模型训练作业的状态。
有关这些命令和其他命令的更多信息,请参阅 在笔记本中使用 Neptune 工作台魔法.
先决条件
要跟进这篇文章,您应该具备以下条件:
设置环境变量
在我们开始之前,您需要通过设置以下变量来设置您的环境: s3_bucket_uri
和 processed_folder
. s3_bucket_uri
是第 1 部分中使用的存储桶的名称,并且 processed_folder
是导出作业输出的 Amazon S3 位置。
创建导出作业
在第 1 部分中,我们创建了一个 SageMaker 笔记本和导出服务,以将我们的数据以所需格式从 Neptune 数据库集群导出到 Amazon S3。
现在我们的数据已加载并创建了导出服务,我们需要创建一个导出作业来启动它。 为此,我们使用 NeptuneExportApiUri
并为导出作业创建参数。 在下面的代码中,我们使用变量 expo
和 export_params
。 组 expo
您的 NeptuneExportApiUri
值,您可以在 输出 CloudFormation 堆栈的选项卡。 为了 export_params
,我们使用您的 Neptune 集群的端点并为 outputS3path
,这是导出作业输出的 Amazon S3 位置。
要提交导出作业,请使用以下命令:
要检查导出作业的状态,请使用以下命令:
作业完成后,设置 processed_folder
提供处理结果的 Amazon S3 位置的变量:
创建数据处理作业
现在导出已完成,我们创建一个数据处理作业来为 Neptune ML 训练过程准备数据。 这可以通过几种不同的方式来完成。 对于这一步,您可以更改 job_name
和 modelType
变量,但所有其他参数必须保持不变。 这段代码的主要部分是 modelType
参数,可以是异构图模型(heterogeneous
) 或知识图谱 (kge
).
导出作业还包括 training-data-configuration.json
. 使用此文件添加或删除您不想为训练提供的任何节点或边(例如,如果您想要预测两个节点之间的链接,您可以在此配置文件中删除该链接)。 对于这篇博文,我们使用原始配置文件。 有关其他信息,请参阅 编辑训练配置文件.
使用以下代码创建数据处理作业:
要检查导出作业的状态,请使用以下命令:
提交训练作业
处理工作完成后,我们可以开始我们的培训工作,这是我们创建嵌入的地方。 我们推荐 ml.m5.24xlarge 实例类型,但您可以更改它以满足您的计算需求。 请参见以下代码:
我们打印 training_results 变量以获取训练作业的 ID。 使用以下命令检查作业的状态:
%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results
下载嵌入
训练工作完成后,最后一步是下载原始嵌入。 以下步骤向您展示了如何下载使用 KGE 创建的嵌入(您可以对 RGCN 使用相同的过程)。
在下面的代码中,我们使用 neptune_ml.get_mapping()
和 get_embeddings()
下载映射文件(mapping.info
) 和原始嵌入文件 (entity.npy
). 然后我们需要将适当的嵌入映射到它们相应的 ID。
要下载 RGCN,请按照与新训练作业名称相同的过程处理数据,并将 modelType 参数设置为 heterogeneous
,然后将 modelName 参数设置为 rgcn
看到 此处 更多细节。 完成后,调用 get_mapping
和 get_embeddings
下载新功能的功能 映射.info 和 实体.npy 文件。 拥有实体和映射文件后,创建 CSV 文件的过程是相同的。
最后,将您的嵌入上传到您想要的 Amazon S3 位置:
确保您记住这个 S3 位置,您将需要在第 3 部分中使用它。
清理
使用完该解决方案后,请务必清理所有资源以避免持续收费。
结论
在本文中,我们讨论了如何使用 Neptune ML 从 IMDb 数据训练 GNN 嵌入。
知识图嵌入的一些相关应用是目录外搜索、内容推荐、定向广告、预测缺失链接、一般搜索和队列分析等概念。 目录外搜索是搜索不属于您的内容,并查找或推荐目录中与用户搜索内容尽可能接近的内容的过程。 我们将在第 3 部分中深入探讨目录外搜索。
作者简介
马修·罗德斯 是一名数据科学家,我在 Amazon ML 解决方案实验室工作。 他擅长构建涉及自然语言处理和计算机视觉等概念的机器学习管道。
迪维亚·巴尔加维(Divya Bhargavi) 是 Amazon ML 解决方案实验室的数据科学家和媒体和娱乐垂直主管,她使用机器学习为 AWS 客户解决高价值业务问题。 她致力于图像/视频理解、知识图谱推荐系统、预测性广告用例。
高拉夫·雷尔(Gaurav Rele) 是Amazon ML解决方案实验室的数据科学家,他在这里与来自不同行业的AWS客户合作,以加快他们对机器学习和AWS Cloud服务的使用,以解决他们的业务挑战。
卡兰·辛德瓦尼(Karan Sindwani) 是 Amazon ML 解决方案实验室的数据科学家,负责构建和部署深度学习模型。 他专攻计算机视觉领域。 在业余时间,他喜欢徒步旅行。
索吉·阿德西纳 是 AWS 的一名应用科学家,他开发了基于图神经网络的模型,用于图任务的机器学习,并应用于欺诈和滥用、知识图谱、推荐系统和生命科学。 在业余时间,他喜欢阅读和烹饪。
维迪亚·萨加尔·拉维帕蒂(Vidya Sagar Ravipati) 是 Amazon ML Solutions Lab 的经理,他利用自己在大型分布式系统方面的丰富经验和对机器学习的热情帮助不同垂直行业的 AWS 客户加速他们的 AI 和云采用。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/
- 1
- 10
- 100
- 11
- 116
- 7
- 9
- a
- 关于
- 滥用
- 加快
- 横过
- 额外
- 附加信息
- 采用
- 广告
- 后
- AI
- 所有类型
- 单
- Amazon
- 亚马逊机器学习解决方案实验室
- 分析
- 和
- 应用领域
- 应用的
- 使用
- 适当
- 国家 / 地区
- 人造的
- 人工智能
- AWS
- 基于
- 之间
- 亿
- 十亿美元
- 博客
- 盒子
- 票房
- 建立
- 建筑物
- 建立
- 商业
- 呼叫
- 案件
- 例
- 检索目录
- 挑战
- 更改
- 收费
- 查
- 关闭
- 云端技术
- 云采用
- 云服务
- 簇
- 码
- 队列
- 完成
- 全面
- 一台
- 计算机视觉
- 计算
- 概念
- 进行
- 配置
- 已联繫
- 内容
- 相应
- 国家
- 创建信息图
- 创建
- 信用
- 积分
- 顾客
- 客户参与
- 合作伙伴
- data
- 数据处理
- 数据科学家
- 数据集
- 深
- 深入学习
- 更深
- 部署
- 详情
- 研发支持
- 发展
- DGL
- 不同
- 发现
- 讨论
- 讨论
- 分布
- 分布式系统
- 别
- 下载
- 或
- 新兴经济体的新市场。
- 端点
- 订婚
- 娱乐
- 实体
- 环境
- 醚(ETH)
- 例子
- 体验
- 出口
- 提取
- 专栏
- 少数
- 部分
- 文件
- 档
- 找到最适合您的地方
- 寻找
- 流
- 遵循
- 以下
- 格式
- 骗局
- 止
- ,
- 功能
- 其他咨询
- 生成
- 代
- 得到
- 全球
- Go
- 图形
- 图表
- 动手
- 硬
- 帮助
- 有帮助
- 老旧房屋
- 高水平
- HOURS
- 创新中心
- How To
- HTML
- HTTPS
- 人
- 相同
- 确定
- 实施
- 实施
- 改善
- in
- 包括
- 包含
- 增加
- 指数
- 行业中的应用:
- info
- 信息
- 例
- 代替
- 房源搜索
- 涉及
- IT
- 工作
- JSON
- 键
- 知识
- 实验室
- 语言
- 大
- 大规模
- 名:
- 铅
- 学习
- 杠杆
- 自学资料库
- 执照
- 生活
- 生命科学
- 友情链接
- 链接
- 圖書分館的位置
- 机
- 机器学习
- 主要
- 制作
- 经理
- 许多
- 地图
- 制图
- 媒体
- 中等
- 成员
- 元数据
- 百万
- 失踪
- ML
- 模型
- 模型
- 更多
- 电影
- 姓名
- 自然
- 自然语言处理
- 需求
- 需要
- 海王星
- 基于网络的
- 网络
- 神经网络
- 全新
- 节点
- 笔记本
- 办公
- 正在进行
- 原版的
- 其他名称
- 最划算
- 己
- 包
- 参数
- 参数
- 部分
- 情
- 管道
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 可能
- 帖子
- 功率
- 供电
- 预测
- 预测
- Prepare
- 打印
- 问题
- 过程
- 处理
- 热销产品
- 本人简介
- 提供
- 提供
- 范围
- 评分
- 原
- 阅读
- 建议
- 推荐
- 建议
- 建议
- 有关
- 关系
- 留
- 纪念
- 去掉
- 报告
- 必须
- 资源
- 成果
- 保留
- sagemaker
- 同
- 科学
- 科学家
- 搜索
- 搜索
- 系列
- 服务
- 特色服务
- 集
- 设置
- 应该
- 显示
- 方案,
- 解决方案
- 解决
- 解决
- 专业
- 堆
- 开始
- Status
- 步
- 步骤
- 商店
- 提交
- 这样
- 如下
- 调查
- 产品
- 针对
- 任务
- 技术
- 专业技术
- 区域
- 其
- 通过
- 次
- 标题
- 至
- 培训
- 产品培训
- 改造
- true
- 教程
- tv
- 理解
- 使用
- 用例
- 用户
- 有价值
- 折扣值
- 广阔
- 版本
- 垂直
- 愿景
- 方法
- 周
- 什么是
- 这
- 宽
- 大范围
- 将
- 加工
- 合作
- 您一站式解决方案
- 和风网