亚马逊肯德拉 是一种易于使用的智能搜索服务,允许您将搜索功能与您的应用程序集成,以便用户可以找到跨数据源存储的信息,例如 亚马逊简单存储服务 、OneDrive 和 Google 云端硬盘; SalesForce、SharePoint 和 Service Now 等应用程序; 和关系数据库,如 亚马逊关系数据库服务 (亚马逊 RDS)。 使用 Amazon Kendra 连接器,您可以将来自多个内容存储库的数据与您的 Amazon Kendra 索引同步。 当最终用户提出自然语言问题时,Amazon Kendra 使用机器学习 (ML) 算法来理解上下文并返回最相关的答案。
Amazon Kendra 的 S3 连接器支持索引文档及其存储在 S3 存储桶中的相关元数据。 通常情况下,您希望确保在 VPC 内运行的应用程序只能访问特定的 S3 存储桶,并且在许多情况下,连接不得通过互联网到达公共端点。 然而,许多客户拥有多个 S3 存储桶,其中一些存储桶可由 Amazon S3 的 VPC 端点. 在本文中,我们将介绍如何使用更新后的支持 VPC 的 Amazon Kendra S3 连接器来使用 VPC 终端节点。
这篇文章提供了通过连接存储在只能从 VPC 访问的 S3 存储桶中的文档来帮助您使用 Amazon Kendra 在 AWS 上创建企业搜索引擎的步骤。 有关详细信息,请参阅 使用 Amazon Kendra 增强企业搜索. 该博文还演示了如何为 Amazon S3 配置连接器,以及如何配置索引在数据源内容更改时如何与数据源同步。
解决方案概述
主要有以下三点改进 亚马逊 Kendra S3 连接器 :
- 专有网络支持 – 连接器现在支持使用您的 亚马逊虚拟私有云 (亚马逊 VPC)网络。 您现在可以使用以下方法安全地连接到 Amazon S3 Amazon S3 的 VPC 端点 通过指定 VPC 连接、子网和安全组。
- 两种同步模式 – 当您计划将 Amazon S3 中的数据源同步到 Amazon Kendra 索引时,您现在可以选择以完全同步模式或新建、修改和删除文档同步模式运行。 在完全同步模式下,每次同步运行时,它都会扫描配置为爬网的根路径下的每个文件夹中的对象,并重新摄取所有文档。 完全刷新使您无需删除和创建新数据源即可重置索引。 在新建、修改和删除文档同步模式下,每次运行同步作业时,它只处理自上次抓取以来添加、修改或删除的对象。 当与定期将新对象附加到现有数据源的数据集一起使用时,增量爬网可以减少运行时间和成本。
- 文档的其他包含和排除模式:除了前缀之外,我们还引入了从索引中包含或排除文档的模式。 两种受支持的模式类型是 Unix 风格的 glob 或文件类型。 您现在可以添加正则表达式模式以包含特定文件夹或从数据源中排除文件夹、文件类型或特定文件。 这对于包含属于不同类别、分类和文件类型的内容的共享数据存储库很有用。
先决条件
对于本演练,您应该具有以下先决条件:
创建和配置您的文档存储库
您必须先将文档加载到S3存储桶中,然后才能在Amazon Kendra中创建索引。 本节包含创建S3存储桶,获取文件并将其加载到存储桶的说明。 完成本节中的所有步骤后,您便拥有了Amazon Kendra可以使用的数据源。
- 点击 AWS管理控制台,在区域列表中,选择美国东部(弗吉尼亚北部)或您选择的任何区域 Amazon Kendra可用于.
- 特色服务.
- 下 存储,选择 S3.
- 在Amazon S3控制台上,选择 创建存储桶.
- 下 一般配置, 提供以下信息:
- 对于存储桶名称, 进入
kendrapost-{your account id}.
- 对于区域,选择您用于部署 Amazon Kendra 索引的同一区域(本文使用
us-east-1
). - 下 桶设置, 阻止公共访问,将所有内容保留为默认值。
- 对于存储桶名称, 进入
- 下 高级设置,将所有内容保留为默认值。
- 创建存储桶.
- 下载 AWS_白皮书.zip 并解压缩文件。
- 在Amazon S3控制台上,选择您刚创建的存储桶,然后选择 上传.
- 上传文件夹
Best Practices
,Databases
,General
及Machine Learning
从解压缩的文件。
在您的存储桶中,您现在应该看到四个文件夹。
添加数据源
A 数据源 是存储要建立索引的文档的位置。 您可以将数据源与Amazon Kendra索引自动同步,以确保搜索正确反映源存储库中的新文档,更新文档或已删除文档。
完成本节中的所有步骤后,您将拥有一个链接到 Amazon Kendra 的数据源。 有关详细信息,请参阅 从数据源添加文档.
在继续之前,请确保索引创建完成并且索引显示为 现有的。 有关更多信息,请参阅 创建索引.
- 在 Amazon Kendra 控制台上,导航到您的索引(对于本文,
kendra-blog-index
). - 点击
kendra-blog-index
页面,选择 添加数据源. - 在 Amazon S3 下,选择 添加连接器.
有关Amazon Kendra支持的不同数据源的更多信息,请参阅 从数据源添加文档.
- 在 指定数据源详细信息 部分,用于 资料来源名称,输入
aws_white_paper
. - 针对 课程描述,输入
AWS White Paper documentation
. - 下一页.
现在你创建一个 AWS身份和访问管理 Amazon Kendra 的 (IAM) 角色。
- 在 定义访问和安全性 页面,用于 IAM角色 部分中,选择 创建一个新角色.
- 对于角色名称,输入
source-role
(您的角色名称前缀为AmazonKendra-
). - 在 配置 VPC 和安全性 部分,选择你的 专有网络, 并输入你的 子网和 VPC 安全组.
有关将 Amazon Kendra 连接到 Amazon Virtual Private Cloud 的更多信息,请参阅 配置 Amazon Kendra 以使用 VPC.
- 下一页.
- 在 配置同步设置 页面,用于 输入数据源位置,输入您创建的S3存储桶:
kendrapost-{your account id}
. - 离开 元数据文件前缀文件夹位置 空白。
默认情况下,元数据文件与文档存储在同一目录中。 如果要将这些文件放在其他文件夹中,则可以添加前缀。 有关更多信息,请参见 Amazon S3 文档元数据.
- 针对 选择解密密钥,取消选中它。
- 针对 附加配置,您可以添加模式以包括或排除某些文件夹或文件。 对于此帖子,请保留默认值。
- 针对 同步模式 选择 新的、修改的或删除的文档同步.
- 针对 频率,选择 按需运行.
此步骤定义数据源与 Amazon Kendra 索引同步的频率。
- 下一页.
- 在 设置字段映射 页,保持默认值。
- 下一页.
- 点击 查看并创建 页面,选择 添加数据源.
- 导航回您的 Kendra 索引。
- 选择你 数据源,然后选择 立即同步 将文档与Amazon Kendra索引同步。
此过程的持续时间取决于您索引的文档数量。 对于此用例,可能需要 15 分钟,之后您应该会看到同步成功的消息。 在 Sync run history 部分,您可以看到同步了 40 个文档。
您的 Amazon Kendra 索引现在已准备好进行自然语言查询。 当您搜索索引时,Amazon Kendra 使用提供的所有数据和元数据为您的搜索查询返回最准确的答案。 在 Amazon Kendra 控制台上,选择 搜索索引内容. 在查询字段中,从诸如“Which AWS service has 11 nines of durability?”之类的查询开始。
有关查询索引的更多信息,请参见 查询索引
同步数据源更改以搜索索引
您的数据源设置为同步任何新的、修改的或删除的数据。 在您可以将数据源与 Amazon Kendra 中的索引增量同步之前,您需要将新文档加载到 S3 存储桶中。
- 在Amazon S3控制台上,选择您刚创建的存储桶,然后选择 上传.
- 上传文件夹
Security
和Well_Architected
从解压缩的文件。
现在您可以同步添加到 S3 存储桶中的新文档:
- 在Amazon Kendra控制台上,选择 资料来源 然后选择您的 S3 数据源。
- 立即同步。
此过程的持续时间取决于您索引的文档数。 对于此用例,可能需要15分钟,之后您应该看到一条消息,说明同步成功。
在 同步运行历史 部分,您可以看到20个文档已同步。
重新索引数据源
在数据源有陈旧信息的情况下,您现在可以重新索引数据源,而无需删除和创建新的数据源。 要修改同步模式并重新索引数据源,请完成以下步骤:
- 在 Amazon Kendra 控制台上,选择 资料来源 然后选择您的 S3 数据源。
- 点击 行动 菜单中选择 编辑。
- 下一页 搬到 第 3 步 – 配置同步设置页面.
- 对于同步模式,选择 完全同步。
- 针对 频率,选择 按需运行.
- 下一页.
- 在 设置字段映射 页,保持默认值。
- 下一页.
- 点击 查看并创建 页面,选择 更新.
现在您可以同步添加到 S3 存储桶中的新文档。
- 在Amazon Kendra控制台上,选择 资料来源 然后选择您的 S3 数据源。
- 立即同步。
在 同步运行历史 部分,您可以看到所有文档都已同步,无论修改列下的先前同步状态如何。
清理
为避免产生未来费用并清除未使用的角色和策略,请删除您创建的资源:
- 在 Amazon Kendra 索引上,选择 指数 在导航窗格中。
- 选择您创建的索引并在 行动 菜单中选择 删除.
- 要确认删除,请在出现提示时输入 Delete 并选择 删除.
等待直到收到确认消息; 该过程最多可能需要15分钟。
- 在 Amazon S3 控制台上, 删除 S3 存储桶.
- 在IAM控制台上, 删除对应的 IAM 角色.
结论
在本文中,您了解了如何使用 Amazon Kendra 通过安全连接到 Amazon S3 部署企业搜索服务,而无需互联网网关或网络地址转换 (NAT) 设备。 您可以使用同步模式为文档启用更快的同步。
还有许多我们没有涵盖的附加功能。 例如:
- 您可以为 Amazon Kendra 索引启用基于用户的访问控制,并根据您已配置的访问控制限制对文档的访问。
- 您可以将对象属性映射到 Amazon Kendra 索引属性,并启用它们以进行分面、搜索并显示在搜索结果中。
- 您可以使用 Amazon Kendra 表格搜索快速从网页(HTML 表格)中查找信息
要了解有关 Amazon Kendra 的更多信息,请参阅 Amazon Kendra 开发人员指南.
作者简介
马兰钱德拉塞卡兰 是 Amazon Web Services 的高级解决方案架构师,与我们的企业客户合作。 工作之余,他喜欢旅游。
阿琼·阿格拉瓦尔 是 AWS 的软件工程师,目前与 Amazon Kendra 团队合作开发企业搜索引擎。 他热衷于新技术和解决现实世界的问题。 工作之余,他喜欢远足和旅行。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/search-for-answers-accurately-using-amazon-kendra-s3-connector-with-vpc-support/
- 10
- 100
- 11
- 7
- a
- 关于
- ACCESS
- 无障碍
- 账号管理
- 精准的
- 准确
- 横过
- 添加
- 增加
- 额外
- 地址
- 后
- 算法
- 所有类型
- 允许
- 已经
- Amazon
- 亚马逊肯德拉
- 亚马逊RDS
- 亚马逊网络服务
- 和
- 答案
- 应用领域
- 相关
- 属性
- 自动
- 可使用
- 避免
- AWS
- 背部
- 基于
- 基础
- before
- 能力
- 案件
- 例
- 类别
- 一定
- 更改
- 收费
- 选择
- 分类
- 云端技术
- 柱
- 完成
- 完成
- 确认
- 分享链接
- 连接
- 地都
- 安慰
- 包含
- 内容
- 上下文
- 继续
- 控制
- 控制
- 正确地
- 相应
- 价格
- 外壳
- 创建信息图
- 创建
- 创建
- 目前
- 合作伙伴
- data
- 数据库
- 数据库
- 数据集
- 默认
- 定义
- 演示
- 依靠
- 部署
- 描述
- 开发商
- 设备
- 不同
- 屏 显:
- 文件
- 文件
- 不会
- 驾驶
- 耐久力
- 东部
- 易于使用
- enable
- 使
- 发动机
- 工程师
- 输入
- 企业
- 企业客户
- 企业搜索
- 醚(ETH)
- 所有的
- 一切
- 例子
- 现有
- 特征
- 部分
- 文件
- 档
- 找到最适合您的地方
- 以下
- 频率
- 止
- ,
- 未来
- 网关
- 得到
- 谷歌
- 组的
- 有
- 帮助
- 远足
- 历史
- 创新中心
- How To
- 但是
- HTML
- HTTPS
- IAM
- 身分
- 改善
- in
- 包括
- 包容
- 指数
- 信息
- 说明
- 整合
- 智能化
- 网络
- 介绍
- 不管
- IT
- 工作
- 保持
- 语言
- 名:
- 学习用品
- 知道
- 学习
- 离开
- 链接
- 清单
- 加载
- 圖書分館的位置
- 机
- 机器学习
- 主要
- 使
- 颠覆性技术
- 许多
- 地图
- 菜单
- 的话
- 元数据
- 分钟
- ML
- 时尚
- 模式
- 改性
- 修改
- 更多
- 最先进的
- 移动
- 多
- 姓名
- 自然
- 自然语言
- 导航
- 旅游导航
- 需求
- 网络
- 网络
- 全新
- 数
- 对象
- 对象
- OneDrive
- 学校以外
- 己
- 面包
- 纸类
- 多情
- 径
- 模式
- 模式
- 地方
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 政策
- 帖子
- 先决条件
- 以前
- 私立
- 问题
- 过程
- 过程
- 提供
- 提供
- 提供
- 国家
- 有疑问吗?
- 更快
- 很快
- 达到
- 准备
- 真实的世界
- 减少
- 反映
- 地区
- 定期
- 相应
- 要求
- 资源
- 限制
- 成果
- 回报
- 角色
- 角色
- 根
- 运行
- 运行
- Salesforce的
- 同
- 脚本
- 始你
- 搜索
- 搜索引擎
- 部分
- 安全
- 安全
- 保安
- 前辈
- 服务
- 特色服务
- 集
- 设置
- 共用的,
- 的SharePoint
- 应该
- 作品
- 简易
- 自
- So
- 软件
- 软件工程师
- 解决方案
- 解决
- 一些
- 来源
- 来源
- 具体的
- 开始
- Status
- 步
- 步骤
- 存储
- 存储
- 商店
- 样式
- 子网
- 子网
- 成功
- 这样
- SUPPORT
- 支持
- 支持
- 同步
- 采取
- 团队
- 专业技术
- 其
- 三
- 次
- 至
- 翻译
- 旅行
- 类型
- 下
- 理解
- UNIX
- 未使用
- 更新
- us
- 使用
- 用例
- 用户
- 价值观
- 弗吉尼亚州
- 在线会议
- 演练
- 卷筒纸
- Web服务
- 这
- 白色
- 白皮书
- 中
- 也完全不需要
- 工作
- 加工
- 您一站式解决方案
- 和风网
- 压缩