亚马逊Textract 是一种机器学习 (ML) 服务,可自动从任何文档或图像中提取文本、手写内容和数据。 为了更简单地评估 Amazon Textract 的功能,我们在 Amazon Textract 控制台上推出了一项新的批量文档上传器功能,使您无需编写任何代码即可快速处理自己的文档集。
在这篇文章中,我们介绍了何时以及如何使用 Amazon Textract 批量文档上传器来评估 Amazon Textract 如何处理您的文档。
解决方案概述
Bulk Document Uploader 应用于针对预定用例快速评估 Amazon Textract。 通过直观的 UI 同时上传多个文档,您可以轻松衡量 Amazon Textract 在您的文档上的表现。
您一次最多可以上传和处理 150 个文件。 与现有的 Amazon Textract 控制台演示对文档数量、文档大小和最大允许页数施加人为限制不同,Bulk Document Uploader 支持处理每个请求最多 150 个文档,并且具有与Amazon Textract API。 这使您可以更有效地评估更大的文档集。
批量文档上传器输出标准的 Amazon Textract JSON 响应和 CSV 文件。 结果以 JSON 格式提供,以便于进行编程分析。 此外,还提供了一个带有置信度分数的人类可读 CSV 文件,用于对提取的信息进行简单比较和评估。
使用此功能时,请记住以下几点:
- 批量文件上传器通过以下方式处理文件 异步操作. 您可以在 Amazon Textract 控制台上跟踪处理状态。 仅有的 检测文档文本 (文字识别), 分析文件 (表格、查询、表格和签名),以及 分析费用 当前支持 API。
- 批量文档上传器提供 API 操作的 JSON 结果和格式化的 CSV 报告。 您可能需要依赖外部工具来可视化数据,例如使用 JSON 结果在文档上显示边界框突出显示。
- 使用此功能处理文档会产生与常规 Amazon Textract 使用相同的费用(取决于使用的功能),并且受为账户和区域设置的 API 的 TPS(每秒事务数)限制的约束。 有关定价的更多信息,请参阅 Amazon Textract定价. 要了解有关 Amazon Textract 限制的更多信息,请参阅 Amazon Textract 中的配额.
- 批量上传器接受的文件格式为 JPEG、PNG、TIF 和 PDF。 PDF 中的 JPEG 2000 编码图像也受支持。 JPEG 和 PNG 文件的大小限制为 10 MB,而 PDF 和 TIF 文件的大小限制为 500 MB。 多页 PDF 和 TIF 文件有 3,000 页的限制。
使用批量文件上传器
批量文档上传器旨在帮助您快速评估 Amazon Textract 如何处理您自己的一组文档,而无需编写任何代码。 您可以使用批量文档上传器处理多达 150 个文档,而不是单独上传和处理文档。 您可以直接从您的计算机批量上传文件或从现有的导入文件 亚马逊简单存储服务 (Amazon S3)存储桶。
Bulk Document Uploader 提供的结果可供您稍后下载以供离线查看。 每个可下载的 ZIP 文件都包含 JSON 文件格式的 Amazon Textract API 响应和一个人类可读的 CSV 输出文件,其中包含提取的数据和置信度分数。 输出结果在处理后 7 天内可供下载。 14 天后,文件将从 提交的文件 部分。 要使用批量文档上传器,请完成以下步骤:
- 在 Amazon Textract 控制台上,在 示 范 曲 在导航窗格中,选择 批量文件上传器.
- 上传文件.
- 指定文档的来源。
您有两种上传文件的选择:
- 从 S3 存储桶导入文档 – 如果您为文档使用 S3 存储桶,请提供存储桶 URL 和(可选)文档所在的前缀,在
s3://your-bucket/prefix/
格式。 或者,选择 浏览S3 浏览并选择文档的所需位置。 如果您指定的 Amazon S3 位置包含超过 150 个文档,则只会将前 150 个文档发送到 Amazon Textract 进行处理。 - 从您的计算机上传文件 – 如果您从计算机上传文档,您可以通过选择一次最多上传 50 个文档 上传文件. 要上传其他文档(最多 150 个),请选择 添加文件 上传初始文件后。
在这种情况下,您的文档首先会上传到您帐户中代表您创建的 S3 存储桶,因此请务必确保您有权访问 Amazon S3 并将文档上传到 Amazon S3。 这是一次性操作,同一存储桶将用于您计算机上的所有后续上传。 如果要上传和处理同一组文档,可以使用此 SXNUMX 存储桶的路径 从 S3 存储桶导入文档 选项。 代表您创建的 S3 存储桶将在创建存储桶后可见。
- 接下来,指定要用于处理文档的 Amazon Textract 功能。
您一次只能选择一个功能来处理您的文档。 如果您需要评估其他功能,则必须通过选择所需功能并再次上传文档来创建单独的请求。 如果 分析文档——查询 选择功能后,您需要提供要针对您的文档进行测试的查询。 您一次最多可以指定 30 个查询。 如果上传的文档包含多页(PDF 或 TIF)文件,则查询仅应用于每个文档的第一页。 参考 查询的最佳实践 了解如何构建查询。
- 开始处理 将文档提交给 Amazon Textract 进行处理。
您可以跟踪文档状态并下载已处理文档的输出结果 提交的文件 部分。 此部分会定期更新,您可以手动刷新以查看是否处理完成。 每个文档都是单独处理的,因此您可以选择文档 准备下载 status 或等待所有文件完成处理后下载结果。 已处理文档的输出最多可保留 7 天以供下载,之后它们将过期。 过期文件将从 提交的文件 额外 7 天后的部分(从处理日期起 14 天)。 我们建议在 7 天内下载并保存输出。
结论
在本文中,我们宣布了新的 Amazon Textract 批量文档上传器功能,它允许您快速处理大量文档以进行评估。 您可以使用此功能评估 Amazon Textract 是否适用于您的文档的预定用例。 要了解有关如何在智能文档处理工作负载中使用 Amazon Textract 的更多信息,请访问 Amazon Textract 功能 和 开始使用 Amazon Textract.
作者简介
沙什瓦特萨普雷 是 Amazon Textract 团队的高级技术产品经理。 他专注于为 AWS 客户构建基于机器学习的服务。 在业余时间,他喜欢阅读新技术、旅行和探索不同的美食。
安扬·比斯瓦斯 是一名高级 AI 服务解决方案架构师,专注于 AI/ML 和数据分析。 Anjan 是全球 AI 服务团队的一员,与客户合作,帮助他们理解和开发 AI 和 ML 业务问题的解决方案。 Anjan 拥有超过 14 年的与全球供应链、制造和零售组织合作的经验,并积极帮助客户开始使用 AWS AI 服务并进行扩展。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图爱流。 Web3 数据智能。 知识放大。 访问这里。
- 与 Adryenn Ashley 一起铸造未来。 访问这里。
- 使用 PREIPO® 买卖 PRE-IPO 公司的股票。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- :具有
- :是
- :在哪里
- $UP
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- 关于我们
- ACCESS
- 账号管理
- 操作
- 积极地
- 额外
- 另外
- 后
- 再次
- 驳
- AI
- 人工智能服务
- AI / ML
- 所有类型
- 允许
- 还
- Amazon
- 亚马逊Textract
- 亚马逊网络服务
- an
- 分析
- 分析
- 和
- 公布
- 任何
- API
- APIs
- 应用的
- 保健
- 人造的
- AS
- At
- 自动
- 可使用
- AWS
- BE
- 盒子
- 建筑物
- 商业
- by
- CAN
- 能力
- 案件
- 例
- 链
- 收费
- 选择
- 码
- 对照
- 完成
- 一台
- 信心
- 安慰
- 建设
- 包含
- 创建信息图
- 创建
- 目前
- 合作伙伴
- data
- 数据分析
- 日期
- 一年中的
- 示 范 曲
- 根据
- 期望
- 开发
- 不同
- 直接
- 显示
- 文件
- 文件
- 下载
- 每
- 容易
- 易
- 高效
- 或
- 使
- 增强
- 确保
- 醚(ETH)
- 评估
- 评估
- 现有
- 体验
- 探索
- 外部
- 提取物
- 专栏
- 特征
- 文件
- 档
- 姓氏:
- 专注焦点
- 重点
- 以下
- 针对
- 格式
- 形式
- 止
- 得到
- 全球
- 有
- he
- 帮助
- 帮助
- 亮点
- 他的
- 创新中心
- How To
- HTML
- HTTP
- HTTPS
- 人类可读
- if
- 图片
- 图片
- 进口
- 重要
- 征收
- in
- 个别地
- 信息
- 初始
- 代替
- 智能化
- 智能文档处理
- 拟
- 介绍
- 直观的
- IT
- JPG
- JSON
- 保持
- 大
- 大
- 后来
- 推出
- 学习用品
- 学习
- 极限
- 范围
- 圖書分館的位置
- 机
- 机器学习
- 使
- 制作
- 经理
- 手动
- 制造业
- 许多
- 最多
- 可能..
- 介意
- ML
- 更多
- 更高效
- 多
- 必须
- 旅游导航
- 需求
- 需要
- 全新
- 新技术
- 数
- OCR
- of
- 这一点在线下监测数字化产品的影响方面尤为明显。
- on
- 一旦
- 一
- 仅由
- 运营
- 附加选项
- 附加选项
- or
- 组织
- 产量
- 超过
- 己
- 页
- 面包
- 部分
- 径
- 施行
- 期间
- 权限
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 帖子
- 做法
- 保存
- 价格
- 问题
- 过程
- 过程
- 处理
- 产品
- 产品经理
- 程序化
- 提供
- 提供
- 提供
- 目的
- 查询
- 快速
- 很快
- 阅读
- 地区
- 定期
- 依靠
- 留
- 业务报告
- 请求
- 响应
- 成果
- 零售
- 检讨
- 同
- 鳞片
- 其次
- 部分
- 看到
- 选
- 选择
- 前辈
- 发送
- 分开
- 服务
- 特色服务
- 集
- 应该
- 签名
- 简易
- 同时
- 尺寸
- So
- 解决方案
- 来源
- 指定
- 标准
- 开始
- Status
- 步骤
- 存储
- 主题
- 提交
- 随后
- 这样
- 建议
- 供应
- 供应链
- 支持
- 支持
- 团队
- 文案
- 技术
- test
- 比
- 这
- 他们
- 然后
- 因此
- 他们
- Free Introduction
- 通过
- 次
- 至
- 工具
- TPS
- 跟踪时
- 交易
- 旅游
- 二
- ui
- 下
- 理解
- 不像
- 最新动态
- 上传
- 上传
- 网址
- 用法
- 使用
- 用例
- 用过的
- 运用
- 通过
- 可见
- 参观
- 可视化
- 等待
- 想
- we
- 卷筒纸
- Web服务
- 井
- ,尤其是
- 这
- 将
- 中
- 也完全不需要
- 加工
- 合作
- 写
- 写作
- 年
- 您
- 您一站式解决方案
- 和风网
- 压缩