使用 RPA 和文档理解的 OCR 综合指南

由柏拉图重新发布

关注： 0

最近更新：2021年XNUMX月

该博客是将OCR与任何RPA工具一起使用以自动执行文档工作流的全面概述。我们探索了最新的基于机器学习的OCR技术如何不需要规则或模板设置。

RPA或机器人过程自动化是旨在消除重复的业务任务的软件工具。更多的CIO正在转向他们以降低成本并帮助员工专注于更高价值的业务工作。示例包括响应网站上的评论或客户订单处理。稍微复杂一些的任务包括处理诸如手写表格和发票 – 这些通常需要从一个遗留系统转移到另一个系统 – 例如您的电子邮件客户端到您需要提取数据的 SAP ERP 系统。 这是有问题的部分。

大多数从这些文档中捕获数据的 OCR 工具都是基于模板的（比如 ABBYY Flexicapture）并且在半结构化文档上不能很好地扩展。有新一代基于机器学习的解决方案，通常提供 API
可以从文档中捕获键值对的集成–企业系统通常是旧系统，并且不开放与外部API集成。另一方面，RPA可以处理这些传统系统工作流程，例如从文件夹中提取文档并将结果输入到ERP或CRM中。

随着机器人过程自动化（RPA）和ML向超级自动化的发展，我们可以结合使用bot和ML来处理复杂的任务，例如文档分类，提取和光学字符识别。在最近的一项研究中，据称，通过使用RPA仅使任务的29％的功能自动化，仅财务部门一项因人为失误而节省的返工时间就超过了25,000小时，而对于拥有878,000个完整的，时间会计人员[40]。在此博客中，我们将学习如何将OCR与RPA一起使用，并深入研究文档理解工作流程。以下是目录。

定义和概述

一般来说，RPA 是一种通过软硬件机器人帮助自动执行管理任务的技术。这些机器人利用用户界面；捕获数据并像人类一样操作应用程序。例如，RPA 可以查看 GUI 中执行的一系列任务，例如移动光标、连接到 API、复制粘贴数据以及在 RPA 线框图中制定相同的操作序列以转换为代码。此外，将来可以在没有人工干预的情况下执行这些任务。光学字符识别 (OCR) 是任何功能性机器人过程自动化 (RPA) 解决方案的关键功能。该技术用于从不同来源（如图像或 PDF文件无需手动捕获即可转换为数字格式。

另一方面，文档理解是用于自动描述文档数据的读取，解释和操作的术语。在此过程中，最重要的是软件bot自己执行所有任务。这些机器人利用人工智能和机器学习的力量将文档理解为数字助手。这样，我们可以说文档理解出现在文档处理，AI和RPA的交集处。

文档理解出现在文档处理，AI和RPA的交集处。 [图片来源：用户界面文档理解[2]

机器人如何通过OCR和ML学习了解文档

在我们首先深入了解文档理解之前，让我们先讨论一下机器人对文档理解的作用。这些完全看不见的助手使我们的生活更加舒适。与电影和连续剧不同，这些机器人不是坐在台式机上并通过按钮执行任务的物理设备或人工智能程序。我们可以将其视为数字助理，他们像我们一样经过培训可以通过阅读和使用应用程序来处理文档。在功能方面，机器人擅长提高流程的性能和效率。尽管如此，它们还是一个独立的软件，无法评估过程和做出认知决策。但是，如果成功集成了机器学习，则机器人技术将变得更加动态和自适应。例如，用于前厅和中厅的文档处理，数据管理和其他功能的机器人将执行更智能的操作，例如消除重复条目或解决过程中未知的系统异常。此外，还对机器人进行了培训，以使用人工智能（AI）读取，提取，解释和处理来自文档的数据。

公司如何将智能OCR与RPA集成在一起以改善工作流程

提取文档数据是理解文档的重要组成部分。在本节中，我们将讨论如何将OCR与RPA集成，反之亦然。首先，我们都知道，在模板，样式，格式以及语言方面，存在不同类型的文档。因此，我们不能依靠简单的OCR技术从这些文档中提取数据。为了解决这个问题，我们将在OCR中同时使用基于规则的方法和基于模型的方法来处理来自不同文档结构的数据。现在，我们将了解进行OCR的公司如何基于文档类型将RPA集成到其现有系统中。

结构化文件： 在此类文档中，布局和模板通常是固定的，并且几乎是一致的。例如，考虑一个使用政府颁发的ID（例如护照或驾驶执照）进行KYC的组织。所有这些文件都是相同的，并且具有与ID号，人名，年龄和其他位置相同的字段。但是只有细节有所不同。可能没有什么限制，例如表溢出或未归档数据。

通常，推荐的方法使用模板或基于规则的引擎来提取结构化文档的信息。这些可以包括正则表达式或简单的位置映射和OCR。因此，为了集成软件机器人来自动提取信息，我们可以使用预先存在的模板，也可以为结构化数据创建规则。使用基于规则的方法有一个缺点，因为它依赖固定的部分，即使表单结构的微小更改也会导致规则崩溃。

半结构化文档： 这些文件具有相同的信息，但排列在不同的位置。例如，考虑发票包含 8-12 个相同的字段。在几个发票，商户地址可以位于顶部，其他的可以在底部找到。通常，这些基于规则的方法不能提供很高的准确度；因此，我们将机器学习和深度学习模型引入图片中，使用 OCR 进行信息提取。或者，在某些情况下，我们可以使用同时涉及规则和 ML 模型的混合模型。一些流行的预训练模型是 FastRCNN、注意力 OCR、用于文档信息提取的图卷积。然而，这些模型也没有什么缺点。因此，我们使用准确性或置信度分数等指标来衡量算法性能。由于该模型是在学习模式，而不是根据具体规则进行操作，因此最初可能会在修正后立即出错。然而，解决这些缺点的方法是——ML 模型处理的样本越多，它学习的模式就越多，以确保准确性。

非结构化文档： RPA，今天无法直接管理非结构化数据，因此需要机器人首先使用 OCR 提取和创建结构化数据。与结构化和半结构化文档不同，非结构化数据没有几个键值对。例如，在几个发票，我们在某处看到一个没有任何关键名称的商家地址；同样，我们对日期、发票 ID 等其他字段也观察到相同的情况。为了让 ML 模型准确处理这些，机器人需要学习如何将书面文本转换为可操作的数据，例如电子邮件、电话号码、地址等。然后模型将学习应该提取 7 位或 10 位数字模式作为电话号码和包含五位数代码的大文本和作为文本的不同名词。为了使这些模型更加准确，我们还可以使用自然语言处理 (NLP) 中的技术，例如命名实体识别和词嵌入。

总体而言，对于文档理解而言，首先必须了解数据，然后使用RPA实施OCR。接下来，我们可以通过集成规则和机器学习算法，通过如上所述的强大OCR功能记录发生的过程，而不是一步一步地制定流程，而是教会机器人“照常做”。软件机器人会跟踪您在屏幕上的单击和操作，然后将其转变为可编辑的工作流程。如果您完全在本地程序中工作，那将是您需要知道的。

RPA开发人员面临的OCR挑战

我们已经看到了如何将OCRR与RPA集成到不同的文档中，但是在某些情况下，机器人需要很好地处理。让我们现在讨论它们！

数据弱或不一致： 数据在文档理解中起着至关重要的作用。在大多数情况下，使用相机扫描文档时，有可能在文本扫描期间丢失文档格式（即，并非始终识别粗体，斜体和下划线）。有时，OCR可能以错误的方式提取文本，从而导致拼写错误，不规则的段落中断，从而降低了机器人的整体性能。因此，处理所有缺失值并以更高的精度捕获数据对于实现更高的OCR精度至关重要。
文档中的页面方向不正确： 页面方向和偏斜度也是导致OCR文本纠正不正确的常见问题之一。当在数据收集阶段对文档进行不正确的扫描时，通常会发生这种情况。为了克服这个问题，我们必须向机器人声明一些功能，例如自动适合页面，自动过滤器，以便它们可以提高扫描文档的质量并在输出中接收正确的数据。
整合问题： 并非所有RPA工具在远程桌面环境上都能正常运行-它们会导致崩溃和自动化方面的严重问题。此外，RPA开发人员需要知道哪种OCR解决方案将是针对特定情况的最佳解决方案。此外，要使用特定的自动化工具，RPA开发人员只需选择由Microsoft，Google创建的有限的OCR技术。因此，集成我们的自定义算法和模型有时会遇到挑战。
所有文本都是加扰文本： 对于现实生活中的用例，通用OCR捕获的文本都会被打乱，并且没有任何有意义的信息，机器人可以用来执行重要的操作。 RPA开发人员需要强大的ML支持才能构建有用的应用程序。

文档理解工作流水线

在前面的部分中，我们已经了解了机器人如何帮助执行不同类型文档的OCR。但是，OCR只是一种将图像或其他文件转换为文本的技术。现在，在本节中，我们将从开始收集文档到最终将有意义的信息保存为所需的格式，着眼于“文档理解”工作流程。

使用Bot从文件夹中提取文档： 这是通过机器人实现文档理解的第一步。在这里，我们将获取位于云平台（使用API）或本地计算机上的文档。在少数情况下，如果我们的文档位于网页上，我们可以通过漫游器自动执行抓取脚本，使它们可以及时获取文档。
文件类型： 获取数据后，了解文档的类型及其在系统中保存的格式至关重要，因为有时，我们会以各种文件格式从不同来源接收数据，例如 PDF、PNG 和 JPG。不仅仅是文件类型，有时在使用手机摄像头扫描文档时，还应该处理一些具有挑战性的问题，例如图像偏斜、旋转、亮度或低分辨率。因此，我们必须确保机器人将这些文档分类为结构化、半结构化或非结构化类别，从而将其保存为通用格式。分类任务是通过将文档与模板进行比较并分析字体、语言、键值对的存在、表格等特征来实现的。
使用OCR提取数据： 好了，既然僵尸程序将我们的文档整理成一种通用格式并对其进行了分类，那么现在是时候使用OCR技术将其数字化了。这样，我们就可以从文本中获得文本及其在坐标中的位置。这有助于使后续步骤的文档和数据标准化。当OCR软件无法正确区分字符时，例如“ t”与“ i”，或“ 0”与“ O”，我们还会遇到一些问题。当OCR技术无法根据文档的质量或原始格式来分析文档的细微差别时，您想使用OCR软件躲避的错误会成为新的麻烦。这是机器学习出现的地方，我们将在下一步中进行讨论。
使用Bots利用ML / DL进行智能OCR： 数据数字化后，OCR软件应了解其使用的文档类型以及相关内容。但是传统的OCR软件可能难以扩展文档分类工作。因此，应该通过利用机器学习和深度学习技术使OCR更加智能，从而对软件bot进行认知能力的培训。基于ML的OCR解决方案可以识别文档类型，并将其与您的企业使用的已知文档类型进行匹配。他们还可以解析和理解非结构化文档中的文本块。一旦解决方案对文档本身有了更多了解，它就可以开始根据意图和含义提取相关信息。
更好的数据提取和分类： 数据提取是“文档理解”的核心。正如在此步骤中有关将RPA与OCR集成的上一节中所讨论的，选择基于文档类型的数据提取技术。通过RPA，我们可以轻松配置要使用的提取器，无论是基于规则的，基于ML的还是混合模型OCR技术。根据信息提取后返回的置信度和性能指标，软件机器人将它们保存为我们所需的格式，以供进一步分析。下图显示了如何通过UIPath在RPA工具中配置提取器和设置置信度。

6. 验证并增强见解：OCR和机器学习模型在信息提取方面不是XNUMX％准确的，因此在机器人的帮助下增加一层人工干预可以解决该问题。验证的工作方式是，每当机器人处理低准确性和异常情况时，它都会立即向行动中心发出通知，员工可以在该中心收到验证数据或处理异常的请求，并可以解决单击中的任何不确定性。此外，我们可以挖掘人工智能在一段时间内记录数据以进行预测的潜力，并识别可能指示欺诈，重复和其他错误的潜在异常。

将机器人与文档理解相结合的好处

自动化流程： 集成机器人以理解文档的主要原因是使整个过程从头到尾实现自动化。我们需要做的就是创建一个让机器人学习，坐下来和放松的工作流程。在验证过程中，我们可能需要解决由僵尸程序通知的问题，其中识别出任何错误或欺诈。
具有机器学习功能的机器人： 在自动化过程中，我们可以使机器人适应机器学习。这意味着机器人还可以了解机器学习模型的性能，从而增强模型以实现更高的准确性和性能，以用于文档的文本和信息提取。
处理范围广泛的文档处理： 对于表格和信息提取等常规任务，我们必须为不同类型的文档创建不同的深度学习管道。这导致构建多个应用程序并在不同的服务器上部署各种模型，这需要大量的精力和时间。当机器人在图片中包含大量文档时，我们只能有一个管道，机器人可以在其中对它们进行分类，然后将适当的模型用于不同的任务。我们还可以通过API集成各种服务，并在获取数据方面与其他组织进行通信。
易于部署： 为了在创建管道之后理解文档，部署过程仅需一分钟。我们可以让机器人在训练后导出API，也可以构建可在本地系统中使用的自定义RPA解决方案。这种类型的部署还可以优化企业，并可以以最小的风险减少支出。

输入纳米网

NanoNets 是一个机器学习平台，允许用户从发票、收据和其他文档，无需任何模板设置。我们在后台运行最先进的深度学习和计算机视觉算法，可以处理任何类型的文档理解任务，如 OCR、表格提取、键值对提取。它们通常作为 API 导出，或者可以根据不同的用例在本地部署。这里有一些例子，

发票模型：从中识别关键字段费用单据如买家姓名、发票编号、日期、金额等。
收据模型：从收据中标识关键字段，例如卖家名称，编号，日期，金额等。
驾驶执照（美国）：确定关键字段，例如执照编号，DOB，有效期，签发日期等。
简历：提取经验，学历，技能，候选人信息等。

为了使这些工作流程更快更可靠，我们使用 UiPath，这是一种 RPA 工具，无需任何模板即可无缝自动化您的文档。在下一节中，我们将介绍如何使用 UiPath Connect 和 Nanonets 来理解文档。 RPA 市场的三大参与者是 UiPath、Automation Anywhere 和蓝色棱镜. 本博客重点介绍 Uipath。

具有UiPath的NanoNets

在前面的部分中，我们已经学习了创建文档理解管道。它需要OCR，RPA和机器学习的基础知识，因为在不同点上有不同的方法和算法可用于不同的任务。此外，我们还需要花费大量精力来构建神经网络，以了解我们的模板，对其进行培训并进行部署。因此，为了舒适并自动执行从上载文档，分类文档，构建OCR到集成ML模型的一切工作，我们Nanonets的Ui Path致力于创建无缝的文档理解管道。以下是此工作方式的图片。

现在，让我们回顾所有这些，并学习如何将Nanonets与UiPath集成。

第1步：在UiPath上注册并下载UiPath Studio

要创建工作流程，首先，我们必须在UiPath中创建一个帐户。如果您是现有用户，则可以直接登录到您的帐户，从而重定向UiPath仪表板。接下来，您必须下载并安装免费的UiPath Studio（社区版）。

步骤2：下载Nanonets组件

接下来，设置您的发票处理管道，则必须从下面的链接下载Nanonets连接器。

-> NanoNets OCR – RPA组件

下面是UiPath市场和Nanonets组件的屏幕截图。另外，要下载此文件，请确保您已从Windows操作系统登录到UiPath。

您下载的文件应包含下面列出的文件，

UiPath OCR Predict ├── Main.xaml
└── project.json

步骤3：打开Main.xaml文件Nanonets组件

要检查Nanonets UiPath是否正常工作，可以使用Ui Path Studio从下载的Nanonets组件中打开Main.xml文件。然后，您可以看到已经为您创建的用于文档处理的管道。

步骤4：从Nanonets APP收集您的型号ID，API密钥和API端点

接下来，您可以使用Nanonets APP中任何经过训练的OCR模型，并收集模型ID，API密钥和端点。以下是您可以快速找到它们的更多详细信息。

型号编号： 登录到您的Nanonets帐户，然后导航到“我的模型”。您可以训练新模型或复制现有模型的应用程序ID。

API端点： 您可以选择任何现有模型，然后单击“集成”以找到您的API端点。以下是端点外观的示例。

https://app.nanonets.com/api/v2/OCR/Model/XXXXXXX-4840-4c27-8940-d3add200779e/LabelUrls/

3. API密钥：导航到“ API密钥”选项卡，您可以复制任何现有的API密钥或创建一个新的API密钥。

步骤5：添加HTTP请求以将您的方法和变量添加到UI路径

现在要将模型从Nanonets集成到UI路径，您将首先单击HTTP Request并添加EndPoint，该端点可以在Input部分的左侧导航中找到。以下是屏幕截图。

稍后，添加所有变量以建立从UiPath工作室到Nanonets API的连接。您可以在“变量标签”的底部窗格中找到此部分。下面是屏幕截图，您必须在此处更新/复制您的API密钥，端点和模型的模型ID。

步骤6：添加预测文件位置

最后，您可以在“属性”选项卡下添加文件位置，如以下屏幕截图所示，然后单击顶部导航上的“播放”按钮以预测输出。

瞧！这是我们在下面的屏幕快照中请求的文档的输出。要进行更多处理，您只需添加文件位置并点击运行按钮。

步骤7 –将输出推送到CSV / ERP

最后，要将我们的输出自定义为您想要的格式，我们可以在Main.XML文件中向您的管道添加新的块。我们还可以通过脱机文件或API调用将其推送到任何现有的ERP系统中。

如需任何帮助，请通过support@nanonets.com与我们联系。

线上研讨会

加入我们，参加下周二与RPA进行的OCR网络研讨会， 在这里注册。

参考资料

[1] Gartner说，机器人流程自动化每年可以为财务部门节省25,000小时的可避免工作

[2] 文档理解– AI文档处理

[3] RPA OCR –提升过程自动化| 尼斯

[4] 如何使用AI优化文档理解

[5] https://www.uipath.com/product/document-understanding

[6] 在UiPath工作流中为发票OCR使用NanoNets

您可能对我们有关以下方面的最新帖子感兴趣：

更新：‌
‌ 增加了更多关于 OCR、RPA 在文档理解中的使用和影响的阅读材料。

资料来源：https://nanonets.com/blog/ocr-with-rpa-and-document-understanding-uipath/

时间戳记： 2021 年 5 月 19 日

时间戳记： 2022 年 6 月 20 日

具有RPA和文档理解的OCR全面指南

由柏拉图重新发布

定义和概述

机器人如何通过OCR和ML学习了解文档

公司如何将智能OCR与RPA集成在一起以改善工作流程

RPA开发人员面临的OCR挑战

文档理解工作流水线

将机器人与文档理解相结合的好处

输入纳米网

具有UiPath的NanoNets

线上研讨会

参考资料

延伸阅读

您可能对我们有关以下方面的最新帖子感兴趣：

更多来自人工智能与机器学习

Quickbooks 应付账款自动化

什么是一揽子采购订单？

如何将电子邮件转换为 Google 表格？

什么是财务报告自动化？

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

定义和概述

机器人如何通过OCR和ML学习了解文档

公司如何将智能OCR与RPA集成在一起以改善工作流程

RPA开发人员面临的OCR挑战

文档理解工作流水线

将机器人与文档理解相结合的好处

输入纳米网

具有UiPath的NanoNets

线上研讨会

参考资料

延伸阅读

您可能对我们有关以下方面的最新帖子感兴趣：

更多来自 人工智能与机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

更多来自人工智能与机器学习