RPA 및 문서 이해를 통한 OCR에 대한 종합 가이드

플라톤에 의해 재발행

팔로워 : 0

최종 업데이트 : 2021 년 XNUMX 월.

이 블로그는 문서 워크 플로를 자동화하기 위해 RPA 도구와 함께 OCR을 사용하는 방법에 대한 포괄적 인 개요입니다. 최신 기계 학습 기반 OCR 기술에 규칙이나 템플릿 설정이 필요하지 않은 방법을 살펴 봅니다.

RPA 또는 로봇 프로세스 자동화는 반복적 인 비즈니스 작업을 제거하기위한 소프트웨어 도구입니다. 더 많은 CIO가 비용을 절감하고 직원들이 더 높은 가치의 비즈니스 작업에 집중할 수 있도록 지원하고 있습니다. 예를 들어 웹 사이트의 의견에 대한 응답 또는 고객 주문 처리가 있습니다. 약간 더 복잡한 작업에는 다음과 같은 문서 처리가 포함됩니다. 필기 양식 과 송장 – 일반적으로 한 레거시 시스템에서 다른 레거시 시스템으로 이동해야 합니다. 이메일 클라이언트는 데이터를 추출해야 하는 SAP ERP 시스템으로 이동해야 합니다. 이것은 문제가되는 부분입니다.

이러한 문서에서 데이터를 캡처하는 대부분의 OCR 도구는 템플릿 기반(예: 애비 Flexicapture) 및 반구조화된 문서에서는 잘 확장되지 않습니다. 일반적으로 API를 제공하는 차세대 기계 학습 기반 솔루션이 있습니다.
문서에서 키-값 쌍을 캡처 할 수있는 통합 – 엔터프라이즈 시스템은 일반적으로 레거시이며 외부 API와 통합 할 수 없습니다. 반면에 RPA는 폴더에서 문서를 수집하고 결과를 ERP 또는 CRM에 입력하는 것과 같은 레거시 시스템 워크 플로를 처리하도록 구축되었습니다.

RPA (Robotic Process Automation) 및 ML이 하이퍼 자동화로 발전함에 따라 ML과 함께 소프트웨어 봇을 사용하여 문서 분류, 추출 및 광학 문자 인식과 같은 복잡한 작업을 처리 할 수 있습니다. 최근 연구에 따르면 RPA를 사용하는 작업에 대한 기능의 29 % 만 자동화함으로써 재무 부서 만해도 인적 오류로 인한 재 작업 시간을 25,000 시간 이상 절약 할 수 있으며, 878,000 명의 직원이있는 조직의 경우 연간 $ 40의 비용이 발생합니다. 시간 회계 직원 [1]. 이 블로그에서는 RPA와 함께 OCR을 사용하는 방법에 대해 배우고 문서 이해 워크 플로에 대해 자세히 알아 봅니다. 아래는 목차입니다.

정의 및 개요

일반적으로 RPA는 소프트웨어-하드웨어 봇을 통해 관리 작업을 자동화하는 데 도움이 되는 기술입니다. 이러한 봇은 사용자 인터페이스를 활용합니다. 사람처럼 데이터를 캡처하고 애플리케이션을 조작합니다. 예를 들어, RPA는 GUI에서 수행된 일련의 작업, 예를 들어 커서 이동, API에 연결, 데이터 복사-붙여넣기, 코드로 변환되는 RPA 와이어프레임에서 동일한 작업 시퀀스를 공식화할 수 있습니다. 또한 이러한 작업은 미래에 사람의 개입 없이 수행될 수 있습니다. 광학 문자 인식(OCR)은 모든 기능적 로봇 프로세스 자동화(RPA) 솔루션의 중요한 기능입니다. 이 기술은 이미지 또는 pdfs 수동으로 캡처하지 않고 디지털 형식으로 변환합니다.

반면 문서 이해는 문서 데이터 읽기, 해석 및 작업을 자동으로 설명하는 데 사용되는 용어입니다. 이 프로세스에서 가장 중요한 것은 소프트웨어 봇 자체가 모든 작업을 수행한다는 것입니다. 이러한 봇은 인공 지능 및 기계 학습의 힘을 활용하여 문서를 디지털 비서로 이해합니다. 이렇게하면 문서 처리, AI 및 RPA의 교차점에서 문서 이해가 나타난다 고 말할 수 있습니다.

문서 이해는 문서 처리, AI 및 RPA의 교차점에서 나타납니다. [이미지 출처 : Ui 경로 문서 이해 [2]]

로봇이 OCR 및 ML을 사용하여 문서를 이해하는 방법을 배울 수있는 방법

먼저 문서 이해에 대해 자세히 알아보기 전에 문서 이해를위한 로봇의 역할에 대해 이야기 해 보겠습니다. 완전히 보이지 않는이 도우미들은 우리 삶을 훨씬 더 편안하게 만듭니다. 영화 및 시리즈와 달리 이러한 로봇은 작업을 수행하기 위해 데스크톱 및 푸시 버튼에 앉아있는 물리적 장치 또는 인공 지능 프로그램이 아닙니다. 우리가하는 것처럼 애플리케이션을 읽고 사용하여 문서를 처리하도록 훈련 된 디지털 비서라고 생각할 수 있습니다. 기능적인 측면에서 로봇은 프로세스의 성능과 효율성을 향상시키는 데 능숙합니다. 그러나 그들은 독립형 소프트웨어이기 때문에 프로세스를 평가하고인지 적 결정을 내릴 수 없습니다. 그러나 머신 러닝이 성공적으로 통합되면 로봇 공학은 더욱 역동적이고 적응력이있게됩니다. 예를 들어 문서 처리, 데이터 관리 및 프론트 오피스와 미들 오피스의 기타 기능에 활용되는 로봇은 중복 항목 제거 또는 프로세스에서 알려지지 않은 시스템 예외 해결과 같은보다 지능적인 작업을 수행합니다. 또한 로봇은 인공 지능 (AI)을 사용하여 문서에서 데이터를 읽고, 추출하고, 해석하고, 작업하도록 훈련되었습니다.

기업은 지능형 OCR을 RPA와 통합하여 워크 플로우를 개선하는 방법

문서 데이터 추출은 문서 이해를위한 중요한 구성 요소입니다. 이 섹션에서는 OCR을 RPA와 통합하거나 그 반대로 통합하는 방법에 대해 설명합니다. 첫째, 우리 모두는 템플릿, 스타일, 서식, 때로는 언어 측면에서 다양한 종류의 문서가 있다는 것을 알고있었습니다. 따라서 이러한 문서에서 데이터를 추출하기 위해 간단한 OCR 기술에 의존 할 수 없습니다. 이 문제를 해결하기 위해 OCR 내에서 규칙 기반 접근 방식과 모델 기반 접근 방식을 모두 사용하여 다른 문서 구조의 데이터를 처리합니다. 이제 OCR을 수행하는 회사가 문서 유형에 따라 기존 시스템에 RPA를 통합하는 방법을 살펴 보겠습니다.

구조화 된 문서 : 이러한 유형의 문서에서 레이아웃과 템플릿은 일반적으로 고정되어 있으며 거의 일관성이 있습니다. 예를 들어 여권이나 운전 면허증과 같은 정부 발급 신분증으로 KYC를 수행하는 조직을 생각해보십시오. 이 모든 문서는 동일하며 ID 번호, 사람의 이름, 나이 및 같은 위치에있는 다른 몇 가지 필드와 동일한 필드를 갖습니다. 그러나 세부 사항 만 다릅니다. 테이블 오버플로 또는 분류되지 않은 데이터와 같은 제약 조건이 거의 없을 수 있습니다.

일반적으로 권장되는 접근 방식은 템플릿 또는 규칙 기반 엔진을 사용하여 구조화 된 문서에 대한 정보를 추출합니다. 여기에는 정규식 또는 간단한 위치 매핑 및 OCR이 포함될 수 있습니다. 따라서 소프트웨어 로봇을 통합하여 정보 추출을 자동화하기 위해 기존 템플릿을 사용하거나 구조화 된 데이터에 대한 규칙을 만들 수 있습니다. 규칙 기반 접근 방식을 사용하면 한 가지 단점이 있습니다. 고정 된 부분에 의존하기 때문에 양식 구조의 사소한 변경으로도 규칙이 깨질 수 있습니다.

반 구조화 된 문서 : 이 문서는 정보는 같지만 위치가 다릅니다. 예를 들어 다음을 고려하십시오. 송장 8-12개의 동일한 필드를 포함합니다. 몇 군데에서 송장, 가맹점 주소는 상단에, 기타는 하단에 있습니다. 일반적으로 이러한 규칙 기반 접근 방식은 높은 정확도를 제공하지 않습니다. 따라서 우리는 OCR을 사용한 정보 추출을 위해 기계 학습 및 딥 러닝 모델을 그림으로 가져옵니다. 또는 경우에 따라 규칙과 ML 모델을 모두 포함하는 하이브리드 모델을 사용할 수 있습니다. 몇 가지 인기 있는 사전 훈련된 모델은 문서에서 정보 추출을 위한 FastRCNN, Attention OCR, Graph Convolution입니다. 그러나 다시 이러한 모델에는 몇 가지 단점이 있습니다. 따라서 정확도 또는 신뢰도 점수와 같은 메트릭을 사용하여 알고리즘 성능을 측정합니다. 모델은 구체적인 규칙에 따라 작동하지 않고 패턴을 학습하기 때문에 수정 직후 초기에 실수를 할 수 있습니다. 그러나 이러한 단점에 대한 해결책은 ML 모델이 처리하는 샘플이 많을수록 정확도를 보장하기 위해 더 많은 패턴을 학습한다는 것입니다.

구조화되지 않은 문서 : 오늘날 RPA는 비정형 데이터를 직접 관리할 수 없으므로 로봇이 먼저 OCR을 사용하여 정형 데이터를 추출하고 생성해야 합니다. 정형 및 반정형 문서와 달리 비정형 데이터에는 키-값 쌍이 몇 개 없습니다. 예를 들어, 몇 가지 송장, 키 이름이 없는 판매자 주소가 어딘가에 표시됩니다. 마찬가지로 날짜, 인보이스 ID와 같은 다른 필드에서도 동일하게 관찰됩니다. ML 모델이 이를 정확하게 처리하려면 로봇이 작성된 텍스트를 이메일, 전화번호, 주소 등과 같은 실행 가능한 데이터로 변환하는 방법을 배워야 합니다. 그러면 모델은 7자리 또는 10자리 숫자 패턴이 추출되어야 함을 학습합니다. 전화 번호 및 XNUMX자리 코드를 포함하는 거대한 텍스트와 텍스트로 다른 명사. 이러한 모델을 보다 정확하게 만들기 위해 명명된 엔터티 인식 및 단어 임베딩과 같은 자연어 처리(NLP) 기술을 사용할 수도 있습니다.

전반적으로 문서 이해를 위해서는 먼저 데이터를 이해 한 다음 RPA로 OCR을 구현하는 것이 중요합니다. 다음으로, 프로세스를 단계별로 매핑하는 대신 규칙과 기계 학습 알고리즘을 통합하여 위에서 설명한 강력한 OCR 기능에서 발생하는 프로세스를 기록하여 로봇에게 "내가하는대로 수행"하도록 교육 할 수 있습니다. 소프트웨어 로봇은 화면에서 사용자의 클릭과 동작을 따라 가며 편집 가능한 워크 플로우로 바꿉니다. 전적으로 로컬 프로그램에서 작업하는 경우 알아야 할 사항입니다.

RPA 개발자가 직면 한 OCR 과제

다양한 문서에 대해 OCRR을 RPA와 통합하는 방법을 살펴 보았지만 로봇이 잘 처리해야하는 몇 가지 문제가 있습니다. 지금 논의합시다!

약하거나 일관성없는 데이터 : 데이터는 문서 이해에서 중요한 역할을합니다. 대부분의 경우 텍스트 스캔 중에 문서 형식이 손실 될 가능성이있는 카메라를 사용하여 문서를 스캔합니다 (예 : 굵게, 기울임 꼴 및 밑줄이 항상 인식되는 것은 아닙니다). 경우에 따라 OCR이 잘못된 방식으로 텍스트를 추출하여 맞춤법 오류, 불규칙한 단락 구분이 발생하여 로봇의 전반적인 성능이 저하 될 수 있습니다. 따라서 모든 누락 된 값을 처리하고 더 높은 정밀도로 데이터를 캡처하는 것이 OCR의 정확도를 높이는 데 중요합니다.
문서의 잘못된 페이지 방향 : 페이지 방향 및 왜곡도 OCR의 잘못된 텍스트 수정으로 이어지는 일반적인 문제 중 하나입니다. 이는 일반적으로 데이터 수집 단계에서 문서가 잘못 스캔 될 때 발생합니다. 이를 극복하기 위해 페이지에 자동 맞춤, 자동 필터링과 같은 몇 가지 기능을 로봇에 선언하여 스캔 한 문서의 품질을 높이고 출력에서 올바른 데이터를 수신 할 수 있도록해야합니다.
통합 문제 : 모든 RPA 도구가 원격 데스크톱 환경에서 잘 작동하는 것은 아닙니다. 자동화에서 충돌과 심각한 문제를 일으 킵니다. 또한 RPA 개발자는 특정 사례에 가장 적합한 OCR 솔루션을 알아야합니다. 또한 특정 자동화 도구를 사용하려면 RPA 개발자가 Microsoft, Google에서 만든 제한된 OCR 기술 만 선택하면됩니다. 따라서 사용자 지정 알고리즘과 모델을 통합하는 것은 때때로 어려운 일입니다.
모든 텍스트는 스크램블 된 텍스트입니다. 실제 사용 사례의 경우 일반 OCR에서 캡처 한 텍스트는 모두 스크램블되며 봇이 중요한 작업을 수행하는 데 사용할 수있는 의미있는 정보가 없습니다. RPA 개발자는 유용한 애플리케이션을 구축하기 위해 강력한 ML 지원이 필요합니다.

문서 이해 워크 플로를위한 파이프 라인

이전 섹션에서는 봇이 다양한 유형의 문서에 대해 OCR을 수행하는 데 어떻게 도움이되는지 살펴 보았습니다. 그러나 OCR은 이미지 또는 기타 파일을 텍스트로 변환하는 기술 일뿐입니다. 이제이 섹션에서는 문서 수집의 시작 부분부터 문서 이해 워크 플로를 살펴보고 최종적으로 의미있는 정보를 원하는 형식으로 저장합니다.

봇을 사용하여 폴더에서 문서를 수집합니다. 이것은 봇을 통해 문서를 이해하는 첫 번째 단계입니다. 여기서는 클라우드 플랫폼 (API 사용) 또는 로컬 머신에있는 문서를 가져옵니다. 경우에 따라 문서가 웹 페이지에있는 경우 적시에 문서를 가져올 수있는 봇을 통해 스크랩 스크립트를 자동화 할 수 있습니다.
문서 유형: 데이터를 가져온 후에는 문서 유형과 시스템에 저장되는 형식을 이해하는 것이 중요합니다. PDF, PNG 및 JPG. 파일 형식뿐만 아니라 때때로 전화 카메라로 문서를 스캔할 때 이미지 왜곡, 회전, 밝기 또는 저해상도와 같은 몇 가지 까다로운 문제도 처리해야 합니다. 따라서 봇이 이러한 문서를 구조화, 반구조화 또는 구조화되지 않은 범주로 분류하여 일반 형식으로 저장하도록 해야 합니다. 분류 작업은 문서를 템플릿과 비교하고 글꼴, 언어, 키-값 쌍의 존재, 테이블 등과 같은 기능을 분석하여 수행됩니다.
OCR로 데이터 추출 : 이제 봇이 문서를 일반 형식으로 정렬하고 분류 했으므로 이제 OCR 기술을 사용하여 디지털화 할 때입니다. 이것으로 우리는 이미지의 좌표에서 텍스트, 그 위치를 갖게 될 것입니다. 이는 후속 단계에서 문서와 데이터를 표준화하는 데 도움이됩니다. 또한 OCR 소프트웨어가 't'대 'i'또는 '0'대 'O'와 같이 문자를 올바르게 구분하지 못하는 경우가 있습니다. OCR 소프트웨어를 사용하여 피하려는 오류는 OCR 기술이 문서의 품질이나 원본 형식을 기반으로 문서의 뉘앙스를 분석 할 수 없을 때 새로운 골칫거리가 될 수 있습니다. 이것이 기계 학습이 그림에 나오는 곳이며 다음 단계에서 논의 할 것입니다.
봇을 사용하여 지능형 OCR에 ML / DL 활용 : 데이터가 디지털화되면 OCR 소프트웨어는 작업중인 문서의 종류와 관련 내용을 이해해야합니다. 그러나 기존 OCR 소프트웨어는 문서 분류 작업을 확장하는 데 어려움을 겪을 수 있습니다. 따라서 소프트웨어 봇은 기계 학습 및 딥 러닝 기술을 활용하여 OCR을보다 지능적으로 만들어인지 능력을 갖추어야합니다. ML 기반 OCR 솔루션은 문서 유형을 식별하고이를 비즈니스에서 사용하는 알려진 문서 유형과 비교할 수 있습니다. 또한 구조화되지 않은 문서의 텍스트 블록을 구문 분석하고 이해할 수 있습니다. 솔루션이 문서 자체에 대해 더 많이 알게되면 의도와 의미에 따라 관련 정보를 추출하기 시작할 수 있습니다.
더 나은 데이터 추출 및 분류 : 데이터 추출은 문서 이해의 핵심입니다. 이 단계에서 RPA를 OCR과 통합하는 이전 섹션에서 설명한 것처럼 문서 유형에 따라 데이터 추출 기술을 선택합니다. RPA를 통해 규칙 기반이든 ML 기반이든 하이브리드 모델 OCR 기술이든 사용할 추출기를 쉽게 구성 할 수 있습니다. 정보 추출 후 반환되는 신뢰도와 성능 메트릭을 기반으로 소프트웨어 로봇은 추가 분석을 위해 원하는 형식으로 저장합니다. 아래는 UIPath로 RPA 도구에서 추출기를 구성하고 신뢰 수준을 설정하는 방법에 대한 이미지입니다.

6. 검증 및 통찰력 강화: OCR 및 기계 학습 모델은 정보 추출 측면에서 XNUMX % 정확하지 않으므로 로봇의 도움을 받아 인간 개입 계층을 추가하면 문제를 해결할 수 있습니다. 이 유효성 검사가 작동하는 방식은 로봇이 낮은 정확도와 예외를 처리 할 때마다 직원이 데이터 유효성 검사 요청을 받거나 예외를 처리 할 수 있고 클릭만으로 불확실성을 해결할 수있는 알림 센터에 즉시 알림을 보내는 것입니다. 또한 시간이 지남에 따라 데이터를 문서화하여 예측을 수행하고 사기, 중복 및 기타 오류를 나타낼 수있는 잠재적 인 이상을 식별하는 인공 지능의 잠재력을 잠금 해제 할 수 있습니다.

문서 이해와 로봇 통합의 이점

프로세스 자동화 : 문서 이해를 위해 봇을 통합하는 주요 이유는 처음부터 끝까지 전체 프로세스를 자동화하는 것입니다. 우리가해야 할 일은 봇이 배우고, 편안하게 앉아 휴식을 취할 수있는 워크 플로를 만드는 것입니다. 유효성 검사 프로세스 중에 오류 또는 사기가 식별 된 봇이 알리는 문제를 해결해야 할 수 있습니다.
기계 학습을 사용한 봇 : 자동화 프로세스 중에 봇을 기계 학습에 탄력적으로 만들 수 있습니다. 로봇은 또한 기계 학습 모델의 성능을 학습하여 문서의 텍스트 및 정보 추출에 대해 더 높은 정확도와 성능을 달성하도록 모델을 향상시킬 수 있습니다.
광범위한 문서 처리 처리 : 테이블 및 정보 추출과 같은 일반적인 작업의 경우 서로 다른 유형의 문서에 대해 서로 다른 딥 러닝 파이프 라인을 만들어야합니다. 이로 인해 여러 응용 프로그램을 빌드하고 여러 서버에 다양한 모델을 배포 할 수 있으므로 많은 노력과 시간이 필요합니다. 봇이 광범위한 문서에 대한 그림에 있으면 봇이이를 분류 한 다음 다양한 작업에 적절한 모델을 사용할 수있는 단일 파이프 라인 만 가질 수 있습니다. API를 통해 다양한 서비스를 통합하고 데이터 가져 오기 측면에서 다른 조직과 통신 할 수도 있습니다.
간편한 배포 : 파이프 라인이 생성 된 후 문서를 이해하기 위해 배포 프로세스는 XNUMX 분이면됩니다. 훈련 후 봇이 API를 내보내거나 로컬 시스템에서 사용할 수있는 맞춤형 RPA 솔루션을 구축 할 수 있습니다. 이러한 유형의 배포는 또한 기업을 최적화 할 수 있으며 최소한의 위험으로 지출을 줄일 수 있습니다.

나노 넷 입력

NanoNets는 사용자가 데이터를 캡처할 수 있는 기계 학습 플랫폼입니다. 송장템플릿 설정 없이 , 영수증 및 기타 문서. OCR, 테이블 추출, 키-값 쌍 추출과 같은 모든 종류의 문서 이해 작업을 처리할 수 있는 최첨단 딥 러닝 및 컴퓨터 비전 알고리즘이 뒤에서 실행됩니다. 일반적으로 API로 내보내거나 다양한 사용 사례를 기반으로 온프레미스에 배포할 수 있습니다. 다음은 몇 가지 예입니다.

송장 모델: 주요 필드 식별 송장 구매자 이름, 인보이스 ID, 날짜, 금액 등
영수증 모델 : 판매자 이름, 번호, 날짜, 금액 등과 같은 영수증의 주요 필드를 식별합니다.
운전 면허증 (미국) : 면허 번호, 생년월일, 만료일, 발급일 등과 같은 주요 필드를 식별합니다.
이력서 : 경험, 교육, 기술 세트, 후보자 정보 등을 추출합니다.

이러한 워크플로를 더 빠르고 강력하게 만들기 위해 템플릿 없이 문서를 원활하게 자동화할 수 있는 RPA 도구인 UiPath를 사용합니다. 다음 섹션에서는 문서 이해를 위해 UiPath Connect를 Nanonet과 함께 사용하는 방법을 살펴보겠습니다. RPA 시장의 3대 기업은 UiPath, Automation Anywhere 및 블루 프리즘. 이 블로그는 Uipath에 중점을 둡니다.

UiPath를 사용하는 NanoNet

이전 섹션에서 문서 이해 파이프 라인을 만드는 방법을 배웠습니다. 다양한 지점에서 서로 다른 작업에 대해 서로 다른 접근 방식과 알고리즘이 있기 때문에 OCR, RPA 및 기계 학습에 대한 기본 지식이 필요합니다. 또한 템플릿을 이해하고이를 교육하고 배포하는 신경망을 구축하는 데 많은 노력을 기울여야합니다. 따라서 문서 업로드, 분류, OCR 구축, ML 모델 통합 등 모든 것을 편안하고 자동화하기 위해 Nanonets는 문서 이해를위한 원활한 파이프 라인을 만들기 위해 Ui Path를 개발하고 있습니다. 아래는 이것이 어떻게 작동하는지에 대한 이미지입니다.

이제 각 항목을 검토하고 Nanonet을 UiPath와 통합하는 방법을 알아 보겠습니다.

1 단계 : UiPath에 가입하고 UiPath Studio 다운로드

워크 플로를 만들려면 먼저 UiPath에서 계정을 만들어야합니다. 기존 사용자 인 경우 계정에 직접 로그인하여 UiPath 대시 보드를 리디렉션 할 수 있습니다. 다음으로 무료 인 UiPath Studio (Community Edition)를 다운로드하여 설치해야합니다.

2 단계 : Nanonets 구성 요소 다운로드

다음으로 송장 처리 파이프 라인, 아래 링크에서 Nanonets 커넥터를 다운로드해야합니다.

-> NanoNets OCR – RPA 구성 요소

아래는 UiPath Marketplace 및 Nanonets 구성 요소의 스크린 샷입니다. 또한 이것을 다운로드하려면 Windows 운영 체제에서 UiPath에 로그인했는지 확인하십시오.

다운로드 한 파일에는 아래 나열된 파일이 포함되어야합니다.

UiPath OCR Predict ├── Main.xaml
└── project.json

3 단계 : Main.xaml 파일 Nanonets 구성 요소 열기

Nanonets UiPath가 작동하는지 확인하려면 Ui Path Studio를 사용하여 다운로드 한 Nanonets 구성 요소에서 Main.xml 파일을 열 수 있습니다. 그러면 문서 처리를 위해 이미 생성 된 파이프 라인을 볼 수 있습니다.

4 단계 : Nanonets 앱에서 모델 ID, API 키 및 API 엔드 포인트 수집

다음으로 Nanonets APP에서 훈련 된 OCR 모델을 사용하고 모델 ID, API 키 및 엔드 포인트를 수집 할 수 있습니다. 다음은 빠르게 찾을 수있는 자세한 내용입니다.

모델 ID : Nanonets 계정에 로그인하고 "내 모델"로 이동합니다. 새 모델을 훈련 시키거나 기존 모델의 애플리케이션 ID를 복사 할 수 있습니다.

API 끝점 : 기존 모델을 선택하고 통합을 클릭하여 API 엔드 포인트를 찾을 수 있습니다. 다음은 엔드 포인트가 어떻게 보이는지 보여주는 예입니다.

https://app.nanonets.com/api/v2/OCR/Model/XXXXXXX-4840-4c27-8940-d3add200779e/LabelUrls/

3. API 키 : API 키 탭으로 이동하면 기존 API 키를 복사하거나 새로 만들 수 있습니다.

5 단계 : HTTP 요청을 추가하여 UI 경로에 메서드 및 변수 가져 오기

이제 Nanonet의 모델을 UI 경로에 통합하려면 먼저 HTTP 요청을 클릭하고 입력 섹션의 왼쪽 탐색에서 찾을 수있는 EndPoint를 추가합니다. 아래는 스크린 샷입니다.

나중에 모든 변수를 추가하여 UiPath 스튜디오에서 Nanonets API 로의 연결을 설정하십시오. 이 섹션은 "변수 탭"의 하단 창에서 찾을 수 있습니다. 아래는 스크린 샷입니다. 여기에서 API 키, 엔드 포인트 및 모델 ID를 업데이트 / 복사해야합니다.

6 단계 : 예측을위한 파일 위치 추가

마지막으로, 아래 스크린 샷과 같이 속성 탭 아래에 파일 위치를 추가하고 상단 탐색의 재생 버튼을 눌러 출력을 예측할 수 있습니다.

짜잔! 아래 스크린 샷에서 요청한 문서에 대한 출력은 다음과 같습니다. 더 많이 처리하려면 파일 위치를 추가하고 실행 버튼을 누르기 만하면됩니다.

7 단계 – 출력을 CSV / ERP로 푸시

마지막으로 출력을 원하는 형식으로 사용자 지정하기 위해 Main.XML 파일의 파이프 라인에 새 블록을 추가 할 수 있습니다. 오프라인 파일이나 API 호출을 통해 기존 ERP 시스템에이를 푸시 할 수도 있습니다.

도움이 필요하면 support@nanonets.com으로 문의하십시오.

웨비나

다음 주 화요일에 RPA와 함께 OCR에 대한 웨비나에 참여하십시오. 여기에 등록하십시오.

참고자료

[1] Gartner, 로봇 프로세스 자동화로 재무 부서의 연간 피할 수있는 작업 시간 25,000 시간 절약

[2] 문서 이해 – AI 문서 처리

[3] RPA OCR – 프로세스 자동화 향상 | 좋은

[4] AI를 사용하여 문서 이해를 최적화하는 방법

[5] https://www.uipath.com/product/document-understanding

[6] 송장 OCR을위한 UiPath 워크 플로에서 NanoNets 사용

추가 읽기

다음에 대한 최신 게시물에 관심이있을 수 있습니다.

업데이트 :‌
‌ 문서 이해에서 OCR, RPA의 사용 및 영향에 대한 더 많은 읽기 자료를 추가했습니다.

출처 : https://nanonets.com/blog/ocr-with-rpa-and-document-understanding-uipath/

타임 스탬프 : 2021 년 5 월 19 일

타임 스탬프 : 27년 2023월 XNUMX일

RPA 및 문서 이해를 포함한 OCR에 대한 포괄적 인 가이드

플라톤에 의해 재발행

정의 및 개요

로봇이 OCR 및 ML을 사용하여 문서를 이해하는 방법을 배울 수있는 방법

기업은 지능형 OCR을 RPA와 통합하여 워크 플로우를 개선하는 방법

RPA 개발자가 직면 한 OCR 과제

문서 이해 워크 플로를위한 파이프 라인

문서 이해와 로봇 통합의 이점

나노 넷 입력

UiPath를 사용하는 NanoNet

웨비나

참고자료

추가 읽기

다음에 대한 최신 게시물에 관심이있을 수 있습니다.

더보기 AI 및 머신 러닝

송장 조정이란 무엇입니까?

마스터 은행 조정 분개 | 가이드 및 팁

전문가처럼 조정 프로세스 자동화 | 나노넷

ABBYY Teardown – ABBYY 사용의 장단점

Nanonets 및 ChatGPT로 인보이스 처리 정확도 향상

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정