Amazon Textract 및 Amazon A2I를 사용하여 사람의 감독으로 거래 문서의 디지털화 자동화

소스 노드 : 1215686

이 게시물에서는 다음을 사용하여 거래 문서를 디지털화하는 솔루션을 제시합니다. 아마존 텍사스 다음을 사용하여 인적 검토를 통합합니다. 아마존 증강 AI (A2I). 솔루션 소스는 다음에서 찾을 수 있습니다. GitHub의 저장소.

조직은 사기 탐지 또는 재무 승인과 같은 작업을 수행할 수 있도록 구조화된 텍스트로 스캔한 거래 문서를 자주 처리해야 합니다. 테이블 형식 데이터가 포함된 거래 문서의 몇 가지 일반적인 예에는 은행 거래 명세서, 송장 및 BOM이 있습니다. 이러한 문서에서 수동으로 데이터를 추출하는 것은 비용이 많이 들고 시간이 많이 걸리며 전문 인력을 교육하는 데 상당한 투자가 필요한 경우가 많습니다. 이 게시물에 설명된 아키텍처를 사용하면 낮은 품질의 스캔 문서에서도 표 형식 데이터를 디지털화하고 높은 정확도를 얻을 수 있습니다.

스캔한 텍스트 문서를 처리할 때 정확성과 신뢰성을 높이기 위해 머신 러닝(ML) 기반 알고리즘이 크게 발전했습니다. 이러한 알고리즘은 텍스트 인식 및 콘텐츠 추출에서 인간 수준의 성능과 일치하는 경우가 많습니다. Amazon Textract는 스캔한 문서에서 인쇄된 텍스트, 필기 및 기타 데이터를 자동으로 추출하는 완전관리형 서비스입니다. 또한 Amazon Textract는 스캔한 문서에서 양식과 표를 자동으로 식별하고 추출할 수 있습니다.

복잡하고 다양하며 민감한 문서를 처리하는 회사는 추출된 데이터의 정확성, 일관성 및 규정 준수를 보장하기 위해 사람의 감독이 필요한 경우가 많습니다. 검토자가 입력을 제공하면 AI 모델을 미세 조정하여 특정 비즈니스 프로세스의 미묘한 뉘앙스를 포착할 수 있습니다. Amazon A2I는 사람이 검토하는 데 필요한 워크플로를 쉽게 구축할 수 있는 ML 서비스입니다. Amazon A2I는 인적 검토 시스템을 구축하거나 많은 수의 인적 검토자를 관리하는 것과 관련된 획일적인 무거운 작업을 제거하고 인력에게 통합되고 안전한 경험을 제공합니다.

은행 거래 명세서의 직불 카드 거래 목록과 같은 스캔 문서에서 거래 데이터를 추출하는 것은 고유한 과제를 안고 있습니다. 인공 지능과 사람의 검토를 결합하면 이러한 장애물을 극복하기 위한 실용적인 접근 방식이 제공됩니다. Amazon Textract와 Amazon A2I를 결합한 통합 솔루션이 그 중 하나입니다.

소비자는 일상적으로 스마트폰을 사용하여 거래 문서를 스캔하고 업로드합니다. 조명 조건, 기울어진 원근감, 적절하지 않은 이미지 해상도를 포함한 전체 스캔 품질에 따라 이러한 문서가 컴퓨터 비전(CV) 기술을 사용하여 처리될 때 최적이 아닌 정확도를 보이는 경우가 많습니다. 동시에 수동 작업을 사용하여 스캔한 문서를 처리하면 처리 비용과 처리 시간이 증가하고 파이프라인에서 처리할 수 있는 문서의 양을 확장하는 능력이 제한될 수 있습니다.

솔루션 개요

다음 다이어그램은 솔루션의 워크플로를 보여줍니다.

엔드 투 엔드 워크플로는 다음 단계를 수행합니다.

  1. 스캔한 소스 문서에서 테이블을 추출합니다.
  2. 테이블에서 데이터를 추출할 때 사용자 정의 비즈니스 규칙을 적용합니다.
  3. 사람이 검토할 수 있도록 까다로운 문서를 선택적으로 에스컬레이션합니다.
  4. 추출된 데이터에 대해 후처리를 수행합니다.
  5. 결과를 저장합니다.

Amazon Textract가 낮은 신뢰도의 추출 점수를 제공하는 경우(예: 텍스트가 모호하거나 흐릿하거나 기타 불분명한 경우) 문서의 문제를 직관적이고 효율적으로 검토하고 수정할 수 있도록 ReactJS로 구축된 사용자 지정 사용자 인터페이스가 검토자에게 제공됩니다.

우리의 참조 솔루션은 다양한 문서 처리 단계를 조정하기 위해 다음 다이어그램에 자세히 설명된 것처럼 매우 탄력적인 파이프라인을 사용합니다.

이 솔루션은 몇 가지 아키텍처 모범 사례를 통합합니다.

  • 일괄 처리 – 가능한 경우 솔루션은 처리량을 최적화하고 리소스를 보다 효율적으로 사용할 수 있도록 여러 문서를 수집하고 일괄 작업을 수행해야 합니다. 예를 들어, 각 문서에 대한 모델을 개별적으로 호출하는 것과 달리 문서 그룹에 대해 한 번만 추론을 실행하기 위해 사용자 지정 AI 모델을 호출합니다. 우리 솔루션의 설계는 적절한 경우 일괄 처리를 가능하게 해야 합니다.
  • 우선순위 조정 – 대기열에 있는 문서의 양이 증가하고 솔루션이 더 이상 적시에 처리할 수 없는 경우 특정 문서의 우선 순위가 더 높으므로 대기열의 다른 문서보다 먼저 처리되어야 함을 나타내는 방법이 필요합니다. .
  • 자동 스케일링 – 솔루션은 동적으로 확장 및 축소할 수 있어야 합니다. 많은 문서 처리 워크플로는 수요의 주기적인 특성을 지원해야 합니다. 부하 급증을 처리하도록 원활하게 확장하고 부하가 줄어들면 다시 축소할 수 있도록 솔루션을 설계해야 합니다.
  • 자기 규제 – 솔루션은 외부 서비스 중단 및 속도 제한을 정상적으로 처리할 수 있어야 합니다.

문서 처리 단계

이 섹션에서는 문서 처리 워크플로의 각 단계에 대한 세부 정보를 안내합니다.

  • 획득
  • 매출 상승
  • 추출
  • 고쳐서 만들기
  • 맞춤형 비즈니스 운영
  • 증가
  • 카탈로그

획득

파이프라인의 첫 번째 단계는 다음에서 입력 문서를 가져옵니다. 아마존 단순 스토리지 서비스 (아마존 S3). 이 단계에서 초기 문서 정보를 저장합니다. 아마존 DynamoDB 다음을 통해 S3 이벤트 알림을 받은 후 테이블 아마존 단순 대기열 서비스 (아마존 SQS). 이 테이블 레코드를 사용하여 전체 파이프라인에서 이 문서의 진행 상황을 추적합니다.

각 문서의 우선 순위는 문서 경로에서 영숫자 입력 키 접두사를 정렬하여 결정됩니다. 예를 들어 키로 저장된 문서 acquire/p0/doc.pdf 결과 우선 순위 p0이 지정되고 키와 함께 저장된 다른 문서보다 우선합니다. acquire/p1/doc.pdf (우선순위 p1이 됨). 키에 우선 순위 표시기가 없는 문서는 마지막에 처리됩니다.

매출 상승

이전 단계에서 획득한 문서는 PDF 형식으로 변환되므로 나머지 파이프라인에 대해 일관된 데이터 형식을 제공할 수 있습니다. 이를 통해 관련 문서의 여러 페이지를 일괄 처리할 수 있습니다.

추출

PDF 문서는 OCR(광학 문자 인식)을 수행하기 위해 Amazon Textract로 전송됩니다. Amazon Textract의 결과는 Amazon S3의 폴더에 JSON으로 저장됩니다.

고쳐서 만들기

Amazon Textract는 원시 텍스트, 키-값 쌍 및 테이블을 포함하여 처리된 문서에서 자세한 정보를 제공합니다. 상당한 양의 추가 메타데이터가 감지된 개체 블록 간의 위치와 관계를 식별합니다. 이 단계에서 추가 처리를 위해 트랜잭션 데이터가 선택됩니다.

맞춤형 비즈니스 운영

사용자 정의 비즈니스 규칙은 문서의 테이블에 대한 정보를 포함하는 재구성된 출력에 적용됩니다. 사용자 정의 규칙에는 테이블 형식 감지(예: 테이블에 확인 트랜잭션이 포함되어 있는지 감지) 또는 열 유효성 검사(예: 제품 코드 열에 유효한 코드만 포함되어 있는지 확인)가 포함될 수 있습니다.

증가

휴먼 어노테이터는 Amazon A2I를 사용하여 문서를 검토하고 누락된 정보를 추가합니다. 검토에는 잘못된 테이블 유형, 필드 머리글 및 잘못 예측된 개별 셀 텍스트와 같은 오류에 대해 문서의 각 테이블을 분석하는 작업이 포함됩니다. 추출 단계에서 제공하는 신뢰도 점수는 검토자가 덜 정확한 예측을 쉽게 찾을 수 있도록 UI에 표시됩니다. 다음 스크린샷은 이 용도로 사용되는 사용자 정의 UI를 보여줍니다.

우리의 솔루션은 사내 주석자로 구성된 개인 인적 검토 인력을 사용합니다. 민감한 문서나 고도로 전문화된 도메인 지식이 필요한 문서를 처리할 때 이상적인 옵션입니다. Amazon A2I는 또한 다음을 통해 인적 검토 인력을 지원합니다. 아마존 기계 터크 및 Amazon의 승인된 데이터 레이블 지정 파트너.

카탈로그

인적 검토를 통과한 문서는 Excel 통합 문서로 분류되어 비즈니스 팀에서 쉽게 사용할 수 있습니다. 통합 문서에는 원본 문서에서 감지 및 처리된 각 테이블이 테이블 유형 및 페이지 번호로 레이블이 지정된 해당 시트에 포함되어 있습니다. 이러한 Excel 파일은 예를 들어 ML 기술을 사용하여 사기 탐지를 수행하는 비즈니스 애플리케이션에서 사용하기 위해 Amazon S3의 폴더에 저장됩니다.

솔루션 배포

이 참조 솔루션은 GitHub에서 사용할 수 있으며 다음을 사용하여 배포할 수 있습니다. AWS 클라우드 개발 키트 (AWS CDK). AWS CDK는 애플리케이션 모델링을 위해 프로그래밍 언어의 친숙함과 표현력을 사용합니다. 라는 고급 구성 요소를 제공합니다. 구성 검증된 기본값으로 클라우드 리소스를 사전 구성하므로 클라우드 애플리케이션을 쉽게 구축할 수 있습니다.

클라우드 애플리케이션 배포에 대한 지침은 README 파일을 참조하십시오. GitHub의 레포.

솔루션 데모

다음 비디오는 솔루션 데모를 안내합니다.

결론

이 게시물은 Amazon Textract 및 Amazon A2I를 사용하여 트랜잭션 문서를 처리하는 사용자 지정 디지털화 솔루션을 구축하는 방법을 보여주었습니다. 우리는 입력 매니페스트를 자동화 및 강화했으며 맞춤형 비즈니스 규칙을 시행했습니다. 또한 인력이 낮은 신뢰도 점수로 데이터를 검토하고, 필요한 조정을 수행하고, 피드백을 사용하여 기본 ML 모델을 개선할 수 있도록 직관적인 사용자 인터페이스를 제공했습니다. ReactJS와 같은 사용자 정의 프론트엔드 프레임워크를 사용하는 기능을 통해 특히 공개, 비공개 또는 타사 데이터 레이블링 인력을 사용할 때 정확한 요구 사항을 충족하는 최신 웹 애플리케이션을 만들 수 있습니다.

Amazon Textract 및 Amazon A2I에 대한 자세한 내용은 다음을 참조하십시오. Amazon Augmented AI를 사용하여 Amazon Textract 출력에 인적 검토 추가. 비디오 프레젠테이션, 샘플 Jupyter 노트북 또는 문서 처리, 콘텐츠 조정, 감정 분석, 텍스트 번역 등과 같은 사용 사례에 대한 정보는 다음을 참조하세요. 아마존 증강 AI 리소스.

팀 소개

Amazon ML 솔루션 랩은 조직에서 ML 전문가와 짝을 이루어 ML 솔루션을 식별하고 구축하여 조직의 최고의 ML 기회를 해결할 수 있도록 도와줍니다. 디스커버리 워크숍 및 아이디어 세션을 통해 ML 솔루션 랩은 비즈니스 문제에서 "역방향으로 작업"하여 이를 해결하기 위한 구현 계획과 함께 우선 순위가 지정된 ML 사용 사례의 로드맵을 제공합니다. 당사의 ML 과학자는 사람의 검토가 필요한 솔루션을 포함하여 고객의 문제를 해결하기 위해 컴퓨터 비전, 음성 처리 및 자연어 처리와 같은 영역에서 고급 ML 모델을 설계 및 개발합니다.


저자에 관하여

프리 노니스 Amazon ML Solutions Lab의 딥 러닝 아키텍트입니다. 여기에서 다양한 업종의 고객과 협력하여 고객이 클라우드 마이그레이션 여정을 가속화하고 최첨단 솔루션 및 기술을 사용하여 ML 문제를 해결할 수 있도록 지원합니다.

댄 노블 Amazon의 소프트웨어 개발 엔지니어로 즐거운 사용자 경험을 구축하는 데 도움을 줍니다. 여가 시간에는 가족과 함께 독서, 운동, 모험을 즐깁니다.

장재성 소프트웨어 개발 엔지니어입니다. 그의 열정은 비즈니스 실행을 보장하기 위해 AI 솔루션 및 오케스트레이션 기술을 사용하여 수동 프로세스를 자동화하는 데 있습니다.

제레미 펠트 라코 Amazon Web Services의 Amazon ML Solutions Lab의 소프트웨어 개발 엔지니어입니다. 그는 컴퓨터 비전, 로봇 공학 및 기계 학습에 대한 배경을 사용하여 AWS 고객이 AI 채택을 가속화 할 수 있도록 지원합니다.

데이비드 다사리 의 매니저입니다 Amazon ML 솔루션 랩, 그는 AWS 고객이 다양한 산업 분야에 걸쳐 Human-In-The-Loop 솔루션에서 AI 및 클라우드 채택을 가속화하도록 돕습니다. ERP 및 결제 서비스를 배경으로 ML/AI가 고객을 기쁘게 하는 데 매진하여 이 분야로 이끌었습니다.

타임 스탬프 :

더보기 AWS 기계 학습