Hướng dẫn Toàn diện về OCR Với RPA và Hiểu biết về Tài liệu

Được xuất bản lại bởi Plato

Người theo dõi: 0

Cập nhật lần cuối: tháng 2021 năm XNUMX.

Blog này là tổng quan toàn diện về việc sử dụng OCR với bất kỳ công cụ RPA nào để tự động hóa quy trình làm việc tài liệu của bạn. Chúng tôi khám phá cách các công nghệ OCR dựa trên máy học mới nhất không yêu cầu quy tắc hoặc thiết lập mẫu.

RPA hoặc tự động hóa Quy trình rô bốt là các công cụ phần mềm nhằm loại bỏ các nhiệm vụ kinh doanh lặp đi lặp lại. Nhiều CIO đang hướng tới họ để giảm chi phí và giúp nhân viên tập trung vào công việc kinh doanh có giá trị cao hơn. Ví dụ như trả lời các bình luận trên trang web hoặc xử lý đơn đặt hàng của khách hàng. Các tác vụ phức tạp hơn một chút bao gồm xử lý các tài liệu như biểu mẫu viết tay và hoá đơn - những thứ này thường cần được chuyển từ hệ thống kế thừa này sang hệ thống kế thừa - giả sử ứng dụng email của bạn sang hệ thống SAP ERP nơi bạn cần trích xuất dữ liệu. Đây là phần có vấn đề.

Hầu hết các công cụ OCR thu thập dữ liệu từ các tài liệu này đều dựa trên mẫu (giả sử Abbyy Flexicapture) và không mở rộng quy mô tốt trên các tài liệu bán cấu trúc. Có các giải pháp dựa trên máy học thế hệ mới hơn thường cung cấp API
tích hợp có thể nắm bắt các cặp khóa-giá trị từ tài liệu - các hệ thống doanh nghiệp thường là kế thừa và không mở để tích hợp với các API bên ngoài. Mặt khác, RPA được xây dựng để xử lý các quy trình làm việc của hệ thống kế thừa này như nhập tài liệu từ các thư mục và nhập kết quả vào ERP hoặc CRM.

Khi Tự động hóa Quy trình Robot (RPA) và ML đang phát triển theo hướng siêu tự động hóa, chúng ta có thể sử dụng các bot phần mềm kết hợp với ML để xử lý các tác vụ phức tạp như Phân loại tài liệu, Trích xuất và Nhận dạng Ký tự Quang học. Trong một nghiên cứu gần đây, người ta nói rằng bằng cách chỉ tự động hóa 29% các chức năng cho một nhiệm vụ sử dụng RPA, chỉ riêng bộ phận tài chính đã tiết kiệm được hơn 25,000 giờ làm lại do lỗi của con người với chi phí 878,000 đô la mỗi năm cho một tổ chức có 40 nhân viên kế toán thời gian [1]. Trong blog này, chúng ta sẽ tìm hiểu về cách sử dụng OCR với RPA và đi sâu vào quy trình làm việc hiểu tài liệu. Dưới đây là mục lục.

Định nghĩa và Tổng quan

Nói chung, RPA là một công nghệ giúp tự động hóa các tác vụ quản trị thông qua các bot phần mềm-phần cứng. Các bot này tận dụng lợi thế của giao diện người dùng; để nắm bắt dữ liệu và thao tác các ứng dụng như con người vẫn làm. Ví dụ: RPA có thể xem xét một loạt các tác vụ được thực hiện trong GUI, chẳng hạn như con trỏ di chuyển, kết nối với API, sao chép-dán dữ liệu và hình thành chuỗi hành động tương tự trong khung dây RPA được chuyển sang mã. Hơn nữa, những nhiệm vụ này có thể được thực hiện mà không cần sự can thiệp của con người trong tương lai. Nhận dạng ký tự quang học (OCR) là một tính năng quan trọng của bất kỳ giải pháp tự động hóa quy trình robot chức năng (RPA) nào. Công nghệ này được sử dụng để đọc và trích xuất văn bản từ các nguồn khác nhau như hình ảnh hoặc pdf sang định dạng kỹ thuật số mà không cần chụp thủ công.

Mặt khác, Hiểu tài liệu là thuật ngữ được sử dụng để mô tả tự động việc đọc, giải thích và hành động trên dữ liệu tài liệu. Điều quan trọng nhất trong quá trình này là bot phần mềm tự thực hiện tất cả các tác vụ. Các bot này tận dụng sức mạnh của Trí tuệ nhân tạo và Học máy để hiểu tài liệu như trợ lý kỹ thuật số. Bằng cách này, chúng ta có thể nói rằng hiểu biết về tài liệu xuất hiện ở giao điểm của xử lý tài liệu, AI và RPA.

Sự hiểu biết về tài liệu xuất hiện ở giao điểm của xử lý tài liệu, AI và RPA. [Nguồn hình ảnh: Tìm hiểu tài liệu về đường dẫn Ui [2]]

Cách Robot có thể học cách hiểu tài liệu với OCR và ML

Trước khi đi sâu vào Tìm hiểu tài liệu trước tiên, hãy nói về vai trò của rô bốt đối với Tìm hiểu tài liệu. Những người trợ giúp hoàn toàn vô hình này giúp cuộc sống của chúng ta thoải mái hơn rất nhiều. Không giống như phim và loạt phim, những robot này không phải là thiết bị vật lý hoặc chương trình trí tuệ nhân tạo ngồi trên máy tính để bàn và nhấn các nút để thực hiện nhiệm vụ. Chúng ta có thể coi đây là những trợ lý kỹ thuật số được đào tạo để xử lý tài liệu bằng cách đọc và sử dụng các ứng dụng như chúng ta. Về mặt chức năng, robot rất giỏi trong việc cải thiện hiệu suất và hiệu quả của một quy trình. Tuy nhiên, chúng là một phần mềm độc lập, không thể đánh giá quá trình và đưa ra quyết định nhận thức. Tuy nhiên, nếu máy học được tích hợp thành công, người máy sẽ trở nên năng động và thích ứng hơn. Ví dụ: rô bốt được sử dụng để xử lý tài liệu, quản lý dữ liệu và các chức năng khác trong văn phòng cấp cao và cấp trung sẽ thực hiện các hành động thông minh hơn, chẳng hạn như loại bỏ các mục nhập trùng lặp hoặc giải quyết các ngoại lệ hệ thống không xác định trong quy trình. Hơn nữa, các robot được đào tạo để đọc, trích xuất, diễn giải và hoạt động dựa trên dữ liệu từ các tài liệu bằng trí tuệ nhân tạo (AI).

Làm cách nào để các công ty có thể tích hợp OCR thông minh với RPA để cải thiện quy trình làm việc

Trích xuất dữ liệu tài liệu là một thành phần quan trọng để hiểu tài liệu. Trong phần này, chúng ta sẽ thảo luận về cách chúng ta có thể tích hợp OCR với RPA hoặc ngược lại. Đầu tiên, chúng ta đều biết rằng có nhiều loại tài liệu khác nhau về mẫu, kiểu dáng, định dạng và đôi khi là ngôn ngữ. Do đó, chúng tôi không thể dựa vào một kỹ thuật OCR đơn giản để trích xuất dữ liệu từ các tài liệu này. Để giải quyết vấn đề này, chúng tôi sẽ sử dụng cả cách tiếp cận dựa trên quy tắc và cách tiếp cận dựa trên mô hình trong OCR để xử lý dữ liệu từ các cấu trúc tài liệu khác nhau. Bây giờ chúng ta sẽ xem cách các công ty thực hiện OCR có thể tích hợp RPA trong hệ thống hiện có của họ dựa trên loại tài liệu.

Tài liệu có cấu trúc: Trong loại tài liệu này, bố cục và mẫu thường cố định và gần như nhất quán. Ví dụ: hãy xem xét một tổ chức thực hiện KYC với ID do Chính phủ cấp như hộ chiếu hoặc giấy phép lái xe. Tất cả các tài liệu này sẽ giống hệt nhau và có cùng các trường như Số ID, Tên người, Tuổi và một số tài liệu khác ở cùng vị trí. Nhưng chỉ có các chi tiết khác nhau. Có thể có một vài ràng buộc như dữ liệu tràn bảng hoặc dữ liệu chưa được xử lý.

Thông thường, phương pháp được đề xuất sử dụng khuôn mẫu hoặc công cụ dựa trên quy tắc để trích xuất thông tin cho các tài liệu có cấu trúc. Chúng có thể bao gồm các biểu thức chính quy hoặc ánh xạ vị trí đơn giản và OCR. Do đó, để tích hợp rô bốt phần mềm để tự động hóa trích xuất thông tin, chúng tôi có thể sử dụng các mẫu có sẵn hoặc tạo quy tắc cho dữ liệu có cấu trúc của mình. Có một nhược điểm khi sử dụng phương pháp dựa trên quy tắc, vì nó dựa vào các phần cố định, ngay cả những thay đổi nhỏ trong cấu trúc biểu mẫu cũng có thể khiến các quy tắc bị phá vỡ.

Tài liệu bán cấu trúc: Các tài liệu này có thông tin giống nhau nhưng được sắp xếp ở các vị trí khác nhau. Ví dụ, hãy xem xét hoá đơn chứa 8-12 trường giống nhau. Trong một vài hoá đơn, địa chỉ người bán có thể được đặt ở trên cùng, và ở những nơi khác, địa chỉ này có thể được tìm thấy ở dưới cùng. Thông thường, các phương pháp tiếp cận dựa trên quy tắc này không cho độ chính xác cao; do đó chúng tôi đưa các mô hình học máy và học sâu vào bức tranh để khai thác thông tin bằng OCR. Ngoài ra, trong một số trường hợp, chúng ta có thể sử dụng các mô hình kết hợp liên quan đến cả các quy tắc và mô hình ML. Một số mô hình được đào tạo trước phổ biến là FastRCNN, Attention OCR, Graph Convolutions để trích xuất thông tin trong tài liệu. Tuy nhiên, một lần nữa các mô hình này có một số nhược điểm; do đó chúng tôi đo lường hiệu suất thuật toán bằng cách sử dụng các chỉ số như độ chính xác hoặc điểm tin cậy. Bởi vì mô hình đang học các mẫu, thay vì vận hành theo các quy tắc cụ thể, nó có thể mắc lỗi ban đầu ngay sau khi sửa chữa. Tuy nhiên, giải pháp cho những hạn chế này - mô hình ML xử lý càng nhiều mẫu thì nó càng học được nhiều mẫu để đảm bảo độ chính xác.

Tài liệu không có cấu trúc: RPA, ngày nay không thể quản lý dữ liệu phi cấu trúc trực tiếp, do đó yêu cầu rô bốt trước tiên phải trích xuất và tạo dữ liệu có cấu trúc bằng OCR. Không giống như tài liệu có cấu trúc và bán cấu trúc, dữ liệu phi cấu trúc không có một vài cặp khóa-giá trị. Ví dụ, trong một vài hoá đơn, chúng tôi thấy một địa chỉ người bán ở đâu đó mà không có bất kỳ tên chính nào; tương tự, chúng tôi quan sát tương tự đối với các trường khác như ngày tháng, ID hóa đơn. Để các mô hình ML xử lý chính xác những điều này, rô bốt cần học cách dịch văn bản đã viết thành dữ liệu có thể thực hiện được, như email, số điện thoại, địa chỉ, v.v. Sau đó, mô hình sẽ học rằng nên trích xuất các mẫu số gồm 7 hoặc 10 chữ số. dưới dạng số điện thoại và văn bản khổng lồ chứa mã năm chữ số và các danh từ khác nhau dưới dạng văn bản. Để làm cho các mô hình này chính xác hơn, chúng ta cũng có thể sử dụng các kỹ thuật từ Xử lý ngôn ngữ tự nhiên (NLP) như Nhận dạng đối tượng được đặt tên và Nhúng từ.

Nhìn chung để hiểu tài liệu, điều cần thiết đầu tiên là phải hiểu dữ liệu và sau đó triển khai OCR với RPA. Tiếp theo, thay vì vạch ra quy trình từng bước, chúng ta có thể dạy rô bốt “làm như tôi làm” bằng cách ghi lại quá trình khi nó xảy ra với khả năng OCR mạnh mẽ như đã thảo luận ở trên, bằng cách tích hợp các quy tắc và thuật toán học máy. Robot phần mềm thực hiện theo các nhấp chuột và hành động của bạn trên màn hình, sau đó biến chúng thành quy trình làm việc có thể chỉnh sửa. Nếu bạn đang làm việc hoàn toàn trong các chương trình địa phương, đó là nhiều điều bạn cần biết.

Những thách thức OCR mà các nhà phát triển RPA phải đối mặt

Chúng tôi đã thấy cách chúng tôi có thể tích hợp OCRR với RPA cho các tài liệu khác nhau, nhưng có một số trường hợp thách thức mà rô bốt cần xử lý tốt. Hãy thảo luận về chúng ngay bây giờ!

Dữ liệu yếu hoặc không nhất quán: Dữ liệu đóng một vai trò quan trọng trong việc Hiểu tài liệu. Trong hầu hết các trường hợp, tài liệu được quét bằng máy ảnh có khả năng bị mất định dạng tài liệu trong quá trình quét văn bản (nghĩa là không phải lúc nào cũng nhận dạng được chữ in đậm, in nghiêng và gạch chân). Đôi khi, OCR có thể trích xuất văn bản sai cách dẫn đến lỗi chính tả, ngắt đoạn không đều, làm giảm hiệu suất tổng thể của rô bốt. Do đó, việc xử lý tất cả các giá trị bị thiếu và thu thập dữ liệu với độ chính xác cao hơn là rất quan trọng để đạt được độ chính xác cao hơn cho OCR.
Định hướng trang không chính xác trong tài liệu: Định hướng trang và độ nghiêng cũng là một trong những vấn đề phổ biến dẫn đến việc sửa văn bản không chính xác của OCR. Điều này thường xảy ra khi các tài liệu được quét không chính xác trong giai đoạn thu thập dữ liệu. Để khắc phục điều này, chúng tôi sẽ phải khai báo một số chức năng cho rô-bốt như tự động điều chỉnh trang, tự động lọc để chúng có thể cho phép tăng chất lượng của tài liệu được quét và nhận dữ liệu chính xác trên đầu ra.
Vấn đề tích hợp: Không phải tất cả các công cụ RPA đều hoạt động tốt trên môi trường máy tính để bàn từ xa - chúng gây ra sự cố và các vấn đề nghiêm trọng trong tự động hóa. Hơn nữa, nhà phát triển RPA cần biết giải pháp OCR nào sẽ là tốt nhất cho một trường hợp cụ thể. Ngoài ra, để làm việc với các công cụ tự động hóa cụ thể, nhà phát triển RPA chỉ cần chọn công nghệ OCR giới hạn do Microsoft và Google tạo ra. Do đó, việc tích hợp các thuật toán và mô hình tùy chỉnh của chúng tôi đôi khi là một thách thức.
Tất cả văn bản là văn bản xáo trộn: Đối với các trường hợp sử dụng trong đời thực, văn bản được ghi lại bởi một OCR chung đều bị xáo trộn và không có thông tin có ý nghĩa mà các bot có thể sử dụng để thực hiện các hoạt động quan trọng. Các nhà phát triển RPA cần hỗ trợ ML mạnh mẽ để có thể xây dựng các ứng dụng hữu ích.

Đường ống cho Quy trình làm việc Hiểu tài liệu

Trong các phần trước, chúng ta đã biết cách bot giúp thực hiện OCR cho các loại Tài liệu khác nhau. Nhưng OCR chỉ là một kỹ thuật chuyển đổi hình ảnh hoặc các tệp khác thành văn bản. Bây giờ, trong phần này, chúng ta sẽ xem xét quy trình làm việc Tìm hiểu Tài liệu ngay từ khi bắt đầu thu thập tài liệu để cuối cùng lưu chúng thông tin có ý nghĩa vào định dạng mong muốn.

Nhập tài liệu từ một thư mục bằng Bot của bạn: Đây là bước đầu tiên để đạt được hiểu biết tài liệu thông qua bot. Tại đây, chúng tôi sẽ tìm nạp tài liệu trên nền tảng đám mây (sử dụng API) hoặc từ một máy cục bộ. Trong một số trường hợp, nếu tài liệu của chúng tôi nằm trên các trang web, chúng tôi có thể tự động hóa các tập lệnh cóp nhặt thông qua các bot nơi chúng có thể tìm nạp tài liệu kịp thời.
Loại tài liệu: Sau khi chúng tôi tìm nạp dữ liệu, điều cần thiết là phải hiểu loại tài liệu và định dạng mà chúng được lưu trong hệ thống của chúng tôi, vì đôi khi, chúng tôi nhận dữ liệu từ các nguồn khác nhau ở các định dạng tệp khác nhau, chẳng hạn như PDF, PNG và JPG. Không chỉ các loại tệp, đôi khi khi tài liệu được quét bằng camera điện thoại, một số vấn đề khó khăn như độ lệch hình ảnh, xoay, độ sáng hoặc độ phân giải thấp cũng cần được xử lý. Qua đó, chúng ta sẽ phải đảm bảo rằng các bot phân loại các tài liệu này thành danh mục có cấu trúc, bán cấu trúc hoặc không có cấu trúc, do đó sẽ lưu nó ở định dạng chung. Nhiệm vụ phân loại đạt được bằng cách so sánh các tài liệu với các mẫu và phân tích các tính năng như phông chữ, ngôn ngữ, sự hiện diện của các cặp khóa-giá trị, bảng, v.v.
Trích xuất dữ liệu bằng OCR: Được rồi, bây giờ các bot đã sắp xếp tài liệu của chúng ta thành một định dạng chung và phân loại chúng, đã đến lúc chúng ta số hóa chúng bằng kỹ thuật OCR. Với điều này, chúng ta sẽ có văn bản, vị trí của nó trong cùng tọa độ từ các hình ảnh. Điều này giúp chuẩn hóa các tài liệu và dữ liệu cho các bước tiếp theo. Chúng tôi cũng gặp phải một số trường hợp khi phần mềm OCR không thể phân biệt chính xác giữa các ký tự, chẳng hạn như 't' với 'i' hoặc '0' với 'O.' Những lỗi bạn muốn tránh khi sử dụng phần mềm OCR có thể trở thành vấn đề đau đầu mới khi công nghệ OCR không có khả năng phân tích các sắc thái của tài liệu dựa trên chất lượng hoặc hình thức ban đầu của nó. Đây là lúc Máy học đi vào bức tranh, chúng ta sẽ thảo luận trong bước tiếp theo.
Tận dụng ML / DL cho OCR thông minh bằng cách sử dụng Bots: Sau khi dữ liệu được số hóa, phần mềm OCR sẽ hiểu loại tài liệu mà nó đang làm việc và những gì có liên quan. Nhưng phần mềm OCR truyền thống có thể gặp khó khăn trong việc mở rộng các nỗ lực phân loại tài liệu. Do đó, các bot phần mềm nên được đào tạo khả năng nhận thức bằng cách tận dụng các kỹ thuật học máy và học sâu để làm cho OCR thông minh hơn. Các giải pháp OCR dựa trên ML có thể xác định một loại tài liệu và khớp nó với một loại tài liệu đã biết được doanh nghiệp của bạn sử dụng. Họ cũng có thể phân tích cú pháp và hiểu các khối văn bản trong các tài liệu phi cấu trúc. Khi giải pháp biết nhiều hơn về bản thân tài liệu, nó có thể bắt đầu trích xuất thông tin liên quan dựa trên mục đích và ý nghĩa.
Trích xuất và phân loại dữ liệu tốt hơn: Khai thác dữ liệu là cốt lõi của Hiểu tài liệu. Như đã thảo luận trong phần trước về Tích hợp RPA với OCR trong bước này, hãy chọn kỹ thuật trích xuất dữ liệu dựa trên loại tài liệu. Thông qua RPA, chúng tôi có thể dễ dàng định cấu hình bộ giải nén nào sẽ sử dụng, cho dù kỹ thuật OCR dựa trên quy tắc hay dựa trên ML hoặc mô hình kết hợp. Dựa trên các chỉ số về độ tin cậy và hiệu suất được trả lại sau khi trích xuất thông tin, rô bốt phần mềm sẽ lưu chúng ở định dạng mong muốn của chúng tôi để phân tích thêm. Dưới đây là hình ảnh về cách chúng ta có thể cấu hình trình trích xuất và đặt mức độ tin cậy trong công cụ RPA bằng UIPath.

*Chọn trình trích xuất cần thiết để hiểu tài liệu trong đường dẫn giao diện người dùng*

6. Xác thực và trao quyền cho Insights: Các mô hình OCR và Machine Learning không chính xác XNUMX% về mặt khai thác thông tin, do đó việc thêm một lớp can thiệp của con người với sự trợ giúp của robot có thể giải quyết vấn đề. Cách xác thực này hoạt động là bất cứ khi nào rô bốt xử lý với độ chính xác thấp và các ngoại lệ, nó ngay lập tức gửi thông báo tới trung tâm hành động nơi nhân viên có thể nhận được yêu cầu xác thực dữ liệu hoặc xử lý các ngoại lệ và có thể giải quyết bất kỳ sự không chắc chắn nào chỉ bằng một cú nhấp chuột. Hơn nữa, chúng tôi có thể mở khóa tiềm năng của Trí tuệ nhân tạo để ghi lại dữ liệu theo thời gian để đưa ra dự đoán và xác định các điểm bất thường tiềm ẩn có thể chỉ ra gian lận, trùng lặp và các lỗi khác.

Lợi ích của việc tích hợp rô bốt với Hiểu tài liệu

Quy trình tự động hóa: Lý do quan trọng để tích hợp bot để hiểu tài liệu là để tự động hóa toàn bộ quy trình từ đầu đến cuối. Tất cả những gì chúng ta cần làm là tạo một quy trình làm việc để các bot học, ngồi lại và thư giãn. Trong quá trình xác thực, chúng tôi có thể cần giải quyết các vấn đề được các bot thông báo khi xác định được bất kỳ lỗi hoặc gian lận nào.
Bots với Học máy: Trong quá trình tự động hóa, chúng tôi có thể làm cho các bot có khả năng chống chịu với máy học. Có nghĩa là rô bốt cũng có thể học cách các mô hình Học máy đang hoạt động và do đó nâng cao mô hình để đạt được độ chính xác và hiệu suất cao hơn cho việc trích xuất văn bản và thông tin của tài liệu.
Quy trình xử lý tài liệu rộng rãi: Đối với các tác vụ chung như trích xuất bảng và thông tin, chúng tôi sẽ phải tạo các đường dẫn học sâu khác nhau cho các loại tài liệu khác nhau. Điều này dẫn đến việc xây dựng nhiều ứng dụng và triển khai nhiều mô hình khác nhau trên các máy chủ khác nhau, đòi hỏi nhiều công sức và thời gian. Khi các bot trong hình cho nhiều loại tài liệu, chúng ta chỉ có thể có một đường dẫn duy nhất trong đó các bot có thể phân loại chúng và sau đó sử dụng mô hình thích hợp cho các tác vụ khác nhau. Chúng tôi cũng có thể tích hợp các dịch vụ khác nhau thông qua API và giao tiếp với các tổ chức khác về cách tìm nạp dữ liệu.
Dễ dàng triển khai: Để hiểu tài liệu sau khi đường ống được tạo, quá trình triển khai chỉ mất một phút. Chúng tôi có thể có các API được xuất bởi bot sau khi đào tạo hoặc nếu không, chúng tôi có thể xây dựng một giải pháp RPA tùy chỉnh có thể được sử dụng trong các hệ thống cục bộ của chúng tôi. Hình thức triển khai này cũng có thể tối ưu hóa doanh nghiệp và có thể giảm chi phí với rủi ro rất thấp.

Nhập Nanonet

NanoNets là một nền tảng Học máy cho phép người dùng thu thập dữ liệu từ hoá đơn, biên lai và các tài liệu khác mà không cần bất kỳ thiết lập mẫu nào. Chúng tôi có các thuật toán thị giác máy tính và học sâu hiện đại chạy ở phía sau có thể xử lý bất kỳ loại tác vụ hiểu tài liệu nào như OCR, trích xuất bảng, trích xuất cặp khóa-giá trị. Chúng thường được xuất dưới dạng API hoặc có thể được triển khai tại chỗ dựa trên các trường hợp sử dụng khác nhau. Đây là vài ví dụ,

Mô hình hóa đơn: Xác định các trường chính từ Hoá đơn như Tên người mua, Id hóa đơn, Ngày, Số tiền, v.v.
Mô hình Biên lai: Xác định các trường chính từ Biên lai như Tên người bán, Số, Ngày, Số tiền, v.v.
Giấy phép Lái xe (Hoa Kỳ): Xác định các trường chính như Số Giấy phép, DOB, Ngày hết hạn, Ngày cấp, v.v.
Sơ yếu lý lịch: Trích xuất kinh nghiệm, học vấn, bộ kỹ năng, thông tin ứng viên, v.v.

Để làm cho các quy trình công việc này nhanh hơn và mạnh mẽ hơn, chúng tôi sử dụng UiPath, một công cụ RPA để tự động hóa liền mạch các tài liệu của bạn mà không cần bất kỳ mẫu nào. Trong phần tiếp theo, chúng ta sẽ xem xét cách bạn có thể sử dụng UiPath Connect với Nanonets để hiểu tài liệu. 3 công ty lớn nhất trên thị trường RPA là UiPath, Automation Anywhere và Lăng kính xanh. Blog này tập trung vào Uipath.

NanoNets với UiPath

Chúng tôi đã học cách tạo một đường dẫn hiểu tài liệu trong các phần trước của chúng tôi. Nó yêu cầu kiến thức cơ bản về OCR, RPA và Máy học, vì có các cách tiếp cận và thuật toán khác nhau cho các tác vụ khác nhau ở các điểm khác nhau. Ngoài ra, chúng tôi phải dành nhiều nỗ lực để xây dựng Mạng thần kinh hiểu các mẫu của chúng tôi, đào tạo và triển khai chúng. Do đó, để thoải mái và tự động hóa mọi thứ ngay từ việc tải lên tài liệu, phân loại, xây dựng OCR, tích hợp các mô hình ML, chúng tôi tại Nanonets đang làm việc trên Ui Path để tạo ra một đường dẫn thông suốt cho việc Hiểu tài liệu. Dưới đây là hình ảnh về cách hoạt động của nó.

Bây giờ chúng ta hãy xem xét từng điều này và tìm hiểu cách chúng ta có thể tích hợp Nanonet với UiPath.

Bước 1: Đăng ký tại UiPath và tải xuống UiPath Studio

Để tạo quy trình làm việc, trước tiên, chúng tôi sẽ phải tạo một tài khoản trong UiPath. Nếu bạn là người dùng hiện tại, bạn có thể đăng nhập trực tiếp vào tài khoản của mình, chuyển hướng trang tổng quan UiPath của bạn. Tiếp theo, bạn sẽ phải tải xuống và cài đặt UiPath Studio (Community Edition), miễn phí.

Bước 2: Tải xuống thành phần Nanonets

Tiếp theo, để thiết lập quy trình xử lý hóa đơn, bạn sẽ phải tải xuống Trình kết nối Nanonets từ liên kết bên dưới.

-> NanoNets OCR - Thành phần RPA

Dưới đây là ảnh chụp màn hình của UiPath Marketplace và Thành phần Nanonets. Ngoài ra, để tải xuống phần mềm này, hãy đảm bảo bạn đã đăng nhập vào UiPath từ hệ điều hành Windows.

Các tệp đã tải xuống của bạn phải chứa các tệp được liệt kê bên dưới,

UiPath OCR Predict ├── Main.xaml
└── project.json

Bước 3: Mở tệp Main.xaml Nanonets Component

Để kiểm tra xem Nanonets UiPath có hoạt động hay không, bạn có thể mở tệp Main.xml từ thành phần Nanonets đã tải xuống bằng Ui Path Studio. Sau đó, bạn có thể thấy đường dẫn của bạn đã được tạo cho bạn để xử lý tài liệu.

Bước 4: Thu thập ID mô hình, Khóa API và Điểm cuối API của bạn từ Nanonets APP

Tiếp theo, bạn có thể sử dụng bất kỳ mô hình OCR nào đã được đào tạo từ Nanonets APP và thu thập ID mô hình, Khóa API và điểm cuối. Dưới đây là thông tin chi tiết để bạn tìm thấy chúng một cách nhanh chóng.

ID mẫu: Đăng nhập vào tài khoản Nanonets của bạn và điều hướng đến “Mô hình của tôi”. Bạn có thể đào tạo một mô hình mới hoặc sao chép ID ứng dụng của một mô hình hiện có.

Điểm cuối API: Bạn có thể chọn bất kỳ mô hình hiện có nào và nhấp vào Tích hợp để tìm điểm cuối API của mình. Dưới đây là một ví dụ về cách các điểm cuối của bạn trông như thế nào.

https://app.nanonets.com/api/v2/OCR/Model/XXXXXXX-4840-4c27-8940-d3add200779e/LabelUrls/

3. Khóa API: Điều hướng đến tab Khóa API và bạn có thể sao chép bất kỳ Khóa API hiện có nào hoặc tạo một khóa mới.

Bước 5: Thêm Yêu cầu HTTP để nhận phương thức và Biến vào Đường dẫn giao diện người dùng của bạn

Bây giờ để tích hợp Mô hình của bạn từ Nanonets vào Đường dẫn giao diện người dùng, bạn sẽ có lần nhấp đầu tiên vào Yêu cầu HTTP và thêm Điểm cuối, bạn có thể tìm thấy điểm này ở điều hướng bên trái trong phần Đầu vào. Dưới đây là ảnh chụp màn hình.

Sau đó, thêm tất cả các biến của bạn để thiết lập kết nối từ studio UiPath của bạn với Nanonets API. Bạn có thể tìm thấy phần này ở ngăn dưới cùng tại “Tab Biến”. Dưới đây là ảnh chụp màn hình, bạn sẽ phải cập nhật / sao chép Khóa API, Điểm cuối và Model-ID của mô hình của bạn tại đây.

Bước 6: Thêm vị trí tệp cho các dự đoán

Cuối cùng, bạn có thể thêm vị trí tệp của mình trong tab thuộc tính, như được hiển thị trong ảnh chụp màn hình bên dưới và nhấn nút phát trên điều hướng trên cùng để dự đoán kết quả đầu ra của bạn.

Thì đấy! Đây là kết quả đầu ra của chúng tôi cho tài liệu chúng tôi yêu cầu trong ảnh chụp màn hình bên dưới. Để xử lý thêm, bạn chỉ cần thêm vị trí tệp của mình và nhấn nút chạy.

Bước 7 - Đẩy đầu ra vào CSV / ERP

Cuối cùng, để tùy chỉnh đầu ra của chúng tôi thành định dạng mong muốn của bạn, chúng tôi có thể thêm các khối mới vào đường dẫn của bạn trong tệp Main.XML. Chúng tôi cũng có thể đưa điều này vào bất kỳ hệ thống ERP hiện có nào thông qua các tệp ngoại tuyến hoặc các Lệnh gọi API.