Xử lý trước tài liệu PDF với Amazon Textract: Phát hiện và loại bỏ hình ảnh

Được xuất bản lại bởi Plato

Người theo dõi: 0

Văn bản Amazon là một dịch vụ máy học được quản lý hoàn toàn (ML) tự động trích xuất văn bản in, chữ viết tay và các dữ liệu khác từ các tài liệu được quét vượt ra ngoài nhận dạng ký tự quang học đơn giản (OCR) để xác định, hiểu và trích xuất dữ liệu từ các biểu mẫu và bảng. Amazon Textract có thể phát hiện văn bản trong nhiều loại tài liệu, bao gồm báo cáo tài chính, hồ sơ y tế và biểu mẫu thuế.

Trong nhiều trường hợp sử dụng, bạn cần trích xuất và phân tích tài liệu với nhiều hình ảnh khác nhau, chẳng hạn như biểu trưng, ảnh và biểu đồ. Những hình ảnh này chứa văn bản được nhúng làm phức tạp kết quả đầu ra của Amazon Textract hoặc không cần thiết cho quá trình hạ nguồn của bạn. Ví dụ, nhiều biểu mẫu hoặc tài liệu đánh giá bất động sản có hình ảnh về ngôi nhà hoặc xu hướng giá cả trong lịch sử. Thông tin này không cần thiết trong các quy trình xuôi dòng và bạn phải xóa nó trước khi sử dụng Amazon Textract để phân tích tài liệu. Trong bài đăng này, chúng tôi minh họa hai phương pháp hiệu quả để xóa những hình ảnh này như một phần của quá trình xử lý trước của bạn.

Tổng quan về giải pháp

Đối với bài đăng này, chúng tôi sử dụng một tệp PDF có chứa biểu trưng và biểu đồ làm ví dụ. Chúng tôi sử dụng hai loại quy trình khác nhau để chuyển đổi và phát hiện những hình ảnh này, sau đó chỉnh sửa chúng.

Trong phương pháp đầu tiên, chúng tôi sử dụng trình dò cạnh canny của thư viện OpenCV để phát hiện cạnh của hình ảnh. Đối với phương pháp thứ hai, chúng tôi viết một công cụ phân tích nồng độ pixel tùy chỉnh để phát hiện vị trí của những hình ảnh này.

Bạn có thể trích xuất những hình ảnh này để xử lý thêm và dễ dàng sửa đổi mã để phù hợp với trường hợp sử dụng của bạn.

Các tệp PDF có thể tìm kiếm là các tệp PDF gốc thường được tạo bởi các ứng dụng khác, chẳng hạn như trình xử lý văn bản, máy in PDF ảo và trình chỉnh sửa gốc. Các loại PDF này giữ lại thông tin siêu dữ liệu, văn bản và hình ảnh bên trong tài liệu. Bạn có thể dễ dàng sử dụng các thư viện như PyMuPDF / fitz để điều hướng cấu trúc PDF và xác định hình ảnh và văn bản. Trong bài đăng này, chúng tôi tập trung vào các tài liệu không thể tìm kiếm hoặc dựa trên hình ảnh.

Tùy chọn 1: Phát hiện hình ảnh với bộ dò cạnh OpenCV

Theo cách tiếp cận này, chúng tôi chuyển đổi tệp PDF sang định dạng PNG, sau đó chuyển đổi thang độ xám của tài liệu với OpenCV-Python thư viện và sử dụng Canny Edge Detector để phát hiện các vị trí trực quan. Bạn có thể làm theo các bước chi tiết sau đây máy tính xách tay.

Chuyển đổi tài liệu sang thang độ xám.

Áp dụng thuật toán Canny Edge để phát hiện các đường viền trong tài liệu Canny-Edged.
Xác định các đường bao hình chữ nhật với các kích thước liên quan.

Bạn có thể điều chỉnh thêm và tối ưu hóa một số tham số để tăng độ chính xác của phát hiện tùy thuộc vào trường hợp sử dụng của bạn:

Chiều cao và chiều rộng tối thiểu - Các tham số này xác định các ngưỡng chiều cao và chiều rộng tối thiểu để phát hiện trực quan. Nó được biểu thị bằng tỷ lệ phần trăm của kích thước trang.
Đệm - Khi phát hiện một đường bao hình chữ nhật, chúng tôi xác định vùng đệm phụ để có một số linh hoạt trên tổng diện tích của trang sẽ được biên tập. Điều này rất hữu ích trong trường hợp các văn bản trong hình ảnh không nằm trong các khu vực hình chữ nhật được phân định rõ ràng.

Ưu điểm và nhược điểm

Cách tiếp cận này có những ưu điểm sau:

Nó đáp ứng hầu hết các trường hợp sử dụng
Rất dễ thực hiện và thiết lập và chạy nhanh chóng
Các thông số tối ưu của nó mang lại kết quả tốt

Tuy nhiên, phương pháp này có những hạn chế sau:

Đối với hình ảnh không có hộp bao quanh hoặc các cạnh xung quanh, hiệu suất có thể khác nhau tùy thuộc vào loại hình ảnh
Nếu một khối văn bản nằm bên trong các hộp giới hạn lớn, toàn bộ khối văn bản có thể được coi là trực quan và bị loại bỏ bằng cách sử dụng logic này

Tùy chọn 2: Phân tích nồng độ pixel

Chúng tôi thực hiện cách tiếp cận thứ hai bằng cách phân tích các pixel hình ảnh. Các đoạn văn bản bình thường giữ được chữ ký tập trung trong các dòng của nó. Chúng tôi có thể đo và phân tích mật độ pixel để xác định các khu vực có mật độ pixel không giống với phần còn lại của tài liệu. Bạn có thể làm theo các bước chi tiết sau đây máy tính xách tay.

Chuyển đổi tài liệu sang thang độ xám.
Chuyển vùng xám sang trắng.
Thu gọn các pixel theo chiều ngang để tính toán độ tập trung của các pixel đen.
Chia tài liệu thành các sọc ngang hoặc phân đoạn để xác định những phần không phải là văn bản đầy đủ (kéo dài trên toàn bộ trang).

Đối với tất cả các phân đoạn ngang không phải là văn bản đầy đủ, hãy xác định các khu vực là văn bản so với các khu vực là hình ảnh. Điều này được thực hiện bằng cách lọc ra các phần sử dụng ngưỡng nồng độ pixel đen tối thiểu và tối đa.
Loại bỏ các khu vực được xác định là không phải toàn văn.

Bạn có thể điều chỉnh các thông số sau để tối ưu hóa độ chính xác của việc xác định các vùng không phải văn bản:

Ngưỡng phân đoạn ngang không phải văn bản - Xác định ngưỡng nồng độ pixel đen tối thiểu và tối đa được sử dụng để phát hiện các phân đoạn ngang không phải văn bản trong trang.
Ngưỡng phân đoạn dọc không phải văn bản - Xác định ngưỡng tập trung pixel đen tối thiểu và tối đa được sử dụng để phát hiện các phân đoạn dọc không phải văn bản trong trang.
Kích thước cửa sổ - Kiểm soát cách trang được chia thành các phân đoạn ngang và dọc để phân tích (X_WINDOW, Y_WINDOW). Nó được xác định bằng số lượng pixel.
Diện tích hình ảnh tối thiểu - Xác định diện tích nhỏ nhất có thể coi là hình ảnh cần loại bỏ. Nó được xác định bằng pixel.
Ngưỡng màu xám - Ngưỡng cho các sắc thái của màu xám bị xóa.

Ưu điểm và nhược điểm

Cách tiếp cận này có thể tùy chỉnh cao. Tuy nhiên, nó có những nhược điểm sau:

Tham số tối ưu mất nhiều thời gian hơn và để hiểu sâu hơn về giải pháp
Nếu tài liệu không được chỉnh sửa hoàn hảo (hình ảnh được chụp bởi máy ảnh với một góc), phương pháp này có thể không thành công.

Kết luận

Trong bài đăng này, chúng tôi đã chỉ ra cách bạn có thể triển khai hai cách tiếp cận để chỉnh sửa hình ảnh từ các tài liệu khác nhau. Cả hai cách tiếp cận đều dễ thực hiện. Bạn có thể nhận được kết quả chất lượng cao và tùy chỉnh một trong hai phương pháp tùy theo trường hợp sử dụng của bạn.

Để tìm hiểu thêm về các kỹ thuật khác nhau trong Amazon Textract, hãy truy cập công khai AWS Mẫu GitHub repo.

Về các tác giả

Nguyên Giang là một Kiến trúc sư Giải pháp Sr với trọng tâm là học máy. Anh ấy là thành viên của chương trình Amazon Computer Vision Hero và Cộng đồng lĩnh vực kỹ thuật máy học Amazon.

Victor Red là một Kiến trúc sư Giải pháp Đối tác Sr với trọng tâm là AI hội thoại. Anh ấy cũng là thành viên của chương trình Amazon Computer Vision Hero.