Trích xuất dữ liệu từ tài liệu được quét

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trích xuất dữ liệu từ tài liệu được quét

Tìm cách trích xuất dữ liệu từ các tài liệu được quét? Cố gắng Ống nano™ tiên tiến Máy quét OCR dựa trên AI trích xuất và sắp xếp thông tin từ tài liệu được quét tự động.

Giới thiệu

Khi thế giới đã chuyển từ giấy tờ và tài liệu viết tay sang tài liệu kỹ thuật số để thuận tiện, tầm quan trọng của việc chuyển đổi hình ảnh và tài liệu được quét thành dữ liệu có ý nghĩa đã tăng vọt.

Để đáp ứng nhu cầu trích xuất dữ liệu tài liệu chính xác cao, nhiều cơ sở nghiên cứu và tập đoàn (ví dụ: Google, AWS, Nanonets, v.v.) đã tập trung sâu vào các công nghệ trong lĩnh vực thị giác máy tính và Xử lý ngôn ngữ tự nhiên (NLP).

Sự nở rộ của công nghệ học sâu đã đảm bảo một bước nhảy vọt khổng lồ về loại dữ liệu có thể được trích xuất; chúng tôi không còn bị ràng buộc trong việc chỉ trích xuất văn bản mà còn cả các cấu trúc dữ liệu khác như bảng và các cặp khóa-giá trị. Nhiều giải pháp hiện nay cung cấp các sản phẩm khác nhau để đáp ứng nhu cầu của các cá nhân và chủ doanh nghiệp trong việc trích xuất dữ liệu tài liệu.

Bài viết này đi sâu vào công nghệ hiện tại được sử dụng để trích xuất dữ liệu từ các tài liệu được quét, tiếp theo là một hướng dẫn thực hành ngắn bằng Python. Chúng tôi cũng sẽ xem xét một số giải pháp phổ biến hiện nay trên thị trường cung cấp các dịch vụ tốt nhất trong lĩnh vực này.

Trích xuất dữ liệu từ tài liệu được quét

Trích xuất dữ liệu là gì?

Khai thác dữ liệu là quá trình chuyển đổi dữ liệu phi cấu trúc thành thông tin có thể diễn giải được bằng các chương trình để cho phép con người xử lý dữ liệu hơn nữa. Dưới đây chúng tôi liệt kê một số loại dữ liệu phổ biến nhất được trích xuất từ các tài liệu được quét.

Dữ liệu văn bản

Nhiệm vụ phổ biến nhất và quan trọng nhất trong việc trích xuất dữ liệu từ các tài liệu được quét là trích xuất văn bản. Quá trình này, mặc dù có vẻ đơn giản, nhưng trên thực tế lại rất khó khăn vì các tài liệu được quét thường được trình bày dưới dạng hình ảnh. Ngoài ra, các phương pháp trích xuất còn phụ thuộc nhiều vào các loại văn bản. Mặc dù phần lớn thời gian, văn bản xuất hiện ở các định dạng in dày đặc, khả năng trích xuất văn bản thưa thớt từ các tài liệu được quét kém hơn hoặc từ các bức thư viết tay với nhiều kiểu dáng khác nhau cũng quan trọng không kém. Quá trình như vậy sẽ cho phép các chương trình chuyển đổi hình ảnh sang văn bản được mã hóa bằng máy, nơi chúng ta có thể sắp xếp chúng hơn nữa từ dữ liệu phi cấu trúc (không có định dạng nhất định) thành dữ liệu có cấu trúc để phân tích thêm.

💡

Bạn muốn hiểu các thuật toán học sâu cung cấp năng lượng cho các quá trình như vậy? Đi đến của chúng tôi Blog được giải thích về LayoutLM

Bàn

Biểu mẫu dạng bảng là cách tiếp cận phổ biến nhất để lưu trữ dữ liệu vì định dạng này có thể dễ dàng hiểu được bằng mắt người. Quá trình trích xuất bảng từ tài liệu được quét yêu cầu công nghệ ngoài khả năng phát hiện ký tự — người ta phải phát hiện các dòng và các đặc điểm hình ảnh khác để thực hiện trích xuất bảng thích hợp và chuyển đổi thêm những thông tin đó thành dữ liệu có cấu trúc để tính toán thêm. Các phương pháp thị giác máy tính (được mô tả chi tiết trong các phần sau) được sử dụng nhiều để đạt được việc trích xuất bảng có độ chính xác cao.

Các cặp khóa-giá trị

Một định dạng thay thế mà chúng tôi thường áp dụng trong các tài liệu để lưu trữ dữ liệu là các cặp khóa-giá trị (KVP).

KVP về cơ bản là hai mục dữ liệu - một khóa và một giá trị - được liên kết với nhau thành một. Khóa được sử dụng làm mã định danh duy nhất cho giá trị cần truy xuất. Một ví dụ KVP cổ điển là từ điển, trong đó từ vựng là khóa và định nghĩa tương ứng là giá trị. Những cặp này, mặc dù thường không được chú ý, nhưng thực tế lại được sử dụng rất thường xuyên trong các tài liệu: các câu hỏi trong khảo sát như tên, tuổi và giá của các mặt hàng trong hóa đơn đều ngầm hiểu là KVP.

Tuy nhiên, không giống như các bảng, KVP thường tồn tại ở các định dạng không xác định và đôi khi thậm chí còn được viết tay một phần. Ví dụ: các khóa có thể được in sẵn trong hộp và các giá trị được viết tay khi điền vào biểu mẫu. Do đó, việc tìm ra các cấu trúc bên dưới để tự động thực hiện khai thác KVP là một quá trình nghiên cứu liên tục ngay cả đối với các cơ sở và phòng thí nghiệm tiên tiến nhất.

Số liệu

Cuối cùng, việc giải nén hoặc thu thập dữ liệu từ các số liệu trong một tài liệu được quét. Các chỉ số thống kê như biểu đồ tròn và biểu đồ thanh thường bao gồm thông tin quan trọng cho tài liệu. Một quy trình trích xuất dữ liệu tốt sẽ có thể suy ra từ các truyền thuyết và các con số để trích xuất một phần dữ liệu từ các số liệu để sử dụng thêm.

Tìm cách trích xuất dữ liệu từ các tài liệu được quét? Cung cấp Nanonet™ một vòng quay để có độ chính xác cao hơn, tính linh hoạt cao hơn, xử lý hậu kỳ và một loạt các tích hợp!

Công nghệ đằng sau việc khai thác dữ liệu

Khai thác dữ liệu xoay quanh hai quy trình chính: Nhận dạng ký tự quang học (OCR) tiếp theo là Xử lý ngôn ngữ tự nhiên (NLP).

Trích xuất OCR là quá trình chuyển đổi hình ảnh văn bản thành văn bản được mã hóa bằng máy, trong khi quá trình sau là phân tích các từ để suy ra nghĩa. Thường đi kèm với OCR là các kỹ thuật thị giác máy tính khác như phát hiện hộp và dòng để trích xuất các kiểu dữ liệu nói trên như bảng và KVP để trích xuất toàn diện hơn.

Những cải tiến cốt lõi đằng sau đường ống khai thác dữ liệu được kết nối chặt chẽ với những tiến bộ trong học tập sâu đã đóng góp rất nhiều vào lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên (NLP).

Học sâu là gì?

Học sâu, có một vai trò quan trọng đằng sau sự thổi phồng của kỷ nguyên trí tuệ nhân tạo, và liên tục được đẩy lên hàng đầu trong nhiều ứng dụng. Trong kỹ thuật truyền thống, mục tiêu của chúng tôi là thiết kế một hệ thống / chức năng tạo ra đầu ra từ một đầu vào nhất định; Mặt khác, học sâu dựa vào các đầu vào và đầu ra để tìm ra mối quan hệ trung gian có thể được mở rộng sang dữ liệu mới chưa nhìn thấy thông qua cái gọi là mạng lưới thần kinh.

Mạng nơron hoặc perceptron nhiều lớp (MLP), là một kiến trúc học máy được lấy cảm hứng từ cách bộ não con người học hỏi. Mạng chứa các tế bào thần kinh, chúng bắt chước các tế bào thần kinh sinh học và “kích hoạt” khi được cung cấp thông tin khác nhau. Các tập hợp tế bào thần kinh tạo thành các lớp và nhiều lớp được xếp chồng lên nhau để tạo thành một mạng lưới nhằm phục vụ mục đích dự đoán của nhiều dạng (ví dụ: phân loại hình ảnh hoặc hộp giới hạn để phát hiện đối tượng).

Trong lĩnh vực thị giác máy tính, một loại biến thể mạng thần kinh được áp dụng rất nhiều - mạng thần kinh tích chập (CNN). Thay vì các lớp truyền thống, CNN sử dụng các hạt nhân tích tụ trượt qua các tenxơ (hoặc các vectơ chiều cao) để trích xuất các tính năng. Cuối cùng, đồng hành với các lớp mạng truyền thống, CNN rất thành công trong các nhiệm vụ liên quan đến hình ảnh, và tiếp tục hình thành cơ sở cho việc trích xuất OCR và phát hiện các tính năng khác.

Mặt khác, NLP phụ thuộc vào một tập hợp các mạng khác, tập trung vào dữ liệu chuỗi thời gian. Không giống như hình ảnh, trong đó một hình ảnh độc lập với nhau, dự đoán văn bản có thể được hưởng lợi phần lớn nếu các từ trước hoặc sau cũng được tính đến. Trong vài năm qua, một gia đình mạng, cụ thể là ký ức dài hạn ngắn hạn (LSTM), lấy kết quả trước đó làm đầu vào để dự đoán kết quả hiện tại. Các LSTM song phương cũng thường được áp dụng để nâng cao kết quả dự đoán, trong đó cả kết quả trước và sau đều được xem xét. Tuy nhiên, trong những năm gần đây, khái niệm về máy biến áp sử dụng cơ chế chú ý đang bắt đầu rộ lên do tính linh hoạt cao hơn dẫn đến kết quả tốt hơn so với các mạng truyền thống xử lý chuỗi thời gian tuần tự.

Ứng dụng khai thác dữ liệu

Mục tiêu chính của việc trích xuất dữ liệu là chuyển đổi dữ liệu từ các tài liệu phi cấu trúc sang các định dạng có cấu trúc, trong đó việc truy xuất văn bản, số liệu và cấu trúc dữ liệu có độ chính xác cao có thể rất hữu ích cho việc phân tích số và ngữ cảnh. Những phân tích này có thể rất hữu ích, đặc biệt là đối với các doanh nghiệp:

Kinh doanh

Các tập đoàn kinh doanh và tổ chức lớn xử lý hàng nghìn thủ tục giấy tờ có định dạng tương tự hàng ngày - Các ngân hàng lớn nhận được nhiều đơn đăng ký giống hệt nhau và các nhóm nghiên cứu phải phân tích hàng đống biểu mẫu để tiến hành phân tích thống kê. Do đó, việc tự động hóa bước đầu tiên trong việc trích xuất dữ liệu từ tài liệu giúp giảm đáng kể tình trạng dư thừa nguồn nhân lực và cho phép người lao động tập trung vào việc phân tích dữ liệu và xem xét ứng dụng thay vì nhập thông tin.

Xác minh ứng dụng — Các công ty nhận được rất nhiều đơn đăng ký, dù là viết tay hay chỉ thông qua các mẫu đơn đăng ký. Trong hầu hết các trường hợp, các ứng dụng này có thể kèm theo ID cá nhân cho mục đích xác minh. Các tài liệu được quét về ID như hộ chiếu hoặc thẻ thường được xuất xưởng theo lô có định dạng tương tự nhau. Do đó, một trình trích xuất dữ liệu được viết tốt có thể nhanh chóng chuyển đổi dữ liệu (văn bản, bảng, số liệu, KVP) thành văn bản mà máy có thể hiểu được, điều này có thể giảm đáng kể thời gian làm việc của con người đối với các tác vụ này và tập trung vào việc lựa chọn ứng dụng thay vì trích xuất.
Đối chiếu Thanh toán — Đối chiếu thanh toán là quá trình so sánh các bảng sao kê ngân hàng để đảm bảo khớp số giữa các tài khoản, chủ yếu xoay quanh việc trích xuất dữ liệu từ các tài liệu - một vấn đề đầy thách thức đối với một công ty có quy mô đáng kể và nhiều nguồn thu nhập khác nhau. Trích xuất dữ liệu có thể đơn giản hóa quá trình này và cho phép nhân viên tập trung vào dữ liệu bị lỗi và khám phá các sự kiện gian lận tiềm ẩn về dòng tiền.
Phân tích thống kê — Phản hồi từ khách hàng hoặc người tham gia thử nghiệm được các công ty và tổ chức sử dụng để cải thiện sản phẩm và dịch vụ của họ và việc đánh giá phản hồi toàn diện thường sẽ cần phân tích thống kê. Tuy nhiên, dữ liệu khảo sát có thể tồn tại ở nhiều định dạng hoặc ẩn giữa các văn bản với nhiều định dạng khác nhau. Việc trích xuất dữ liệu có thể đơn giản hóa quá trình bằng cách chỉ ra dữ liệu rõ ràng từ các tài liệu theo lô, giảm bớt quá trình tìm kiếm các quy trình hữu ích và cuối cùng là tăng hiệu quả.
Chia sẻ các bản ghi trong quá khứ — Từ chăm sóc sức khỏe đến chuyển đổi dịch vụ ngân hàng, các ngành lớn thường yêu cầu thông tin khách hàng mới có thể đã có ở nơi khác. Ví dụ: một bệnh nhân chuyển bệnh viện do di chuyển có thể có hồ sơ y tế từ trước có thể hữu ích cho bệnh viện mới. Trong những trường hợp như vậy, một phần mềm trích xuất dữ liệu tốt sẽ rất hữu ích vì tất cả những gì cá nhân cần là mang bản sao lịch sử đã quét đến bệnh viện mới để họ tự động điền tất cả thông tin. Điều này không chỉ thuận tiện mà còn có thể tránh được những rủi ro lớn, đặc biệt là trong ngành chăm sóc sức khỏe khi hồ sơ bệnh nhân quan trọng bị bỏ qua.

Khóa hướng dẫn

Để cung cấp cái nhìn rõ ràng hơn về cách thực hiện trích xuất dữ liệu, chúng tôi hiển thị hai nhóm phương pháp thực hiện trích xuất dữ liệu từ tài liệu quét.

Xây dựng từ Scratch

Người ta có thể xây dựng một công cụ OCR trích xuất dữ liệu đơn giản thông qua công cụ PyTesseract như sau:

try: from PIL import Image
except ImportError: import Image
import pytesseract # If you don't have tesseract executable in your PATH, include the following:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# Example tesseract_cmd = r'C:Program Files (x86)Tesseract-OCRtesseract' # Simple image to string
print(pytesseract.image_to_string(Image.open('test.png'))) # List of available languages
print(pytesseract.get_languages(config='')) # French text image to string
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra')) # In order to bypass the image conversions of pytesseract, just use relative or absolute image path
# NOTE: In this case you should provide tesseract supported images or tesseract will return error
print(pytesseract.image_to_string('test.png')) # Batch processing with a single file containing the list of multiple image file paths
print(pytesseract.image_to_string('images.txt')) # Timeout/terminate the tesseract job after a period of time
try: print(pytesseract.image_to_string('test.jpg', timeout=2)) # Timeout after 2 seconds print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # Timeout after half a second
except RuntimeError as timeout_error: # Tesseract processing is terminated pass # Get bounding box estimates
print(pytesseract.image_to_boxes(Image.open('test.png'))) # Get verbose data including boxes, confidences, line and page numbers
print(pytesseract.image_to_data(Image.open('test.png'))) # Get information about orientation and script detection
print(pytesseract.image_to_osd(Image.open('test.png'))) # Get a searchable PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f: f.write(pdf) # pdf type is bytes by default # Get HOCR output
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr') # Get ALTO XML output
xml = pytesseract.image_to_alto_xml('test.png')

Để biết thêm thông tin về mã, bạn có thể kiểm tra chính thức của họ tài liệu hướng dẫn.

Nói cách đơn giản, mã trích xuất dữ liệu như văn bản và hộp giới hạn từ một hình ảnh nhất định. Mặc dù khá hữu ích, nhưng động cơ không mạnh bằng động cơ được cung cấp bởi các giải pháp tiên tiến do sức mạnh tính toán đáng kể của chúng để đào tạo.

Sử dụng API tài liệu của Google

 def async_detect_document(gcs_source_uri, gcs_destination_uri):
"""OCR with PDF/TIFF as source files on GCS""" import json import re from google.cloud import vision from google.cloud import storage # Supported mime_types are: 'application/pdf' and 'image/tiff' mime_type = 'application/pdf' # How many pages should be grouped into each json output file. batch_size = 2 client = vision.ImageAnnotatorClient() feature = vision.Feature( type_=vision.Feature.Type.DOCUMENT_TEXT_DETECTION) gcs_source = vision.GcsSource(uri=gcs_source_uri) input_config = vision.InputConfig( gcs_source=gcs_source, mime_type=mime_type) gcs_destination = vision.GcsDestination(uri=gcs_destination_uri) output_config = vision.OutputConfig( gcs_destination=gcs_destination, batch_size=batch_size) async_request = vision.AsyncAnnotateFileRequest( features=[feature], input_config=input_config, output_config=output_config) operation = client.async_batch_annotate_files( requests=[async_request]) print('Waiting for the operation to finish.') operation.result(timeout=420) # Once the request has completed and the output has been # written to GCS, we can list all the output files. storage_client = storage.Client() match = re.match(r'gs://([^/]+)/(.+)', gcs_destination_uri) bucket_name = match.group(1) prefix = match.group(2) bucket = storage_client.get_bucket(bucket_name) # List objects with the given prefix. blob_list = list(bucket.list_blobs(prefix=prefix)) print('Output files:') for blob in blob_list: print(blob.name) # Process the first output file from GCS. # Since we specified batch_size=2, the first response contains # the first two pages of the input file. output = blob_list[0] json_string = output.download_as_string() response = json.loads(json_string) # The actual response for the first page of the input file. first_page_response = response['responses'][0] annotation = first_page_response['fullTextAnnotation'] # Here we print the full text from the first page. # The response contains more information: # annotation/pages/blocks/paragraphs/words/symbols # including confidence scores and bounding boxes print('Full text:n') print(annotation['text'])

Cuối cùng, AI tài liệu của Google cho phép bạn trích xuất nhiều thông tin từ các tài liệu với độ chính xác cao. Ngoài ra, dịch vụ này cũng được cung cấp cho các mục đích sử dụng cụ thể, bao gồm trích xuất văn bản cho cả hình ảnh thông thường và hình ảnh hoang dã.

Vui lòng tham khảo trước tại đây để biết thêm.

Giải pháp hiện tại cung cấp khai thác dữ liệu

Bên cạnh các tập đoàn lớn có API để trích xuất dữ liệu tài liệu, có một số giải pháp cung cấp độ chính xác cao PDF OCR dịch vụ. Chúng tôi trình bày một số tùy chọn PDF OCR chuyên về các khía cạnh khác nhau, cũng như một số nguyên mẫu nghiên cứu gần đây dường như cung cấp kết quả đầy hứa hẹn *:

* Lưu ý bên: Có nhiều dịch vụ OCR được nhắm mục tiêu đến các tác vụ như hình ảnh trong môi trường hoang dã. Chúng tôi đã bỏ qua các dịch vụ đó vì chúng tôi hiện chỉ tập trung vào đọc tài liệu PDF.

API Google — Là một trong những nhà cung cấp dịch vụ trực tuyến lớn nhất, Google mang lại những kết quả đáng kinh ngạc trong việc trích xuất tài liệu bằng công nghệ thị giác máy tính tiên phong của họ. Người ta có thể sử dụng dịch vụ của họ miễn phí nếu mức sử dụng khá thấp, nhưng giá sẽ tăng lên khi số lệnh gọi API tăng lên.
Trình đọc sâu — Deep Reader là một công trình nghiên cứu được công bố tại ACCV Conference 2019. Nó kết hợp nhiều kiến trúc mạng tiên tiến để thực hiện các tác vụ như khớp tài liệu, truy xuất văn bản và làm giảm hình ảnh. Có các tính năng bổ sung như bảng và trích xuất cặp khóa-giá trị cho phép dữ liệu được truy xuất và lưu một cách có tổ chức.
Nanonets ™ — Với đội ngũ deep learning có tay nghề cao, Nanonets™ PDF OCR hoàn toàn độc lập với khuôn mẫu và quy tắc. Do đó, Nanonets™ không chỉ có thể hoạt động trên các loại tệp PDF cụ thể mà còn có thể được áp dụng cho bất kỳ loại tài liệu nào để truy xuất văn bản.

Kết luận

Kết luận, bài viết này trình bày một lời giải thích cặn kẽ về việc trích xuất dữ liệu từ các tài liệu được quét, bao gồm những thách thức đằng sau nó và công nghệ cần thiết cho quá trình này.

Hai hướng dẫn về các phương pháp khác nhau được trình bày và các giải pháp hiện tại cung cấp nó ngoài hộp cũng được trình bày để tham khảo.

Dấu thời gian: 17 Tháng Năm, 2022

Dấu thời gian: Tháng Bảy 6, 2022

Trích xuất dữ liệu từ tài liệu được quét

Được xuất bản lại bởi Plato

Giới thiệu

Trích xuất dữ liệu là gì?

Dữ liệu văn bản

Bàn

Các cặp khóa-giá trị

Số liệu

Công nghệ đằng sau việc khai thác dữ liệu

Học sâu là gì?

Ứng dụng khai thác dữ liệu

Kinh doanh

Khóa hướng dẫn

Xây dựng từ Scratch

Sử dụng API tài liệu của Google

Giải pháp hiện tại cung cấp khai thác dữ liệu

Kết luận

Thêm từ AI & Máy học

Cách phân tích cú pháp dữ liệu Excel giống như một chuyên gia

Sự tham gia của nhà cung cấp hoặc sự tham gia của nhà cung cấp là gì?

Cách dễ dàng thực hiện Nhận dạng chữ viết tay bằng Máy học

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản