Tài liệu là công cụ chính để lưu giữ hồ sơ, liên lạc, cộng tác và giao dịch trong nhiều ngành, bao gồm tài chính, y tế, pháp lý và bất động sản. Hàng triệu đơn xin thế chấp và hàng trăm triệu biểu mẫu thuế W2 được xử lý mỗi năm chỉ là một vài ví dụ về các tài liệu đó.
Dữ liệu kinh doanh quan trọng vẫn được mở khóa trong các tài liệu phi cấu trúc như hình ảnh được quét và tệp PDF và cố gắng để mọi người đọc dữ liệu này hoặc thậm chí là di sản OCR là tẻ nhạt, tốn kém và dễ bị lỗi.
Đây là lý do chúng tôi đưa ra Văn bản Amazon vào năm 2019 để giúp bạn tự động hóa quy trình xử lý tài liệu tẻ nhạt của mình được hỗ trợ bởi AI. Amazon Textract tự động trích xuất văn bản in, chữ viết tay và dữ liệu từ bất kỳ tài liệu nào.
Amazon Textract liên tục cải thiện dịch vụ dựa trên phản hồi của bạn.
Trong bài đăng này, chúng tôi chia sẻ các tính năng và cải tiến đối với dịch vụ Amazon Textract được phát hành mỗi quý.
2022 – Q4
Phân tích Lending để đẩy nhanh quá trình xử lý hồ sơ vay
Tính năng Phân tích cho vay trong Amazon Textract là một API được quản lý giúp bạn tự động hóa quá trình xử lý tài liệu thế chấp để nâng cao hiệu quả kinh doanh, giảm chi phí và mở rộng quy mô nhanh chóng. Phân tích Lending hoàn toàn tự động hóa việc phân loại và trích xuất thông tin từ các gói cho vay. Bạn chỉ cần tải các tài liệu cho vay thế chấp của mình lên API Phân tích cho vay và các mô hình học máy được đào tạo trước của nó sẽ tự động phân loại và phân chia theo loại tài liệu, đồng thời trích xuất các trường thông tin quan trọng từ gói cho vay thế chấp. Tìm hiểu thêm về tính năng này trong bài viết Phân loại và trích xuất dữ liệu khoản vay thế chấp với Amazon Textract.
Khả năng phát hiện chữ ký trên bất kỳ tài liệu nào
Với tính năng này, Amazon Textract cung cấp khả năng phát hiện chữ ký viết tay, chữ ký điện tử và tên viết tắt trên các tài liệu như biểu mẫu đơn xin vay, séc, biểu mẫu yêu cầu, v.v. Tính năng Chữ ký khả dụng như một phần của AnalyzeDocument
API. Nó giảm nhu cầu về người đánh giá và giúp bạn giảm chi phí, tiết kiệm thời gian và xây dựng các giải pháp có thể mở rộng để xử lý tài liệu. AnalyzeDocument
Chữ ký cung cấp vị trí và điểm tin cậy của các chữ ký được phát hiện. Tính năng này có thể được sử dụng độc lập hoặc kết hợp với các tính năng khác của AnalyzeDocument. Chữ ký được đào tạo trước trên nhiều loại tài liệu tài chính, bảo hiểm và thuế. Tìm hiểu thêm về cách sử dụng tính năng này trong tài liệu hướng dẫn cho AnalyzeDocument
API.
Các cải tiến của Biểu mẫu Phân tích Tài liệu cho các biểu mẫu được đóng hộp và phông chữ E13B
Amazon Textract đã thực hiện các cải tiến chất lượng đối với các tính năng trích xuất Văn bản và Biểu mẫu như một phần của AnalyzeDocument
API.
Các bản cập nhật này cải thiện độ chính xác của việc trích xuất cặp khóa-giá trị tổng thể và cải thiện cụ thể việc trích xuất dữ liệu được thu thập trong các biểu mẫu được đóng hộp một ký tự thường thấy trong biểu mẫu thuế, nhập cư và các biểu mẫu khác. Amazon Textract hiện có thể sử dụng kiến thức của mình về các biểu mẫu được đóng hộp một ký tự này để cung cấp độ chính xác cao hơn trong trích xuất cặp khóa-giá trị.
Ngoài ra, chúng tôi vui mừng thông báo hỗ trợ phông chữ E13B thường thấy trong séc gửi tiền, cải tiến độ chính xác để phát hiện Số tài khoản ngân hàng quốc tế (IBAN) được tìm thấy trong tài liệu ngân hàng và các từ dài (chẳng hạn như địa chỉ email) thông qua AnalyzeDocument
API. Các doanh nghiệp trong các ngành như bảo hiểm, chăm sóc sức khỏe và ngân hàng sử dụng các tài liệu này trong quy trình kinh doanh của họ và sẽ tự động thấy được lợi ích của bản cập nhật này khi sử dụng AnalyzeDocument
API.
API AnalyzeExpense thêm các trường mới và đầu ra OCR
Bản cập nhật cho AnalyzeExpense
API tăng số trường chuẩn hóa lên hơn 40. Các trường chuẩn hóa mới được hỗ trợ bao gồm các trường tóm tắt như địa chỉ nhà cung cấp và các trường mục hàng chẳng hạn như mã sản phẩm. Với khả năng mới này, bạn có thể trích xuất trực tiếp thông tin mong muốn của mình, đồng thời tiết kiệm thời gian viết và duy trì mã hậu xử lý phức tạp. Bên cạnh hỗ trợ cho các trường mới, chúng tôi đã cải thiện hơn nữa độ chính xác cho các trường như tên nhà cung cấp và tổng số đã được hỗ trợ trong phiên bản trước.
Cùng với các cặp khóa-giá trị được chuẩn hóa và các cặp giá trị khóa thông thường, AnalyzeExpense
hiện cung cấp toàn bộ đầu ra OCR trong phản hồi API. Bạn có thể lấy cả cặp khóa-giá trị và trích xuất OCR thô thông qua một yêu cầu API. Tìm hiểu thêm về AnalyzeExpense
API trong Phân tích hóa đơn và biên lai.
Phân tích ID hỗ trợ mã vùng có thể đọc được bằng máy và đầu ra OCR
ID phân tích thêm hỗ trợ để trích xuất mã vùng có thể đọc được bằng máy (MRZ) trên hộ chiếu Hoa Kỳ. Đây là phần bổ sung cho các trường khác mà bạn có thể trích xuất trên hộ chiếu Hoa Kỳ, chẳng hạn như số tài liệu, ngày sinh và ngày cấp, với tổng số 10 trường. Bạn có thể tiếp tục trích xuất 19 trường từ giấy phép lái xe của Hoa Kỳ, bao gồm các trường được suy luận như tên, họ và địa chỉ. Bên cạnh hỗ trợ cho trường mã MRZ mới, chúng tôi đã cải thiện hơn nữa độ chính xác cho các trường như ngày hết hạn và nơi sinh đã được hỗ trợ trong phiên bản trước.
Cùng với các cặp khóa-giá trị được chuẩn hóa, ID phân tích cung cấp toàn bộ đầu ra OCR trong phản hồi API với bản phát hành này. Bạn có thể lấy cả cặp khóa-giá trị và trích xuất OCR thô thông qua một yêu cầu API. Tìm hiểu thêm về API ID phân tích của chúng tôi trong Phân tích tài liệu nhận dạng.
2022 – Q3
Các cải tiến về độ chính xác cho trích xuất Văn bản (OCR)
Các mô hình trích xuất Văn bản (OCR) mới nhất hiện có thông qua DetectDocumentText
API cải thiện độ chính xác trích xuất từ và dòng. Amazon Textract cũng đã thêm hỗ trợ cho trích xuất phông chữ E13B, thường thấy trong séc, số IBAN được tìm thấy trong tài liệu ngân hàng và cải thiện độ chính xác đối với các từ dài hơn như địa chỉ email. Để tìm hiểu thêm về việc ra mắt, xem Amazon Textract thông báo cập nhật tính năng trích xuất văn bản.
Cải thiện độ chính xác cho việc trích xuất Biểu mẫu
Amazon Textract hiện cung cấp độ chính xác trích xuất cặp khóa-giá trị nâng cao cho các tài liệu được chuẩn hóa với bố cục nhất quán như biểu mẫu chăm sóc sức khỏe CMS (Trung tâm Medicare và Medicaid), thuế IRS và biểu mẫu bảo hiểm ACORD chọn lọc. Theo truyền thống, những tài liệu này rất khó trích xuất thông tin do bố cục dày đặc và phức tạp của chúng. Amazon Textract hiện có thể sử dụng kiến thức của mình về các biểu mẫu chuẩn hóa này để cung cấp độ chính xác cao hơn trong quá trình trích xuất cặp khóa-giá trị. Các doanh nghiệp trong các ngành như bảo hiểm, chăm sóc sức khỏe và ngân hàng sẽ tự động nhận thấy lợi ích của bản cập nhật này khi họ sử dụng tính năng trích xuất Biểu mẫu. Để biết thêm thông tin, hãy tham khảo Amazon Textract công bố bản cập nhật chất lượng cho tính năng trích xuất Biểu mẫu của mình.
Tích hợp với Định mức dịch vụ AWS
Giờ đây, bạn có thể chủ động quản lý tất cả hạn ngạch dịch vụ Amazon Textract của mình thông qua Hạn ngạch dịch vụ AWS bảng điều khiển. Với Hạn ngạch dịch vụ, các yêu cầu tăng hạn ngạch của bạn giờ đây có thể được xử lý tự động, tăng tốc thời gian phê duyệt trong hầu hết các trường hợp. Ngoài việc xem các giá trị hạn ngạch mặc định, giờ đây bạn có thể xem các giá trị hạn ngạch được áp dụng cho các tài khoản của mình ở một Khu vực cụ thể, chỉ số sử dụng lịch sử trên mỗi hạn ngạch và thiết lập cảnh báo để thông báo cho bạn khi việc sử dụng hạn ngạch nhất định vượt quá ngưỡng có thể định cấu hình.
Ngoài ra, bây giờ bạn có thể sử dụng Công cụ tính hạn ngạch Textract của Amazon để dễ dàng ước tính các yêu cầu định mức cho khối lượng công việc của bạn trước khi gửi yêu cầu tăng định mức trực tiếp từ bảng điều khiển Định mức dịch vụ AWS. Để biết thêm thông tin, xem Giới thiệu quản lý hạn ngạch tự phục vụ và hạn ngạch dịch vụ mặc định cao hơn cho Amazon Textract.
Tăng hạn ngạch dịch vụ mặc định cho Amazon Textract
Amazon Textract hiện có định mức dịch vụ mặc định cao hơn cho một số hoạt động API không đồng bộ và đồng bộ ở nhiều Khu vực AWS chính. Cụ thể, hạn ngạch dịch vụ mặc định cao hơn hiện có sẵn cho AnalyzeDocument
và DetectDocumentText
Các hoạt động không đồng bộ và đồng bộ API ở Miền Đông Hoa Kỳ (Ohio), Miền Đông Hoa Kỳ (Bắc Virginia), Miền Tây Hoa Kỳ (Oregon), Châu Á Thái Bình Dương (Mumbai) và Châu Âu (Ireland). Để biết thêm chi tiết, hãy tham khảo Giới thiệu quản lý hạn ngạch tự phục vụ và hạn ngạch dịch vụ mặc định cao hơn cho Amazon Textract.
Giảm thời gian xử lý công việc trên các API không đồng bộ của Amazon Textract
Amazon Textract cung cấp đồng bộ API Lượt thích Phát HiệnTài LiệuVăn Bản, Phân tíchDocument, Phân tíchChi phívà ID phân tích, trả về phản hồi tài liệu thực tế và không đồng bộ API Lượt thích Bắt đầuPhát hiện Văn bảnTài liệu, Bắt đầuPhân tích Tài liệuvà Bắt đầuPhân tích chi phí, cho phép bạn gửi tài liệu nhiều trang và nhận thông báo khi quá trình xử lý công việc hoàn tất.
Trước đây, khách hàng nói với chúng tôi rằng họ thường thấy sự thay đổi lớn về thời gian xử lý công việc không đồng bộ tùy thuộc vào trường hợp sử dụng của họ. Dựa trên phản hồi của bạn, chúng tôi đã cải thiện trải nghiệm sao cho bạn có thể thấy các giới hạn chặt chẽ hơn về thời gian xử lý công việc không đồng bộ được thực hiện với độ biến thiên thấp hơn.
Tổng kết
Amazon Textract liên tục cải tiến dựa trên phản hồi của khách hàng và thường xuyên phát hành các tính năng cũng như cải tiến mới cho dịch vụ.
Các tính năng mới khả dụng ở tất cả các Khu vực, trừ khi các Khu vực cụ thể được đề cập cho một tính năng.
Tự mình khám phá Amazon Textract ngay hôm nay trên Bảng điều khiển Amazon Textract hoặc sử dụng Giao diện dòng lệnh AWS (AWS CLI) hoặc Công cụ dành cho nhà phát triển AWS!
Lưu ý
Martin Schade là Chuyên gia phân tích sản phẩm ML cấp cao của nhóm Amazon Textract. Anh ấy có hơn 20 năm kinh nghiệm với các công nghệ, giải pháp kỹ thuật và kiến trúc liên quan đến internet và gia nhập AWS vào năm 2014, lần đầu tiên hướng dẫn một số khách hàng AWS lớn nhất về cách sử dụng dịch vụ AWS hiệu quả và có thể mở rộng nhất, sau đó tập trung vào AI/ML với trọng tâm là về tầm nhìn máy tính và hiện đang bị ám ảnh bởi việc trích xuất thông tin từ tài liệu.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/2022h2-amazon-textract-launch-summary/
- 10
- 100
- 2014
- 2019
- a
- Có khả năng
- Giới thiệu
- đẩy nhanh tiến độ
- Tài khoản
- Trợ Lý Giám Đốc
- chính xác
- ngang qua
- thêm
- Ngoài ra
- địa chỉ
- địa chỉ
- Thêm
- AI
- AI / ML
- Tất cả
- Đã
- đàn bà gan dạ
- Văn bản Amazon
- phân tích
- và
- Thông báo
- thông báo
- api
- Các Ứng Dụng
- các ứng dụng
- áp dụng
- phê duyệt
- Á
- Châu á Thái Bình Dương
- tự động hóa
- tự động hóa
- tự động
- có sẵn
- AWS
- Ngân hàng
- tài khoản ngân hàng
- Ngân hàng
- dựa
- Lợi ích
- xây dựng
- kinh doanh
- quy trình kinh doanh
- các doanh nghiệp
- trường hợp
- trường hợp
- Trung tâm
- thách thức
- Séc
- xin
- phân loại
- Phân loại
- CMS
- mã
- hợp tác
- kết hợp
- thông thường
- Giao tiếp
- hoàn thành
- phức tạp
- máy tính
- Tầm nhìn máy tính
- sự tự tin
- thích hợp
- An ủi
- tiếp tục
- Chi phí
- quan trọng
- khách hàng
- khách hàng
- dữ liệu
- Ngày
- Mặc định
- Tùy
- nạp tiền
- chi tiết
- phát hiện
- Nhà phát triển
- trực tiếp
- tài liệu
- tài liệu
- lái xe
- mỗi
- dễ dàng
- Đông
- hiệu quả
- hiệu quả
- Kỹ Sư
- nâng cao
- Toàn bộ
- lôi
- bất động sản
- ước tính
- Ether (ETH)
- Châu Âu
- Ngay cả
- ví dụ
- vượt quá
- mong đợi
- đắt tiền
- kinh nghiệm
- trích xuất
- khai thác
- Chất chiết xuất
- Đặc tính
- Tính năng
- thông tin phản hồi
- vài
- lĩnh vực
- Lĩnh vực
- tài chính
- Tên
- Tập trung
- tập trung
- phông chữ
- các hình thức
- tìm thấy
- thường xuyên
- từ
- đầy đủ
- xa hơn
- được
- được
- chăm sóc sức khỏe
- giúp đỡ
- giúp
- cao hơn
- lịch sử
- Độ đáng tin của
- Hướng dẫn
- HTML
- HTTPS
- Nhân loại
- Con người
- Hàng trăm
- hàng trăm triệu
- Bản sắc
- hình ảnh
- nhập cư
- nâng cao
- cải thiện
- cải tiến
- cải thiện
- in
- bao gồm
- Bao gồm
- Tăng lên
- Tăng
- các ngành công nghiệp
- thông tin
- bảo hiểm
- Quốc Tế
- ireland
- IRS
- thuế quan
- vấn đề
- IT
- Việc làm
- gia nhập
- giữ
- Key
- kiến thức
- lớn
- lớn nhất
- Họ
- mới nhất
- phóng
- phát động
- LEARN
- học tập
- Legacy
- Hợp pháp
- cho vay
- giấy phép
- Dòng
- cho vay
- địa điểm thư viện nào
- dài
- còn
- máy
- học máy
- thực hiện
- chính
- quản lý
- quản lý
- quản lý
- nhiều
- y khoa
- Trị bịnh
- đề cập
- Metrics
- hàng triệu
- ML
- mô hình
- thời điểm
- chi tiết
- Thế chấp
- hầu hết
- nhiều
- Mumbai
- tên
- Cần
- Mới
- Các tính năng mới
- thông báo
- con số
- số
- OCR
- Cung cấp
- Ohio
- Hoạt động
- Oregon
- Nền tảng khác
- tổng thể
- Hòa bình
- gói
- cặp
- một phần
- qua
- Nơi
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- vừa lòng
- Bài đăng
- -
- trước
- chính
- Trước khi
- Quy trình
- xử lý
- Sản phẩm
- cho
- cung cấp
- chất lượng
- Quý
- Mau
- Nguyên
- Đọc
- thực
- bất động sản
- nhận
- ghi
- giảm
- làm giảm
- khu
- vùng
- đều đặn
- phát hành
- phát hành
- Phát hành
- vẫn còn
- yêu cầu
- yêu cầu
- Yêu cầu
- phản ứng
- trở lại
- SA
- Lưu
- khả năng mở rộng
- Quy mô
- Tự phục vụ
- dịch vụ
- DỊCH VỤ
- định
- một số
- Chia sẻ
- Chữ ký
- đơn giản
- duy nhất
- Giải pháp
- một số
- riêng
- đặc biệt
- chia
- độc lập
- trình
- như vậy
- TÓM TẮT
- hỗ trợ
- Hỗ trợ
- thuế
- nhóm
- Công nghệ
- Sản phẩm
- cung cấp their dịch
- ngưỡng
- Thông qua
- chặt chẽ hơn
- thời gian
- thời gian
- đến
- bây giờ
- công cụ
- Tổng số:
- theo truyền thống
- Giao dịch
- Cập nhật
- Cập nhật
- us
- sử dụng
- ca sử dụng
- sử dụng
- giá trị
- Các giá trị
- nhiều
- nhà cung cấp
- phiên bản
- thông qua
- Xem
- virginia
- tầm nhìn
- hướng Tây
- cái nào
- rộng
- Wikipedia
- sẽ
- Từ
- từ
- Luồng công việc
- viết
- năm
- năm
- trên màn hình
- mình
- zephyrnet