Văn bản Amazon là một dịch vụ máy học (ML) tự động trích xuất văn bản, chữ viết tay và dữ liệu từ bất kỳ tài liệu hoặc hình ảnh nào. Để đơn giản hóa việc đánh giá các khả năng của Amazon Textract, chúng tôi đã ra mắt tính năng Trình tải lên tài liệu hàng loạt mới trên bảng điều khiển Amazon Textract cho phép bạn xử lý nhanh bộ tài liệu của riêng mình mà không cần viết bất kỳ mã nào.
Trong bài đăng này, chúng ta sẽ tìm hiểu thời điểm và cách sử dụng Trình tải lên tài liệu hàng loạt của Amazon Textract để đánh giá hiệu suất của Amazon Textract trên tài liệu của bạn.
Tổng quan về giải pháp
Trình tải lên tài liệu hàng loạt nên được sử dụng để đánh giá nhanh Amazon Textract cho các trường hợp sử dụng được xác định trước. Bằng cách tải lên đồng thời nhiều tài liệu thông qua giao diện người dùng trực quan, bạn có thể dễ dàng đánh giá mức độ hiệu quả của Amazon Textract đối với tài liệu của mình.
Bạn có thể tải lên và xử lý tối đa 150 tài liệu cùng một lúc. Không giống như các bản trình diễn bảng điều khiển Amazon Textract hiện có áp đặt các giới hạn nhân tạo về số lượng tài liệu, kích thước tài liệu và số trang tối đa được phép, Trình tải lên tài liệu hàng loạt hỗ trợ xử lý tối đa 150 tài liệu cho mỗi yêu cầu và có cùng kích thước tài liệu và giới hạn trang như API Amazon Textract. Điều này giúp bạn đánh giá một bộ tài liệu lớn hơn hiệu quả hơn.
Trình tải lên tài liệu hàng loạt xuất ra tệp CSV và phản hồi JSON Textract tiêu chuẩn của Amazon. Các kết quả được cung cấp ở định dạng JSON để dễ dàng phân tích theo chương trình. Ngoài ra, tệp CSV mà con người có thể đọc được với điểm tin cậy được cung cấp để so sánh và đánh giá đơn giản thông tin được trích xuất.
Khi sử dụng tính năng này, hãy ghi nhớ những điều sau:
- Trình tải lên tài liệu hàng loạt xử lý tài liệu qua hoạt động không đồng bộ. Bạn có thể theo dõi trạng thái xử lý trên bảng điều khiển Amazon Textract. Chỉ một Phát HiệnTài LiệuVăn Bản (OCR), Phân tíchDocument (Bảng, Truy vấn, Biểu mẫu và Chữ ký), và Phân tíchChi phí API hiện được hỗ trợ.
- Trình tải lên tài liệu hàng loạt cung cấp kết quả JSON của hoạt động API và báo cáo CSV được định dạng. Bạn có thể cần dựa vào các công cụ bên ngoài để trực quan hóa dữ liệu, chẳng hạn như hiển thị các điểm nổi bật của hộp giới hạn trên tài liệu bằng kết quả JSON.
- Sử dụng tính năng này để xử lý tài liệu sẽ phát sinh phí giống như sử dụng Amazon Textract thông thường (tùy thuộc vào tính năng nào được sử dụng) và tuân theo giới hạn TPS (giao dịch mỗi giây) đối với API được đặt cho tài khoản và Khu vực. Để biết thêm thông tin về giá cả, hãy tham khảo Định giá Amazon Textract. Để tìm hiểu thêm về các giới hạn của Amazon Textract, hãy tham khảo Hạn ngạch trong Amazon Textract.
- Các định dạng tệp được chấp nhận cho trình tải lên hàng loạt là JPEG, PNG, TIF và PDF. Hình ảnh được mã hóa JPEG 2000 trong PDF cũng được hỗ trợ. Các tệp JPEG và PNG có giới hạn kích thước 10 MB, trong khi các tệp PDF và TIF có giới hạn kích thước 500 MB. Các tệp PDF và TIF nhiều trang có giới hạn 3,000 trang.
Sử dụng Trình tải lên tài liệu hàng loạt
Trình tải lên tài liệu hàng loạt nhằm giúp bạn nhanh chóng đánh giá hiệu quả hoạt động của Amazon Textract trên một bộ tài liệu của riêng bạn mà không cần phải viết bất kỳ mã nào. Bạn có thể sử dụng Trình tải lên tài liệu hàng loạt để xử lý tối đa 150 tài liệu thay vì tải lên và xử lý từng tài liệu riêng lẻ. Bạn có thể tải lên hàng loạt tài liệu trực tiếp từ máy tính của mình hoặc nhập tài liệu từ một tài liệu hiện có Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) xô.
Trình tải lên tài liệu hàng loạt cung cấp kết quả mà bạn có thể tải xuống sau để xem xét ngoại tuyến. Mỗi tệp ZIP có thể tải xuống chứa phản hồi API Amazon Textract ở định dạng tệp JSON và tệp CSV đầu ra mà con người có thể đọc được chứa dữ liệu được trích xuất và điểm tin cậy. Kết quả đầu ra có sẵn để tải xuống trong 7 ngày sau khi xử lý. Sau 14 ngày, tài liệu được xóa khỏi tài liệu đã nộp phần. Để sử dụng Trình tải lên tài liệu hàng loạt, hãy hoàn thành các bước sau:
- Trên bảng điều khiển Amazon Textract, bên dưới Demo trong ngăn điều hướng, chọn Trình tải lên tài liệu hàng loạt.
- Chọn Tải lên Tài liệu.
- Chỉ định nguồn tài liệu của bạn.
Bạn có hai tùy chọn để tải tài liệu lên:
- Nhập tài liệu từ thùng S3 – Nếu bạn đang sử dụng bộ chứa S3 cho tài liệu của mình, hãy cung cấp URL bộ chứa và (tùy chọn) tiền tố nơi chứa tài liệu của bạn, trong
s3://your-bucket/prefix/
định dạng. Ngoài ra, chọn Duyệt qua S3 để duyệt và chọn vị trí mong muốn của tài liệu của bạn. Nếu vị trí Amazon S3 mà bạn chỉ định chứa hơn 150 tài liệu, thì chỉ 150 tài liệu đầu tiên sẽ được gửi tới Amazon Textract để xử lý. - Tải lên tài liệu từ máy tính của bạn – Nếu bạn đang tải tài liệu lên từ máy tính của mình, bạn có thể tải lên tối đa 50 tài liệu cùng lúc bằng cách chọn Tải lên Tài liệu. Để tải lên các tài liệu bổ sung (tối đa 150), hãy chọn thêm tài liệu sau khi tài liệu ban đầu của bạn được tải lên.
Trong trường hợp này, tài liệu của bạn trước tiên được tải lên bộ chứa S3 trong tài khoản được tạo thay mặt bạn, do đó, điều quan trọng là phải đảm bảo rằng bạn có quyền truy cập và tải tài liệu lên Amazon S3. Đây là tác vụ một lần và cùng một bộ chứa sẽ được sử dụng cho tất cả các lần tải lên tiếp theo từ máy tính của bạn. Nếu bạn muốn tải lên và xử lý cùng một bộ tài liệu, bạn có thể sử dụng đường dẫn đến bộ chứa S3 này bằng cách sử dụng Nhập tài liệu từ thùng S3 lựa chọn. Nhóm S3 được tạo thay mặt bạn sẽ hiển thị sau khi nhóm được tạo.
- Tiếp theo, chỉ định tính năng Amazon Textract mà bạn muốn sử dụng để xử lý tài liệu của mình.
Bạn chỉ có thể chọn một tính năng tại một thời điểm để xử lý tài liệu của mình. Nếu bạn cần đánh giá các tính năng bổ sung, bạn phải tạo một yêu cầu riêng bằng cách chọn tính năng mong muốn và tải lại tài liệu lên. Nếu Phân tích tài liệu – Truy vấn được chọn, bạn cần cung cấp các truy vấn bạn muốn kiểm tra đối với tài liệu của mình. Bạn có thể chỉ định tối đa 30 truy vấn cùng một lúc. Nếu tài liệu đã tải lên chứa tệp nhiều trang (PDF hoặc TIF), các truy vấn chỉ được áp dụng cho trang đầu tiên của mỗi tài liệu. tham khảo Thực tiễn tốt nhất cho truy vấn để tìm hiểu về cách xây dựng truy vấn.
- Chọn Bắt đầu xử lý để gửi tài liệu tới Amazon Textract để xử lý.
Bạn có thể theo dõi trạng thái tài liệu và tải xuống kết quả đầu ra của các tài liệu đã xử lý trong tài liệu đã nộp phần. Phần này cập nhật định kỳ và bạn có thể làm mới nó theo cách thủ công để xem quá trình xử lý đã hoàn tất chưa. Mỗi tài liệu được xử lý riêng lẻ, vì vậy bạn có thể chọn tài liệu với Sẵn sàng để tải trạng thái hoặc đợi toàn bộ tài liệu xử lý xong mới tải kết quả xuống. Đầu ra của các tài liệu được xử lý sẽ vẫn có sẵn để tải xuống trong tối đa 7 ngày, sau đó chúng sẽ hết hạn. Các tài liệu hết hạn sẽ bị xóa khỏi tài liệu đã nộp phần sau 7 ngày bổ sung (14 ngày kể từ ngày được xử lý). Chúng tôi khuyên bạn nên tải xuống và bảo quản kết quả đầu ra trong khoảng thời gian 7 ngày.
Kết luận
Trong bài đăng này, chúng tôi đã công bố tính năng Trình tải lên tài liệu hàng loạt của Amazon Textract mới, cho phép bạn xử lý nhanh một số lượng lớn tài liệu cho mục đích đánh giá. Bạn có thể sử dụng tính năng này để đánh giá Amazon Textract cho trường hợp sử dụng được xác định trước với tài liệu của mình. Để tìm hiểu thêm về cách bạn có thể sử dụng Amazon Textract trong khối lượng công việc xử lý tài liệu thông minh của mình, hãy truy cập Các tính năng của Amazon Textract và Bắt đầu với Amazon Textract.
Về các tác giả
Shaswat Sapre là Giám đốc Sản phẩm Kỹ thuật Cấp cao của nhóm Amazon Textract. Anh ấy tập trung vào việc xây dựng các dịch vụ dựa trên máy học cho khách hàng AWS. Khi rảnh rỗi, anh ấy thích đọc sách về công nghệ mới, đi du lịch và khám phá các nền ẩm thực khác nhau.
Anjan Biswas là Kiến trúc sư giải pháp dịch vụ AI cấp cao, tập trung vào AI/ML và Phân tích dữ liệu. Anjan là thành viên của nhóm dịch vụ AI trên toàn thế giới và làm việc với khách hàng để giúp họ hiểu và phát triển các giải pháp cho các vấn đề kinh doanh với AI và ML. Anjan có hơn 14 năm kinh nghiệm làm việc với các tổ chức chuỗi cung ứng, sản xuất và bán lẻ toàn cầu, đồng thời đang tích cực giúp khách hàng bắt đầu và mở rộng quy mô trên các dịch vụ AI của AWS.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoAiStream. Thông minh dữ liệu Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Đúc kết tương lai với Adryenn Ashley. Truy cập Tại đây.
- Mua và bán cổ phần trong các công ty PRE-IPO với PREIPO®. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- : có
- :là
- :Ở đâu
- $ LÊN
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- Giới thiệu
- truy cập
- Tài khoản
- Hoạt động
- tích cực
- thêm vào
- Ngoài ra
- Sau
- một lần nữa
- chống lại
- AI
- Dịch vụ AI
- AI / ML
- Tất cả
- cho phép
- Ngoài ra
- đàn bà gan dạ
- Văn bản Amazon
- Amazon Web Services
- an
- phân tích
- phân tích
- và
- công bố
- bất kì
- api
- API
- áp dụng
- LÀ
- nhân tạo
- AS
- At
- tự động
- có sẵn
- AWS
- BE
- Hộp
- Xây dựng
- kinh doanh
- by
- CAN
- khả năng
- trường hợp
- trường hợp
- chuỗi
- tải
- Chọn
- lựa chọn
- mã
- sự so sánh
- hoàn thành
- máy tính
- sự tự tin
- An ủi
- xây dựng
- chứa
- tạo
- tạo ra
- Hiện nay
- khách hàng
- dữ liệu
- Phân tích dữ liệu
- Ngày
- Ngày
- Demo
- Tùy
- mong muốn
- phát triển
- khác nhau
- trực tiếp
- hiển thị
- tài liệu
- tài liệu
- tải về
- mỗi
- dễ dàng
- dễ dàng
- hiệu quả
- hay
- cho phép
- nâng cao
- đảm bảo
- Ether (ETH)
- đánh giá
- đánh giá
- hiện tại
- kinh nghiệm
- Khám phá
- ngoài
- Chất chiết xuất
- Đặc tính
- Tính năng
- Tập tin
- Các tập tin
- Tên
- Tập trung
- tập trung
- tiếp theo
- Trong
- định dạng
- các hình thức
- từ
- được
- Toàn cầu
- Có
- he
- giúp đỡ
- giúp đỡ
- nổi bật
- của mình
- Độ đáng tin của
- Hướng dẫn
- HTML
- http
- HTTPS
- người có thể đọc được
- if
- hình ảnh
- hình ảnh
- nhập khẩu
- quan trọng
- áp đặt
- in
- Cá nhân
- thông tin
- ban đầu
- thay vì
- Thông minh
- Xử lý tài liệu thông minh
- dự định
- giới thiệu
- trực quan
- IT
- jpg
- json
- Giữ
- lớn
- lớn hơn
- một lát sau
- phát động
- LEARN
- học tập
- LIMIT
- giới hạn
- địa điểm thư viện nào
- máy
- học máy
- làm cho
- LÀM CHO
- giám đốc
- thủ công
- sản xuất
- nhiều
- tối đa
- Có thể..
- tâm
- ML
- chi tiết
- hiệu quả hơn
- nhiều
- phải
- THÔNG TIN
- Cần
- cần
- Mới
- Công nghệ mới
- con số
- OCR
- of
- Ngoại tuyến
- on
- hàng loạt
- ONE
- có thể
- Hoạt động
- Tùy chọn
- Các lựa chọn
- or
- tổ chức
- đầu ra
- kết thúc
- riêng
- trang
- cửa sổ
- một phần
- con đường
- thực hiện
- thời gian
- quyền
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Bài đăng
- thực hành
- bảo quản
- giá
- vấn đề
- quá trình
- Quy trình
- xử lý
- Sản phẩm
- giám đốc sản xuất
- lập trình
- cho
- cung cấp
- cung cấp
- mục đích
- truy vấn
- Nhanh chóng
- Mau
- Reading
- khu
- đều đặn
- dựa
- vẫn
- Báo cáo
- yêu cầu
- phản ứng
- Kết quả
- bán lẻ
- xem xét
- tương tự
- Quy mô
- Thứ hai
- Phần
- xem
- chọn
- lựa chọn
- cao cấp
- gởi
- riêng biệt
- dịch vụ
- DỊCH VỤ
- định
- nên
- Chữ ký
- Đơn giản
- đồng thời
- Kích thước máy
- So
- Giải pháp
- nguồn
- quy định
- Tiêu chuẩn
- bắt đầu
- Trạng thái
- Các bước
- là gắn
- Tiêu đề
- trình
- tiếp theo
- như vậy
- đề nghị
- cung cấp
- chuỗi cung ứng
- Hỗ trợ
- Hỗ trợ
- nhóm
- Kỹ thuật
- Công nghệ
- thử nghiệm
- hơn
- việc này
- Sản phẩm
- Nguồn
- Them
- sau đó
- vì thế
- họ
- điều này
- Thông qua
- thời gian
- đến
- công cụ
- Tps
- theo dõi
- Giao dịch
- Đi du lịch
- hai
- ui
- Dưới
- hiểu
- không giống
- Cập nhật
- tải lên
- Đang tải lên
- URL
- Sử dụng
- sử dụng
- ca sử dụng
- đã sử dụng
- sử dụng
- thông qua
- có thể nhìn thấy
- Truy cập
- hình dung
- chờ đợi
- muốn
- we
- web
- các dịch vụ web
- TỐT
- khi nào
- cái nào
- sẽ
- với
- ở trong
- không có
- đang làm việc
- công trinh
- viết
- viết
- năm
- bạn
- trên màn hình
- zephyrnet
- Zip