Teks Amazon adalah layanan pembelajaran mesin (ML) yang secara otomatis mengekstrak teks, tulisan tangan, dan data dari dokumen atau gambar apa pun. Untuk memudahkan mengevaluasi kemampuan Amazon Textract, kami telah meluncurkan fitur Pengunggah Dokumen Massal baru di konsol Amazon Textract yang memungkinkan Anda memproses kumpulan dokumen Anda sendiri dengan cepat tanpa menulis kode apa pun.
Dalam posting ini, kami membahas kapan dan bagaimana menggunakan Pengunggah Dokumen Massal Amazon Textract untuk mengevaluasi bagaimana kinerja Amazon Textract pada dokumen Anda.
Ikhtisar solusi
Pengunggah Dokumen Massal harus digunakan untuk evaluasi cepat Amazon Textract untuk kasus penggunaan yang ditentukan sebelumnya. Dengan mengunggah banyak dokumen secara bersamaan melalui UI yang intuitif, Anda dapat dengan mudah mengukur seberapa baik kinerja Amazon Textract pada dokumen Anda.
Anda dapat mengunggah dan memproses hingga 150 dokumen sekaligus. Tidak seperti demo konsol Amazon Textract yang ada, yang memberlakukan batasan artifisial pada jumlah dokumen, ukuran dokumen, dan jumlah halaman maksimum yang diizinkan, Pengunggah Dokumen Massal mendukung pemrosesan hingga 150 dokumen per permintaan dan memiliki ukuran dokumen dan batas halaman yang sama seperti API Amazon Texttract. Ini membuatnya lebih efisien bagi Anda untuk mengevaluasi kumpulan dokumen yang lebih besar.
Pengunggah Dokumen Massal menghasilkan respons JSON dan file CSV Amazon Textract standar. Hasilnya disediakan dalam format JSON untuk analisis pemrograman yang mudah. Selain itu, file CSV yang dapat dibaca manusia dengan skor kepercayaan disediakan untuk perbandingan dan evaluasi sederhana dari informasi yang diekstraksi.
Saat menggunakan fitur ini, perhatikan hal berikut:
- Pengunggah Dokumen Massal memproses dokumen melalui operasi asinkron. Anda dapat melacak status pemrosesan di konsol Amazon Texttract. Hanya DeteksiTeks Dokumen (OCR), Analisis Dokumen (Tabel, Kueri, Formulir, dan Tanda Tangan), dan AnalisisBiaya API saat ini didukung.
- Pengunggah Dokumen Massal memberikan hasil JSON dari operasi API dan laporan CSV berformat. Anda mungkin perlu mengandalkan alat eksternal untuk memvisualisasikan data, seperti menampilkan sorotan kotak pembatas pada dokumen menggunakan hasil JSON.
- Penggunaan fitur ini untuk memproses dokumen dikenakan biaya yang sama seperti penggunaan reguler Amazon Textract (bergantung pada fitur mana yang digunakan), dan tunduk pada batas TPS (transaksi per detik) untuk API yang ditetapkan untuk akun dan Wilayah. Untuk informasi lebih lanjut tentang harga, lihat Harga Amazon Textract. Untuk mempelajari lebih lanjut tentang batasan Amazon Texttract, lihat Kuota di Amazon Textract.
- Format file yang diterima untuk pengunggah massal adalah JPEG, PNG, TIF, dan PDF. Gambar berenkode JPEG 2000 dalam PDF juga didukung. File JPEG dan PNG memiliki batas ukuran 10 MB, sedangkan file PDF dan TIF memiliki batas ukuran 500 MB. File PDF dan TIF multi-halaman memiliki batas 3,000 halaman.
Gunakan Pengunggah Dokumen Massal
Pengunggah Dokumen Massal dimaksudkan untuk membantu Anda mengevaluasi dengan cepat bagaimana kinerja Amazon Textract pada kumpulan dokumen Anda sendiri, tanpa perlu menulis kode apa pun. Anda dapat menggunakan Pengunggah Dokumen Massal untuk memproses sebanyak 150 dokumen alih-alih mengunggah dan memproses dokumen satu per satu. Anda dapat mengunggah dokumen secara massal langsung dari komputer Anda atau mengimpor dokumen dari yang sudah ada Layanan Penyimpanan Sederhana Amazon (Amazon S3).
Pengunggah Dokumen Massal memberikan hasil yang dapat Anda unduh nanti untuk ditinjau secara offline. Setiap file ZIP yang dapat diunduh berisi respons Amazon Textract API dalam format file JSON dan file keluaran CSV yang dapat dibaca manusia yang berisi data yang diekstraksi dan skor kepercayaan. Hasil keluaran tersedia untuk diunduh selama 7 hari setelah diproses. Setelah 14 hari, dokumen dibersihkan dari Dokumen yang diserahkan bagian. Untuk menggunakan Pengunggah Dokumen Massal, selesaikan langkah-langkah berikut:
- Di konsol Amazon Texttract, di bawah Demo di panel navigasi, pilih Pengunggah Dokumen Massal.
- Pilih Unggah dokumen.
- Tentukan sumber dokumen Anda.
Anda memiliki dua opsi untuk mengunggah dokumen:
- Impor dokumen dari bucket S3 โ Jika Anda menggunakan bucket S3 untuk dokumen Anda, berikan URL bucket dan (opsional) awalan tempat dokumen Anda berada, di
s3://your-bucket/prefix/
format. Alternatifnya, pilih Jelajahi S3 untuk menelusuri dan memilih lokasi yang diinginkan dari dokumen Anda. Jika lokasi Amazon S3 yang Anda tentukan berisi lebih dari 150 dokumen, maka hanya 150 dokumen pertama yang akan dikirim ke Amazon Textract untuk diproses. - Unggah dokumen dari komputer Anda โ Jika Anda mengunggah dokumen dari komputer, Anda dapat mengunggah hingga 50 dokumen sekaligus dengan memilih Unggah Dokumen. Untuk mengunggah dokumen tambahan (hingga maksimal 150), pilih Tambahkan dokumen setelah dokumen awal Anda diunggah.
Dalam hal ini, dokumen Anda pertama kali diunggah ke bucket S3 di akun Anda yang dibuat atas nama Anda, oleh karena itu penting untuk memastikan bahwa Anda memiliki izin untuk mengakses dan mengunggah dokumen ke Amazon S3. Ini adalah tindakan satu kali, dan keranjang yang sama akan digunakan untuk semua unggahan berikutnya dari komputer Anda. Jika Anda ingin mengunggah dan memproses kumpulan dokumen yang sama, Anda dapat menggunakan jalur ke bucket S3 ini menggunakan Impor dokumen dari bucket S3 pilihan. Bucket S3 yang dibuat atas nama Anda akan terlihat setelah bucket dibuat.
- Selanjutnya, tentukan fitur Amazon Texttract yang ingin Anda gunakan untuk memproses dokumen Anda.
Anda hanya dapat memilih satu fitur pada satu waktu untuk memproses dokumen Anda. Jika Anda perlu mengevaluasi fitur tambahan, Anda harus membuat permintaan terpisah dengan memilih fitur yang diinginkan dan mengunggah kembali dokumen tersebut. Jika Analisis Dokumen โ Kueri fitur dipilih, Anda harus memberikan kueri yang ingin Anda uji terhadap dokumen Anda. Anda dapat menentukan hingga 30 kueri sekaligus. Jika dokumen yang diunggah berisi file multi-halaman (PDF atau TIF), kueri hanya diterapkan ke halaman pertama dari setiap dokumen. Mengacu pada Praktik Terbaik untuk Kueri untuk mempelajari cara menyusun kueri.
- Pilih Mulai memproses untuk mengirimkan dokumen ke Amazon Texttract untuk diproses.
Anda dapat melacak status dokumen dan mengunduh hasil keluaran dari dokumen yang diproses di Dokumen yang diserahkan bagian. Bagian ini diperbarui secara berkala, dan Anda dapat menyegarkannya secara manual untuk melihat apakah pemrosesan telah selesai. Setiap dokumen diproses secara individual, sehingga Anda dapat memilih dokumen dengan Siap untuk mengunduh status atau tunggu semua dokumen selesai diproses untuk mengunduh hasilnya. Output dari dokumen yang diproses akan tetap tersedia hingga 7 hari untuk diunduh, setelah itu akan kedaluwarsa. Dokumen kadaluarsa akan dihapus dari Dokumen yang diserahkan bagian setelah 7 hari tambahan (14 hari dari tanggal diproses). Kami menyarankan untuk mengunduh dan mempertahankan keluaran dalam periode 7 hari.
Kesimpulan
Dalam postingan ini, kami mengumumkan fitur Amazon Texttract Bulk Document Uploader yang baru, yang memungkinkan Anda memproses sejumlah besar dokumen dengan cepat untuk tujuan evaluasi. Anda dapat menggunakan fitur ini untuk mengevaluasi Amazon Textract untuk kasus penggunaan yang ditentukan sebelumnya dengan dokumen Anda. Untuk mempelajari selengkapnya tentang cara menggunakan Amazon Textract dalam beban kerja pemrosesan dokumen cerdas Anda, kunjungi Fitur Amazon Texttract dan Memulai dengan Amazon Texttract.
Tentang Penulis
Shaswat Sapre adalah Manajer Produk Teknis Senior dengan tim Amazon Textract. Dia fokus membangun layanan berbasis pembelajaran mesin untuk pelanggan AWS. Di waktu senggangnya, ia suka membaca tentang teknologi baru, jalan-jalan, dan menjelajahi berbagai masakan.
Anjan Biswas adalah Arsitek Solusi Layanan AI Senior dengan fokus pada AI/ML dan Analisis Data. Anjan adalah bagian dari tim layanan AI di seluruh dunia dan bekerja dengan pelanggan untuk membantu mereka memahami dan mengembangkan solusi untuk masalah bisnis dengan AI dan ML. Anjan memiliki lebih dari 14 tahun pengalaman bekerja dengan rantai pasokan global, manufaktur, dan organisasi ritel, dan secara aktif membantu pelanggan memulai dan meningkatkan layanan AI AWS.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoAiStream. Kecerdasan Data Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Mencetak Masa Depan bersama Adryenn Ashley. Akses Di Sini.
- Beli dan Jual Saham di Perusahaan PRE-IPO dengan PREIPOยฎ. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- :memiliki
- :adalah
- :Di mana
- $NAIK
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- Tentang Kami
- mengakses
- Akun
- Tindakan
- aktif
- Tambahan
- Selain itu
- Setelah
- lagi
- terhadap
- AI
- Layanan AI
- AI / ML
- Semua
- memungkinkan
- juga
- Amazon
- Teks Amazon
- Amazon Web Services
- an
- analisis
- analisis
- dan
- mengumumkan
- Apa pun
- api
- Lebah
- terapan
- ADALAH
- buatan
- AS
- At
- secara otomatis
- tersedia
- AWS
- BE
- Kotak
- Bangunan
- bisnis
- by
- CAN
- kemampuan
- kasus
- kasus
- rantai
- beban
- Pilih
- memilih
- kode
- perbandingan
- lengkap
- komputer
- kepercayaan
- konsul
- membangun
- mengandung
- membuat
- dibuat
- Sekarang
- pelanggan
- data
- Data Analytics
- Tanggal
- Hari
- Demo
- Tergantung
- diinginkan
- mengembangkan
- berbeda
- langsung
- menampilkan
- dokumen
- dokumen
- Download
- setiap
- mudah
- Mudah
- efisien
- antara
- memungkinkan
- ditingkatkan
- memastikan
- Eter (ETH)
- mengevaluasi
- evaluasi
- ada
- pengalaman
- Menjelajahi
- luar
- Ekstrak
- Fitur
- Fitur
- File
- File
- Pertama
- Fokus
- terfokus
- berikut
- Untuk
- format
- bentuk
- dari
- mendapatkan
- Aksi
- Memiliki
- he
- membantu
- membantu
- highlight
- -nya
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTML
- http
- HTTPS
- bisa dibaca manusia
- if
- gambar
- gambar
- mengimpor
- penting
- memaksakan
- in
- Secara individual
- informasi
- mulanya
- sebagai gantinya
- Cerdas
- Pemrosesan dokumen cerdas
- dimaksudkan
- memperkenalkan
- intuitif
- IT
- jpg
- json
- Menjaga
- besar
- lebih besar
- kemudian
- diluncurkan
- BELAJAR
- pengetahuan
- MEMBATASI
- batas
- tempat
- mesin
- Mesin belajar
- membuat
- MEMBUAT
- manajer
- manual
- pabrik
- banyak
- maksimum
- Mungkin..
- keberatan
- ML
- lebih
- lebih efisien
- beberapa
- harus
- Navigasi
- Perlu
- membutuhkan
- New
- Teknologi baru
- jumlah
- OCR
- of
- Pengunjung
- on
- sekali
- ONE
- hanya
- Operasi
- pilihan
- Opsi
- or
- organisasi
- keluaran
- lebih
- sendiri
- halaman
- pane
- bagian
- path
- melakukan
- periode
- Izin
- plato
- Kecerdasan Data Plato
- Data Plato
- Pos
- praktek
- melestarikan
- di harga
- masalah
- proses
- proses
- pengolahan
- Produk
- manajer produk
- terprogram
- memberikan
- disediakan
- menyediakan
- tujuan
- query
- Cepat
- segera
- Bacaan
- wilayah
- reguler
- mengandalkan
- tinggal
- laporan
- permintaan
- tanggapan
- Hasil
- eceran
- ulasan
- sama
- Skala
- Kedua
- Bagian
- melihat
- terpilih
- memilih
- senior
- mengirim
- terpisah
- layanan
- Layanan
- set
- harus
- Tanda tangan
- Sederhana
- serentak
- Ukuran
- So
- Solusi
- sumber
- ditentukan
- standar
- mulai
- Status
- Tangga
- penyimpanan
- subyek
- menyerahkan
- selanjutnya
- seperti itu
- menyarankan
- menyediakan
- supply chain
- Didukung
- Mendukung
- tim
- Teknis
- Teknologi
- uji
- dari
- bahwa
- Grafik
- Sumber
- Mereka
- kemudian
- karena itu
- mereka
- ini
- Melalui
- waktu
- untuk
- alat
- terima kasih
- jalur
- Transaksi
- Perjalanan
- dua
- ui
- bawah
- memahami
- tidak seperti
- Pembaruan
- upload
- Mengunggah
- URL
- penggunaan
- menggunakan
- gunakan case
- bekas
- menggunakan
- melalui
- terlihat
- Mengunjungi
- visualisasi
- menunggu
- ingin
- we
- jaringan
- layanan web
- BAIK
- ketika
- yang
- akan
- dengan
- dalam
- tanpa
- kerja
- bekerja
- menulis
- penulisan
- tahun
- kamu
- Anda
- zephyrnet.dll
- Zip