Text Amazon este un serviciu de învățare automată (ML) care extrage automat text, scris de mână și date din orice document sau imagine. Pentru a simplifica evaluarea capabilităților Amazon Textract, am lansat o nouă funcție de încărcare de documente în bloc pe consola Amazon Texttract, care vă permite să procesați rapid propriul set de documente fără a scrie niciun cod.
În această postare, vom vedea când și cum să folosiți aplicatorul de încărcare de documente în bloc Amazon Texttract pentru a evalua modul în care Amazon Texttract funcționează asupra documentelor dvs.
Prezentare generală a soluției
Încărcătorul de documente în bloc ar trebui să fie utilizat pentru evaluarea rapidă a Amazon Texttract pentru cazuri de utilizare predeterminate. Prin încărcarea simultană a mai multor documente printr-o interfață de utilizare intuitivă, puteți evalua cu ușurință cât de bine funcționează Amazon Texttract asupra documentelor dvs.
Puteți încărca și procesa până la 150 de documente simultan. Spre deosebire de demo-urile existente ale consolei Amazon Texttract, care impun limite artificiale privind numărul de documente, dimensiunea documentului și numărul maxim permis de pagini, Bulk Document Uploader acceptă procesarea a până la 150 de documente per cerere și are aceleași dimensiuni și limite de pagini ca și API-urile Amazon Texttract. Acest lucru vă face mai eficient să evaluați un set mai mare de documente.
Bulk Document Uploader emite un răspuns standard Amazon Texttract JSON și un fișier CSV. Rezultatele sunt furnizate în format JSON pentru o analiză programatică ușoară. În plus, este furnizat un fișier CSV care poate fi citit de om cu scoruri de încredere pentru compararea simplă și evaluarea informațiilor extrase.
Când utilizați această funcție, rețineți următoarele:
- Încărcătorul de documente în bloc procesează documentele prin operatii asincrone. Puteți urmări starea procesării pe consola Amazon Texttract. Numai DetectDocumentText (OCR), Analizați documentul (Tabele, interogări, formulare și semnături) și Analizați Cheltuielile API-urile sunt acceptate în prezent.
- Instrumentul de încărcare de documente în bloc oferă rezultate JSON ale operațiunilor API și rapoarte CSV formatate. Este posibil să trebuiască să vă bazați pe instrumente externe pentru vizualizarea datelor, cum ar fi afișarea evidențierii casetei de delimitare pe document folosind rezultatele JSON.
- Utilizarea acestei funcții pentru procesarea documentelor implică aceleași taxe ca și utilizarea obișnuită a Amazon Texttract (în funcție de caracteristica utilizată) și este supusă limitelor TPS (tranzacții pe secundă) pentru API-urile care sunt setate pentru cont și regiune. Pentru mai multe informații despre prețuri, consultați Prețuri Amazon Text. Pentru a afla mai multe despre limitele Amazon Text, consultați Cote în Amazon Text.
- Formatele de fișier acceptate pentru încărcarea în bloc sunt JPEG, PNG, TIF și PDF. Imaginile codificate JPEG 2000 din PDF-uri sunt, de asemenea, acceptate. Fișierele JPEG și PNG au o limită de dimensiune de 10 MB, în timp ce fișierele PDF și TIF au o limită de dimensiune de 500 MB. Fișierele PDF și TIF cu mai multe pagini au o limită de 3,000 de pagini.
Utilizați instrumentul de încărcare de documente în bloc
Încărcătorul de documente în bloc este menit să vă ajute să evaluați rapid modul în care Amazon Texttract funcționează pe un set de documente proprii, fără a fi nevoie să scrieți niciun cod. Puteți utiliza aplicatorul de încărcare de documente în bloc pentru a procesa până la 150 de documente în loc să încărcați și să procesați documente individual. Puteți încărca în bloc documente direct de pe computer sau puteți importa documente dintr-un document existent Serviciul Amazon de stocare simplă Găleată (Amazon S3)
Instrumentul de încărcare în bloc de documente oferă rezultate pe care le puteți descărca ulterior pentru examinare offline. Fiecare fișier ZIP descărcabil conține răspunsul Amazon Textract API în format de fișier JSON și un fișier CSV care poate fi citit de om al rezultatului care conține datele extrase și scorurile de încredere. Rezultatele rezultate sunt disponibile pentru descărcare timp de 7 zile după procesare. După 14 zile, documentele sunt șterse din Documente depuse secțiune. Pentru a utiliza instrumentul de încărcare de documente în bloc, parcurgeți următorii pași:
- Pe consola Amazon Texttract, sub Demos în panoul de navigare, alegeți Încărcător de documente în bloc.
- Alege Încărcați documente.
- Specificați sursa documentelor dvs.
Aveți două opțiuni pentru a încărca documente:
- Importați documente din bucket S3 – Dacă utilizați un compartiment S3 pentru documente, furnizați adresa URL a compartimentului și (opțional) prefixul unde se află documentele dvs., în
s3://your-bucket/prefix/
format. Alternativ, alegeți Răsfoiți S3 pentru a răsfoi și a selecta locația dorită a documentelor dvs. Dacă locația Amazon S3 pe care ați specificat-o conține mai mult de 150 de documente, atunci numai primele 150 de documente vor fi trimise către Amazon Texttract pentru procesare. - Încărcați documente de pe computer – Dacă încărcați documente de pe computer, puteți încărca până la 50 de documente simultan, alegând Încărcați documente. Pentru a încărca documente suplimentare (până la maximum 150), alegeți Adăugați documente după ce documentele dumneavoastră inițiale sunt încărcate.
În acest caz, documentele dvs. sunt încărcate mai întâi într-un compartiment S3 din contul dvs., care este creat în numele dvs., de aceea este important să vă asigurați că aveți permisiuni pentru a accesa și încărca documente în Amazon S3. Aceasta este o acțiune unică și aceeași grupă va fi folosită pentru toate încărcările ulterioare de pe computer. Dacă doriți să încărcați și să procesați același set de documente, puteți utiliza calea către această găleată S3 folosind Importați documente din bucket S3 opțiune. Secțiunea S3 creată în numele dvs. va fi vizibilă după ce va fi creată.
- Apoi, specificați caracteristica Amazon Texttract pe care doriți să o utilizați pentru a vă procesa documentele.
Puteți selecta o singură funcție la un moment dat pentru a vă procesa documentele. Dacă trebuie să evaluați caracteristici suplimentare, trebuie să creați o cerere separată selectând caracteristica dorită și încărcând din nou documentele. Dacă AnalyzeDocument – Interogări funcția este selectată, trebuie să furnizați interogările pe care doriți să le testați în raport cu documentele dvs. Puteți specifica până la 30 de interogări simultan. Dacă documentele încărcate conțin fișiere cu mai multe pagini (PDF sau TIF), interogările sunt aplicate numai pe prima pagină a fiecărui document. A se referi la Cele mai bune practici pentru interogări pentru a afla cum să construiți interogări.
- Alege Începeți procesarea pentru a trimite documentele către Amazon Text pentru procesare.
Puteți urmări starea documentului și puteți descărca rezultatele documentelor procesate în Documente depuse secțiune. Această secțiune se actualizează periodic și o puteți reîmprospăta manual pentru a vedea dacă procesarea este completă. Fiecare document este procesat individual, așa că puteți selecta fie documentul cu Gata de descărcat starea sau așteptați ca toate documentele să finalizeze procesarea pentru a descărca rezultatele. Ieșirea documentelor procesate va rămâne disponibilă până la 7 zile pentru descărcare, după care acestea vor expira. Documentele expirate vor fi șterse din Documente depuse secțiune după 7 zile suplimentare (14 zile de la data procesării). Vă sugerăm să descărcați și să păstrați rezultatele în perioada de 7 zile.
Concluzie
În această postare, am anunțat noua funcție Amazon Text Bulk Document Uploader, care vă permite să procesați rapid un număr mare de documente în scopuri de evaluare. Puteți folosi această funcție pentru a evalua Amazon Texttract pentru un caz de utilizare predeterminat cu documentele dvs. Pentru a afla mai multe despre cum puteți utiliza Amazon Texttract în volumul de lucru inteligent de procesare a documentelor, vizitați Caracteristici Amazon Text și Noțiuni introductive despre Amazon Text.
Despre Autori
Shashwat Sapre este Senior Technical Product Manager cu echipa Amazon Texttract. El se concentrează pe construirea de servicii bazate pe machine learning pentru clienții AWS. În timpul liber, îi place să citească despre noi tehnologii, să călătorească și să exploreze diferite bucătării.
Anjan Biswas este un arhitect senior de soluții de servicii AI, cu accent pe AI/ML și Data Analytics. Anjan face parte din echipa de servicii AI la nivel mondial și lucrează cu clienții pentru a-i ajuta să înțeleagă și să dezvolte soluții la problemele de afaceri cu AI și ML. Anjan are peste 14 ani de experiență de lucru cu lanțul global de aprovizionare, producție și organizații de vânzare cu amănuntul și ajută în mod activ clienții să înceapă și să se extindă pe serviciile AWS AI.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- PlatoAiStream. Web3 Data Intelligence. Cunoștințe amplificate. Accesați Aici.
- Mintând viitorul cu Adryenn Ashley. Accesați Aici.
- Cumpărați și vindeți acțiuni în companii PRE-IPO cu PREIPO®. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- :are
- :este
- :Unde
- $UP
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- Despre Noi
- acces
- Cont
- Acțiune
- activ
- Suplimentar
- În plus,
- După
- din nou
- împotriva
- AI
- Servicii AI
- AI / ML
- TOATE
- permite
- de asemenea
- Amazon
- Text Amazon
- Amazon Web Services
- an
- analiză
- Google Analytics
- și
- a anunțat
- Orice
- api
- API-uri
- aplicat
- SUNT
- artificial
- AS
- At
- în mod automat
- disponibil
- AWS
- BE
- Cutie
- Clădire
- afaceri
- by
- CAN
- capacități
- caz
- cazuri
- lanţ
- taxe
- Alege
- alegere
- cod
- comparație
- Completă
- calculator
- încredere
- Consoleze
- construi
- conține
- crea
- a creat
- În prezent
- clienţii care
- de date
- Analiza datelor
- Data
- Zi
- Demos
- În funcție
- dorit
- dezvolta
- diferit
- direct
- afișarea
- document
- documente
- Descarca
- fiecare
- cu ușurință
- uşor
- eficient
- oricare
- permite
- sporită
- asigura
- Eter (ETH)
- evalua
- evaluare
- existent
- experienţă
- Explorarea
- extern
- extracte
- Caracteristică
- DESCRIERE
- Fișier
- Fişiere
- First
- Concentra
- concentrat
- următor
- Pentru
- format
- formulare
- din
- obține
- Caritate
- Avea
- he
- ajutor
- ajutor
- highlights-uri
- lui
- Cum
- Cum Pentru a
- HTML
- http
- HTTPS
- uman poate fi citit
- if
- imagine
- imagini
- import
- important
- a impune
- in
- Individual
- informații
- inițială
- in schimb
- Inteligent
- Procesarea inteligentă a documentelor
- destinate
- introducerea
- intuitiv
- IT
- jpg
- JSON
- A pastra
- mare
- mai mare
- mai tarziu
- a lansat
- AFLAȚI
- învăţare
- LIMITĂ
- Limitele
- locaţie
- maşină
- masina de învățare
- face
- FACE
- manager
- manual
- de fabricaţie
- multe
- maxim
- Mai..
- minte
- ML
- mai mult
- mai eficient
- multiplu
- trebuie sa
- Navigare
- Nevoie
- au nevoie
- Nou
- Noi tehnologii
- număr
- OCR
- of
- Offline
- on
- dată
- ONE
- afară
- Operațiuni
- Opțiune
- Opţiuni
- or
- organizații
- producție
- peste
- propriu
- pagină
- pâine
- parte
- cale
- efectuează
- perioadă
- permisiuni
- Plato
- Informații despre date Platon
- PlatoData
- Post
- practicile
- păstrarea
- de stabilire a prețurilor
- probleme
- proces
- procese
- prelucrare
- Produs
- manager de produs
- programatic
- furniza
- prevăzut
- furnizează
- scopuri
- interogări
- Rapid
- repede
- Citind
- regiune
- regulat
- se bazează
- rămâne
- Rapoarte
- solicita
- răspuns
- REZULTATE
- cu amănuntul
- revizuiască
- acelaşi
- Scară
- Al doilea
- Secțiune
- vedea
- selectate
- selectarea
- senior
- trimis
- distinct
- serviciu
- Servicii
- set
- să
- Semnături
- simplu
- simultan
- Mărimea
- So
- soluţii
- Sursă
- specificată
- standard
- început
- Stare
- paşi
- depozitare
- subiect
- prezenta
- ulterior
- astfel de
- sugera
- livra
- lanțului de aprovizionare
- Suportat
- Sprijină
- echipă
- Tehnic
- Tehnologii
- test
- decât
- acea
- Sursa
- Lor
- apoi
- prin urmare
- ei
- acest
- Prin
- timp
- la
- Unelte
- tps
- urmări
- Tranzacții
- Traveling
- Două
- ui
- în
- înţelege
- spre deosebire de
- actualizări
- încărcat
- Se încarcă
- URL-ul
- Folosire
- utilizare
- carcasa de utilizare
- utilizat
- folosind
- de
- vizibil
- Vizita
- vizualizare
- aștepta
- vrea
- we
- web
- servicii web
- BINE
- cand
- care
- voi
- cu
- în
- fără
- de lucru
- fabrică
- scrie
- scris
- ani
- tu
- Ta
- zephyrnet
- Zip