Amazoni tekst on masinõppe (ML) teenus, mis ekstraheerib automaatselt teksti, käsitsikirja ja andmed mis tahes dokumendist või pildist. Amazon Textracti võimaluste hindamise lihtsustamiseks oleme Amazon Textracti konsoolis käivitanud uue hulgidokumentide üleslaadija funktsiooni, mis võimaldab teil kiiresti töödelda oma dokumente ilma koodi kirjutamata.
Selles postituses kirjeldame, millal ja kuidas kasutada Amazon Textracti hulgidokumentide üleslaadijat, et hinnata, kuidas Amazon Textract teie dokumentidel toimib.
Ülevaade lahendusest
Hulgidokumentide üleslaadijat tuleks kasutada Amazon Textracti kiireks hindamiseks etteantud kasutusjuhtudel. Kui laadite intuitiivse kasutajaliidese kaudu üles korraga mitu dokumenti, saate hõlpsalt hinnata, kui hästi Amazon Textract teie dokumentidega toimib.
Saate korraga üles laadida ja töödelda kuni 150 dokumenti. Erinevalt olemasolevatest Amazon Textracti konsooli demodest, mis seavad kunstlikud piirangud dokumentide arvule, dokumendi suurusele ja maksimaalsele lubatud lehekülgede arvule, toetab dokumentide hulgiüleslaadija kuni 150 dokumendi töötlemist päringu kohta ning sellel on sama dokumendi suurus ja leheküljelimiidid kui Amazon Textracti API-d. See muudab suuremate dokumentide kogumi hindamise tõhusamaks.
Hulgidokumentide üleslaadija väljastab standardse Amazon Textracti JSON-vastuse ja CSV-faili. Tulemused esitatakse JSON-vormingus lihtsaks programmiliseks analüüsiks. Lisaks pakutakse väljavõetud teabe lihtsaks võrdlemiseks ja hindamiseks inimloetavat CSV-faili usaldusskooridega.
Selle funktsiooni kasutamisel pidage meeles järgmist.
- Dokumentide hulgiüleslaadija töötleb dokumente kaudu asünkroonsed toimingud. Töötlemise olekut saate jälgida Amazon Textracti konsoolil. Ainult Tuvasta DocumentText (OCR), Analüüsidokument (Tabelid, päringud, vormid ja allkirjad) ja Analüüsi kulu API-sid praegu toetatakse.
- Dokumentide hulgiüleslaadija pakub API toimingute JSON-tulemusi ja vormindatud CSV-aruandeid. Võimalik, et peate andmete visualiseerimiseks kasutama väliseid tööriistu, näiteks kuvama JSON-i tulemusi kasutades dokumendis piirdekasti esiletõste.
- Selle funktsiooni kasutamine dokumentide töötlemiseks nõuab samu tasusid kui tavaline Amazon Textracti kasutamine (olenevalt sellest, millist funktsiooni kasutatakse) ning sellele kehtivad kontole ja piirkonnale määratud API-de TPS-i (tehingute arv sekundis) piirangud. Hinnakujunduse kohta lisateabe saamiseks vaadake Amazon Textracti hinnakujundus. Amazon Textracti piirangute kohta lisateabe saamiseks vaadake Kvoodid Amazon Textractis.
- Hulgiüleslaadija jaoks aktsepteeritavad failivormingud on JPEG, PNG, TIF ja PDF. Toetatud on ka JPEG 2000 kodeeritud kujutised PDF-is. JPEG- ja PNG-failide suurusepiirang on 10 MB, PDF- ja TIF-failidel aga 500 MB. Mitmeleheküljelistel PDF- ja TIF-failidel on 3,000 lehekülje limiit.
Kasutage dokumentide hulgiüleslaadijat
Hulgidokumentide üleslaadija on mõeldud selleks, et aidata teil kiiresti hinnata, kuidas Amazon Textract teie enda dokumentide komplektis toimib, ilma et peaksite koodi kirjutama. Dokumentide eraldi üleslaadimise ja töötlemise asemel saate kasutada dokumentide hulgiüleslaadijat kuni 150 dokumendi töötlemiseks. Saate dokumente hulgi üles laadida otse oma arvutist või importida dokumente olemasolevast Amazoni lihtne salvestusteenus (Amazon S3) kopp.
Dokumentide hulgiüleslaadija pakub tulemusi, mille saate hiljem võrguühenduseta ülevaatamiseks alla laadida. Iga allalaaditav ZIP-fail sisaldab Amazon Textract API vastust JSON-vormingus ja inimloetavat väljundi CSV-faili, mis sisaldab ekstraktitud andmeid ja usaldusskoore. Väljundtulemused on allalaadimiseks saadaval 7 päeva jooksul pärast töötlemist. 14 päeva pärast kustutatakse dokumendid Esitatud dokumendid osa. Dokumentide hulgiüleslaadija kasutamiseks toimige järgmiselt.
- Amazon Textracti konsoolil, all Demod valige navigeerimispaanil Hulgidokumentide üleslaadija.
- Vali Laadige dokumendid üles.
- Määrake oma dokumentide allikas.
Dokumentide üleslaadimiseks on kaks võimalust:
- Importige dokumendid S3 ämbrist – Kui kasutate oma dokumentide jaoks S3 ämbrit, sisestage ämbri URL ja (valikuliselt) eesliide, kus teie dokumendid asuvad.
s3://your-bucket/prefix/
vormingus. Teise võimalusena valige Sirvige S3 oma dokumentide sirvimiseks ja soovitud asukoha valimiseks. Kui teie määratud Amazon S3 asukoht sisaldab rohkem kui 150 dokumenti, saadetakse Amazon Textracti töötlemiseks ainult esimesed 150 dokumenti. - Laadige dokumendid arvutist üles – Kui laadite dokumente üles arvutist, saate valides korraga üles laadida kuni 50 dokumenti Laadige dokumendid üles. Täiendavate dokumentide (maksimaalselt 150) üleslaadimiseks valige Lisage dokumente pärast esialgsete dokumentide üleslaadimist.
Sellisel juhul laaditakse teie dokumendid esmalt üles teie kontol asuvasse S3 ämbrisse, mis on loodud teie nimel, mistõttu on oluline tagada, et teil on õigused Amazon S3 dokumentidele juurde pääseda ja neid üles laadida. See on ühekordne toiming ja sama ämbrit kasutatakse kõigi järgnevate arvutist üleslaadimiste jaoks. Kui soovite sama dokumentide komplekti üles laadida ja töödelda, saate kasutada selle S3 ämbri teed, kasutades Importige dokumendid S3 ämbrist valik. Teie nimel loodud S3-salv on nähtav pärast ämbri loomist.
- Järgmisena määrake Amazon Textracti funktsioon, mida soovite oma dokumentide töötlemiseks kasutada.
Saate oma dokumentide töötlemiseks korraga valida ainult ühe funktsiooni. Kui teil on vaja täiendavaid funktsioone hinnata, peate looma eraldi päringu, valides soovitud funktsiooni ja laadides dokumendid uuesti üles. Kui AnalyzeDocument – päringud Kui funktsioon on valitud, peate esitama päringud, mida soovite oma dokumentidega testida. Korraga saate määrata kuni 30 päringut. Kui üleslaaditud dokumendid sisaldavad mitmeleheküljelisi (PDF või TIF) faile, rakendatakse päringuid ainult iga dokumendi esimesele lehele. Viitama Parimad tavad päringute jaoks päringute koostamise kohta.
- Vali Alusta töötlemist dokumentide esitamiseks Amazon Textractile töötlemiseks.
Saate jälgida dokumendi olekut ja alla laadida töödeldud dokumentide väljundtulemusi Esitatud dokumendid osa. Seda jaotist värskendatakse perioodiliselt ja saate seda käsitsi värskendada, et näha, kas töötlemine on lõppenud. Iga dokumenti töödeldakse eraldi, nii et saate dokumendi valida kas kasutades Allalaadimiseks valmis olekut või oodake, kuni kõik dokumendid on töötlemise lõpetanud, et tulemuste alla laadida. Töödeldud dokumentide väljund jääb allalaadimiseks kättesaadavaks kuni 7 päeva, pärast mida need aeguvad. Aegunud dokumendid kustutatakse alates Esitatud dokumendid lõik pärast 7 lisapäeva (14 päeva alates töötlemise kuupäevast). Soovitame väljundid 7-päevase perioodi jooksul alla laadida ja säilitada.
Järeldus
Selles postituses tutvustasime uut Amazon Textracti hulgidokumentide üleslaadija funktsiooni, mis võimaldab teil kiiresti töödelda suurt hulka dokumente hindamise eesmärgil. Saate seda funktsiooni kasutada Amazon Textracti hindamiseks oma dokumentidega etteantud kasutusjuhtumil. Lisateavet selle kohta, kuidas saate Amazon Textracti oma intelligentse dokumenditöötluse töökoormuses kasutada, külastage Amazon Textracti funktsioonid ja Amazon Textractiga alustamine.
Autoritest
Shashwat Sapre on Amazon Textracti meeskonna vanemtehniline tootejuht. Ta on keskendunud masinõppepõhiste teenuste loomisele AWS-i klientidele. Vabal ajal meeldib talle lugeda uutest tehnoloogiatest, reisida ja tutvuda erinevate köökidega.
Anjan Biswas on tehisintellektiteenuste lahenduste vanemarhitekt, kes keskendub tehisintellektile/ML-ile ja andmeanalüüsile. Anjan on osa ülemaailmsest AI-teenuste meeskonnast ja teeb koostööd klientidega, et aidata neil mõista ja arendada lahendusi tehisintellekti ja ML-ga seotud äriprobleemidele. Anjanil on üle 14-aastane globaalse tarneahela, tootmis- ja jaemüügiorganisatsioonidega töötamise kogemus ning ta aitab aktiivselt klientidel AWS-i tehisintellekti teenustega algust teha ja laiendada.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoAiStream. Web3 andmete luure. Täiustatud teadmised. Juurdepääs siia.
- Tuleviku rahapaja Adryenn Ashley. Juurdepääs siia.
- Ostke ja müüge IPO-eelsete ettevõtete aktsiaid koos PREIPO®-ga. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- :on
- :on
- : kus
- $ UP
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- MEIST
- juurdepääs
- konto
- tegevus
- aktiivselt
- Täiendavad lisad
- Lisaks
- pärast
- jälle
- vastu
- AI
- AI teenused
- AI / ML
- Materjal: BPA ja flataatide vaba plastik
- võimaldab
- Ka
- Amazon
- Amazoni tekst
- Amazon Web Services
- an
- analüüs
- analytics
- ja
- teatas
- mistahes
- API
- API-liidesed
- rakendatud
- OLEME
- kunstlik
- AS
- At
- automaatselt
- saadaval
- AWS
- BE
- Kast
- Ehitus
- äri
- by
- CAN
- võimeid
- juhul
- juhtudel
- kett
- koormuste
- Vali
- valimine
- kood
- võrdlus
- täitma
- arvuti
- usaldus
- konsool
- ehitama
- sisaldab
- looma
- loodud
- Praegu
- Kliendid
- andmed
- Andmete analüüs
- kuupäev
- Päeva
- Demod
- Olenevalt
- soovitud
- arendama
- erinev
- otse
- väljapanek
- dokument
- dokumendid
- lae alla
- iga
- kergesti
- lihtne
- tõhus
- kumbki
- võimaldab
- tõhustatud
- tagama
- Eeter (ETH)
- hindama
- hindamine
- olemasolevate
- kogemus
- Avastades
- väline
- Väljavõtted
- tunnusjoon
- FUNKTSIOONID
- fail
- Faile
- esimene
- Keskenduma
- keskendunud
- Järel
- eest
- formaat
- vormid
- Alates
- saama
- Globaalne
- Olema
- he
- aitama
- aidates
- rõhutab
- tema
- Kuidas
- Kuidas
- HTML
- http
- HTTPS
- inimesele loetav
- if
- pilt
- pildid
- import
- oluline
- kehtestama
- in
- Üksikult
- info
- esialgne
- selle asemel
- Intelligentne
- Arukas dokumenditöötlus
- ette nähtud
- sisse
- intuitiivne
- IT
- jpg
- Json
- hoidma
- suur
- suurem
- pärast
- käivitatud
- Õppida
- õppimine
- LIMIT
- piirid
- liising
- masin
- masinõpe
- tegema
- TEEB
- juht
- käsitsi
- tootmine
- palju
- maksimaalne
- mai..
- meeles
- ML
- rohkem
- tõhusam
- mitmekordne
- peab
- NAVIGATSIOON
- Vajadus
- vajav
- Uus
- Uued tehnoloogiad
- number
- OCR
- of
- offline
- on
- kunagi
- ONE
- ainult
- Operations
- valik
- Valikud
- or
- organisatsioonid
- väljund
- üle
- enda
- lehekülg
- pane
- osa
- tee
- täidab
- periood
- Õigused
- Platon
- Platoni andmete intelligentsus
- PlatoData
- post
- tavad
- säilitamine
- hinnapoliitika
- probleeme
- protsess
- Protsessid
- töötlemine
- Toode
- tootejuht
- programmiline
- anda
- tingimusel
- annab
- eesmärkidel
- päringud
- Kiire
- kiiresti
- Lugemine
- piirkond
- regulaarne
- lootma
- jääma
- Aruanded
- taotleda
- vastus
- Tulemused
- jaemüük
- läbi
- sama
- Skaala
- Teine
- Osa
- vaata
- väljavalitud
- valides
- vanem
- Saadetud
- eri
- teenus
- Teenused
- komplekt
- peaks
- Allkirjad
- lihtne
- üheaegselt
- SUURUS
- So
- Lahendused
- allikas
- määratletud
- standard
- alustatud
- olek
- Sammud
- ladustamine
- teema
- esitama
- järgnev
- selline
- soovitama
- varustama
- tarneahelas
- Toetatud
- Toetab
- meeskond
- Tehniline
- Tehnoloogiad
- test
- kui
- et
- .
- Allikas
- Neile
- SIIS
- seetõttu
- nad
- see
- Läbi
- aeg
- et
- töövahendid
- tps
- jälgida
- Tehingud
- Reisimine
- kaks
- ui
- all
- mõistma
- erinevalt
- Uudised
- laetud
- Üleslaadimine
- URL
- Kasutus
- kasutama
- kasutage juhtumit
- Kasutatud
- kasutamine
- kaudu
- nähtav
- visiit
- visualiseerimine
- ootama
- tahan
- we
- web
- veebiteenused
- Hästi
- millal
- mis
- will
- koos
- jooksul
- ilma
- töö
- töötab
- kirjutama
- kirjutamine
- aastat
- sa
- Sinu
- sephyrnet
- Tõmblukk