Amazonovo besedilo je storitev strojnega učenja (ML), ki samodejno izvleče besedilo, rokopis in podatke iz katerega koli dokumenta ali slike. Da bi poenostavili ocenjevanje zmožnosti Amazon Texttract, smo na konzoli Amazon Texttract uvedli novo funkcijo Bulk Document Uploader, ki vam omogoča hitro obdelavo lastnega nabora dokumentov brez pisanja kode.
V tej objavi se sprehodimo skozi to, kdaj in kako uporabiti orodje za nalaganje dokumentov v velikem obsegu Amazon Texttract, da ocenimo, kako Amazon Texttract deluje na vaših dokumentih.
Pregled rešitve
Bulk Document Uploader je treba uporabiti za hitro oceno Amazon Texttract za vnaprej določene primere uporabe. Če naložite več dokumentov hkrati prek intuitivnega uporabniškega vmesnika, lahko preprosto ocenite, kako dobro se Amazon Texttract obnese na vaših dokumentih.
Hkrati lahko naložite in obdelate do 150 dokumentov. Za razliko od obstoječih predstavitev konzole Amazon Texttract, ki nalagajo umetne omejitve glede števila dokumentov, velikosti dokumenta in največjega dovoljenega števila strani, Bulk Document Uploader podpira obdelavo do 150 dokumentov na zahtevo in ima enako velikost dokumenta in omejitve strani kot API-ji Amazon Texttract. Tako boste učinkoviteje ocenili večji nabor dokumentov.
Bulk Document Uploader izpiše standardni odgovor Amazon Texttract JSON in datoteko CSV. Rezultati so na voljo v formatu JSON za enostavno programsko analizo. Poleg tega je na voljo človeku berljiva datoteka CSV z ocenami zaupanja za preprosto primerjavo in vrednotenje ekstrahiranih informacij.
Ko uporabljate to funkcijo, upoštevajte naslednje:
- Bulk Document Uploader obdeluje dokumente prek asinhrone operacije. Stanje obdelave lahko spremljate na konzoli Amazon Texttract. Samo DetectDocumentText (OCR), AnalyzeDocument (tabele, poizvedbe, obrazci in podpisi) in AnalyzeExpense API-ji so trenutno podprti.
- Bulk Document Uploader zagotavlja rezultate JSON operacij API-ja in oblikovana poročila CSV. Morda se boste morali zanašati na zunanja orodja za vizualizacijo podatkov, kot je prikaz poudarkov omejevalnih okvirjev na dokumentu z uporabo rezultatov JSON.
- Uporaba te funkcije za obdelavo dokumentov povzroči enake stroške kot običajna uporaba Amazon Texttract (odvisno od tega, katera funkcija je uporabljena) in zanjo veljajo omejitve TPS (transakcije na sekundo) za API-je, ki so nastavljeni za račun in regijo. Za več informacij o cenah glejte Cene Amazon Textract. Če želite izvedeti več o omejitvah Amazon Texttract, glejte Kvote v Amazon Texttract.
- Podprte oblike zapisa datotek za množično nalaganje so JPEG, PNG, TIF in PDF. Podprte so tudi slike, kodirane z JPEG 2000, v PDF-jih. Datoteke JPEG in PNG imajo omejitev velikosti 10 MB, datoteke PDF in TIF pa 500 MB. Večstranske datoteke PDF in TIF imajo omejitev 3,000 strani.
Uporabite Bulk Document Uploader
Bulk Document Uploader je namenjen temu, da vam pomaga hitro oceniti, kako Amazon Texttract deluje na nizu vaših lastnih dokumentov, ne da bi vam bilo treba napisati kodo. Uporabite lahko Bulk Document Uploader za obdelavo do 150 dokumentov, namesto da nalagate in obdelujete dokumente posamično. Dokumente lahko naložite v velikem obsegu neposredno iz računalnika ali uvozite dokumente iz obstoječega Preprosta storitev shranjevanja Amazon (Amazon S3) vedro.
Bulk Document Uploader nudi rezultate, ki jih lahko pozneje prenesete za pregled brez povezave. Vsaka datoteka ZIP, ki jo je mogoče prenesti, vsebuje odziv API-ja Amazon Texttract v formatu datoteke JSON in človeku berljivo datoteko CSV z izhodom, ki vsebuje ekstrahirane podatke in ocene zaupanja. Izhodni rezultati so na voljo za prenos 7 dni po obdelavi. Po 14 dneh se dokumenti počistijo iz Predloženi dokumenti razdelek. Če želite uporabiti orodje za nalaganje množičnih dokumentov, izvedite naslednje korake:
- Na konzoli Amazon Texttract pod Predstavitve v podoknu za krmarjenje izberite Bulk Document Uploader.
- Izberite Naložite dokumente.
- Navedite vir svojih dokumentov.
Za nalaganje dokumentov imate dve možnosti:
- Uvozite dokumente iz vedra S3 – Če za svoje dokumente uporabljate vedro S3, navedite URL vedra in (izbirno) predpono, kjer so vaši dokumenti, v
s3://your-bucket/prefix/
format. Druga možnost je, da izberete Prebrskaj S3 za brskanje in izbiro želene lokacije vaših dokumentov. Če lokacija Amazon S3, ki ste jo določili, vsebuje več kot 150 dokumentov, bo samo prvih 150 dokumentov poslanih v obdelavo v Amazon Texttract. - Naložite dokumente iz računalnika – Če nalagate dokumente iz računalnika, lahko naložite do 50 dokumentov hkrati, tako da izberete Naloži dokumente. Če želite naložiti dodatne dokumente (do največ 150), izberite Dodajte dokumente po nalaganju začetnih dokumentov.
V tem primeru se vaši dokumenti najprej naložijo v vedro S3 v vašem računu, ki je ustvarjen v vašem imenu, zato je pomembno zagotoviti, da imate dovoljenja za dostop in nalaganje dokumentov v Amazon S3. To je enkratno dejanje in isto vedro bo uporabljeno za vsa naslednja nalaganja iz vašega računalnika. Če želite naložiti in obdelati isti niz dokumentov, lahko uporabite pot do tega vedra S3 z Uvozite dokumente iz vedra S3 možnost. Vedro S3, ustvarjeno v vašem imenu, bo vidno, ko bo vedro ustvarjeno.
- Nato določite funkcijo Amazon Texttract, ki jo želite uporabiti za obdelavo svojih dokumentov.
Za obdelavo dokumentov lahko izberete samo eno funkcijo hkrati. Če morate oceniti dodatne funkcije, morate ustvariti ločeno zahtevo, tako da izberete želeno funkcijo in znova naložite dokumente. Če je AnalyzeDocument – poizvedbe izbrana funkcija, morate vnesti poizvedbe, ki jih želite preizkusiti glede na svoje dokumente. Naenkrat lahko določite do 30 poizvedb. Če naloženi dokumenti vsebujejo večstranske datoteke (PDF ali TIF), se poizvedbe uporabijo samo za prvo stran vsakega dokumenta. Nanašati se na Najboljše prakse za poizvedbe če želite izvedeti, kako sestaviti poizvedbe.
- Izberite Začni obdelavo za predložitev dokumentov Amazon Texttract v obdelavo.
Lahko spremljate status dokumenta in prenesete izhodne rezultate obdelanih dokumentov v Predloženi dokumenti razdelek. Ta razdelek se redno posodablja in ga lahko ročno osvežite, da vidite, ali je obdelava končana. Vsak dokument je obdelan posebej, tako da lahko izberete dokument z Pripravljeno za prenos stanje ali počakajte, da se vsi dokumenti končajo z obdelavo, da prenesete rezultate. Izhod obdelanih dokumentov bo na voljo do 7 dni za prenos, nato pa potečejo. Potečeni dokumenti bodo izbrisani iz Predloženi dokumenti odsek po 7 dodatnih dneh (14 dni od datuma obdelave). Predlagamo, da prenesete in shranite rezultate v 7-dnevnem obdobju.
zaključek
V tej objavi smo najavili novo funkcijo Amazon Texttract Bulk Document Uploader, ki vam omogoča hitro obdelavo velikega števila dokumentov za namene vrednotenja. To funkcijo lahko uporabite za oceno Amazon Texttract za vnaprej določen primer uporabe z vašimi dokumenti. Če želite izvedeti več o tem, kako lahko uporabite Amazon Texttract pri delovni obremenitvi inteligentne obdelave dokumentov, obiščite Funkcije Amazon Texttract in Začetek uporabe Amazon Texttract.
O avtorjih
Shashwat Sapre je višji tehnični produktni vodja pri ekipi Amazon Texttract. Osredotočen je na gradnjo storitev, ki temeljijo na strojnem učenju, za stranke AWS. V prostem času rad bere o novih tehnologijah, potuje in raziskuje različne kulinarike.
Anjan Biswas je višji arhitekt rešitev za storitve AI s poudarkom na AI/ML in podatkovni analitiki. Anjan je del svetovne ekipe za storitve AI in sodeluje s strankami, da bi jim pomagal razumeti in razviti rešitve za poslovne težave z AI in ML. Anjan ima več kot 14 let izkušenj pri delu z globalno dobavno verigo, proizvodnjo in maloprodajnimi organizacijami ter strankam dejavno pomaga pri začetku in širitvi storitev umetne inteligence AWS.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoAiStream. Podatkovna inteligenca Web3. Razširjeno znanje. Dostopite tukaj.
- Kovanje prihodnosti z Adryenn Ashley. Dostopite tukaj.
- Kupujte in prodajajte delnice podjetij pred IPO s PREIPO®. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- :ima
- : je
- :kje
- $GOR
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- O meni
- dostop
- Račun
- Ukrep
- aktivno
- Dodatne
- Poleg tega
- po
- spet
- proti
- AI
- Storitve AI
- AI / ML
- vsi
- omogoča
- Prav tako
- Amazon
- Amazonovo besedilo
- Amazon Web Services
- an
- Analiza
- analitika
- in
- razglasitve
- kaj
- API
- API-ji
- uporabna
- SE
- umetni
- AS
- At
- samodejno
- Na voljo
- AWS
- BE
- Pasovi
- Building
- poslovni
- by
- CAN
- Zmogljivosti
- primeru
- primeri
- verige
- Stroški
- Izberite
- izbiri
- Koda
- Primerjava
- dokončanje
- računalnik
- zaupanje
- Konzole
- gradnjo
- Vsebuje
- ustvarjajo
- ustvaril
- Trenutno
- Stranke, ki so
- datum
- Podatkovna analiza
- Datum
- Dnevi
- Predstavitve
- Odvisno
- želeno
- Razvoj
- drugačen
- neposredno
- prikazovanje
- dokument
- Dokumenti
- prenesi
- vsak
- enostavno
- lahka
- učinkovite
- bodisi
- omogoča
- okrepljeno
- zagotovitev
- Eter (ETH)
- oceniti
- Ocena
- obstoječih
- izkušnje
- Raziskovati
- zunanja
- Izvlečki
- Feature
- Lastnosti
- file
- datoteke
- prva
- Osredotočite
- osredotočena
- po
- za
- format
- Obrazci
- iz
- dobili
- Globalno
- Imajo
- he
- pomoč
- pomoč
- Poudarki
- njegov
- Kako
- Kako
- HTML
- http
- HTTPS
- človeško berljivo
- if
- slika
- slike
- uvoz
- Pomembno
- naložila
- in
- Posamezno
- Podatki
- začetna
- Namesto
- Inteligentna
- Inteligentna obdelava dokumentov
- namenjen
- Predstavljamo
- intuitivno
- IT
- jpg
- json
- Imejte
- velika
- večja
- pozneje
- začela
- UČITE
- učenje
- LIMIT
- Meje
- kraj aktivnosti
- stroj
- strojno učenje
- Znamka
- IZDELA
- upravitelj
- ročno
- proizvodnja
- več
- največja
- Maj ..
- moti
- ML
- več
- učinkovitejše
- več
- morajo
- ostalo
- Nimate
- potrebujejo
- Novo
- Nove tehnologije
- Številka
- OCR
- of
- offline
- on
- enkrat
- ONE
- samo
- operacije
- Možnost
- možnosti
- or
- organizacije
- izhod
- več
- lastne
- Stran
- podokno
- del
- pot
- opravlja
- Obdobje
- Dovoljenja
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Prispevek
- vaje
- ohranjanje
- cenitev
- Težave
- Postopek
- Procesi
- obravnavati
- Izdelek
- produktni vodja
- programsko
- zagotavljajo
- če
- zagotavlja
- namene
- poizvedbe
- Hitro
- hitro
- reading
- okolica
- redni
- zanašajo
- ostajajo
- Poročila
- zahteva
- Odgovor
- Rezultati
- Trgovina na drobno
- pregleda
- Enako
- Lestvica
- drugi
- Oddelek
- glej
- izbran
- izbiranje
- višji
- poslan
- ločena
- Storitev
- Storitve
- nastavite
- shouldnt
- Podpisi
- Enostavno
- hkrati
- Velikosti
- So
- rešitve
- vir
- določeno
- standardna
- začel
- Status
- Koraki
- shranjevanje
- predmet
- predloži
- kasneje
- taka
- predlagajte
- dobavi
- dobavne verige
- Podprti
- Podpira
- skupina
- tehnični
- Tehnologije
- Test
- kot
- da
- O
- Vir
- Njih
- POTEM
- zato
- jih
- ta
- skozi
- čas
- do
- orodja
- tps
- sledenje
- Transakcije
- Potovanje
- dva
- ui
- pod
- razumeli
- za razliko od
- posodobitve
- naložili
- Prenos
- URL
- Uporaba
- uporaba
- primeru uporabe
- Rabljeni
- uporabo
- preko
- vidna
- obisk
- vizualizacija
- Počakaj
- želeli
- we
- web
- spletne storitve
- Dobro
- kdaj
- ki
- bo
- z
- v
- brez
- deluje
- deluje
- pisati
- pisanje
- let
- jo
- Vaša rutina za
- zefirnet
- Zip