Amazon szöveg egy gépi tanulási (ML) szolgáltatás, amely automatikusan kivonja a szöveget, a kézírást és az adatokat bármely dokumentumból vagy képből. Az Amazon Textract képességeinek egyszerűbb értékelése érdekében elindítottunk egy új tömeges dokumentumfeltöltő funkciót az Amazon Textract konzolon, amely lehetővé teszi saját dokumentumkészletének gyors feldolgozását kód írása nélkül.
Ebben a bejegyzésben bemutatjuk, mikor és hogyan kell használni az Amazon Textract tömeges dokumentumfeltöltőt annak értékelésére, hogy az Amazon Textract hogyan teljesít a dokumentumokon.
A megoldás áttekintése
A tömeges dokumentumfeltöltőt kell használni az Amazon Textract gyors kiértékeléséhez előre meghatározott használati esetekben. Ha több dokumentumot tölt fel egyidejűleg egy intuitív felhasználói felületen keresztül, könnyen felmérheti, hogy az Amazon Textract mennyire teljesít a dokumentumain.
Egyszerre legfeljebb 150 dokumentumot tölthet fel és dolgozhat fel. Ellentétben a meglévő Amazon Textract konzolbemutatókkal, amelyek mesterséges korlátokat szabnak a dokumentumok számára, a dokumentum méretére és a maximális megengedett oldalszámra, a tömeges dokumentumfeltöltő kérésenként legfeljebb 150 dokumentum feldolgozását támogatja, és ugyanazokkal a dokumentummérettel és oldalkorlátokkal rendelkezik, mint az Amazon Textract API-k. Ez hatékonyabbá teszi nagyobb számú dokumentum kiértékelését.
A tömeges dokumentumfeltöltő szabványos Amazon Textract JSON-választ és CSV-fájlt ad ki. Az eredményeket JSON formátumban biztosítjuk az egyszerű programozott elemzés érdekében. Ezenkívül egy megbízhatósági pontszámokat tartalmazó, ember által olvasható CSV-fájl is rendelkezésre áll a kinyert információk egyszerű összehasonlításához és értékeléséhez.
A funkció használatakor tartsa szem előtt a következőket:
- A tömeges dokumentumfeltöltő a dokumentumokat a következőn keresztül dolgozza fel aszinkron műveletek. A feldolgozás állapotát az Amazon Textract konzolon követheti nyomon. Csak DetectDocumentText (OCR), AnalyzeDocument (Táblázatok, lekérdezések, űrlapok és aláírások), és AnalyzeExpense Az API-k jelenleg támogatottak.
- A tömeges dokumentumfeltöltő biztosítja az API-műveletek JSON-eredményeit és a formázott CSV-jelentéseket. Lehetséges, hogy külső eszközökre kell támaszkodnia az adatok megjelenítéséhez, például a határolókeret-kiemelések megjelenítéséhez a dokumentumon a JSON-eredmények használatával.
- Ennek a funkciónak a dokumentumok feldolgozására történő használata ugyanazokat a költségeket vonja maga után, mint az Amazon Textract szokásos használata (attól függően, hogy melyik funkciót használja), és a fiókhoz és a régióhoz beállított API-kra vonatkozó TPS (tranzakciók másodpercenkénti) korlátai vonatkoznak rá. Az árakkal kapcsolatos további információkért lásd: Amazon Textract árképzés. Ha többet szeretne megtudni az Amazon Textract korlátairól, tekintse meg a Kvóták az Amazon Textractban.
- A tömeges feltöltéshez elfogadott fájlformátumok a következők: JPEG, PNG, TIF és PDF. A JPEG 2000 kódolású képek a PDF-ben szintén támogatottak. A JPEG és PNG fájlok mérete 10 MB, míg a PDF és TIF fájlok mérete 500 MB. A többoldalas PDF- és TIF-fájlok legfeljebb 3,000 oldalasak.
Használja a Tömeges dokumentumfeltöltőt
A tömeges dokumentumfeltöltő célja, hogy segítsen gyorsan felmérni, hogyan teljesít az Amazon Textract a saját dokumentumaiban, anélkül, hogy kódot kellene írnia. A tömeges dokumentumfeltöltővel akár 150 dokumentumot is feldolgozhat a dokumentumok egyenkénti feltöltése és feldolgozása helyett. Tömegesen feltölthet dokumentumokat közvetlenül a számítógépéről, vagy importálhat dokumentumokat egy meglévőből Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör.
A tömeges dokumentumfeltöltő olyan eredményeket biztosít, amelyeket később letölthet offline áttekintéshez. Minden letölthető ZIP-fájl tartalmazza az Amazon Textract API-választ JSON-fájlformátumban, valamint a kimenet egy ember által olvasható CSV-fájlját, amely tartalmazza a kivont adatokat és a megbízhatósági pontszámokat. A kimeneti eredmények a feldolgozás után 7 napig letölthetők. 14 nap elteltével a dokumentumok törlődnek a Benyújtott dokumentumok szakasz. A tömeges dokumentumfeltöltő használatához hajtsa végre a következő lépéseket:
- Az Amazon Textract konzolon, alatt Demo a navigációs ablakban válassza a lehetőséget Tömeges dokumentumfeltöltő.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Töltsön fel dokumentumokat.
- Adja meg a dokumentumok forrását.
A dokumentumok feltöltésére két lehetőség közül választhat:
- Dokumentumok importálása az S3 vödörből – Ha S3 tárolót használ a dokumentumokhoz, adja meg a vödör URL-jét és (opcionálisan) az előtagot, ahol a dokumentumok találhatók.
s3://your-bucket/prefix/
formátum. Alternatív megoldásként válasszon Böngésszen az S3-ban böngészéshez és a dokumentumok kívánt helyének kiválasztásához. Ha a megadott Amazon S3 hely több mint 150 dokumentumot tartalmaz, akkor csak az első 150 dokumentumot küldi el az Amazon Textract feldolgozásra. - Töltsön fel dokumentumokat a számítógépéről – Ha számítógépéről tölt fel dokumentumokat, egyszerre akár 50 dokumentumot is feltölthet a kiválasztással Töltsön fel dokumentumokat. További dokumentumok (legfeljebb 150) feltöltéséhez válassza a lehetőséget Dokumentumok hozzáadása a kezdeti dokumentumok feltöltése után.
Ebben az esetben a dokumentumai először a fiókjában található S3-tárba kerülnek feltöltésre, amelyet az Ön nevében hoztak létre, ezért fontos, hogy rendelkezzen jogosultságokkal a dokumentumok eléréséhez és feltöltéséhez az Amazon S3-ba. Ez egy egyszeri művelet, és ugyanazt a gyűjtőhelyet fogja használni a számítógépedről történő minden további feltöltéshez. Ha ugyanazt a dokumentumkészletet szeretné feltölteni és feldolgozni, használhatja az S3 gyűjtőhely elérési útját a következővel Dokumentumok importálása az S3 vödörből választási lehetőség. Az Ön nevében létrehozott S3-gyűjtőtár látható lesz a tároló létrehozása után.
- Ezután adja meg a dokumentumok feldolgozásához használni kívánt Amazon Textract szolgáltatást.
Egyszerre csak egy funkciót választhat a dokumentumok feldolgozásához. Ha további funkciókat kell értékelnie, külön kérést kell létrehoznia a kívánt szolgáltatás kiválasztásával és a dokumentumok újbóli feltöltésével. Ha a AnalyzeDocument – Lekérdezések funkció van kiválasztva, meg kell adnia azokat a lekérdezéseket, amelyeket tesztelni szeretne a dokumentumokhoz. Egyszerre legfeljebb 30 lekérdezést adhat meg. Ha a feltöltött dokumentumok többoldalas (PDF vagy TIF) fájlokat tartalmaznak, a lekérdezések csak az egyes dokumentumok első oldalára vonatkoznak. Hivatkozni Bevált módszerek a lekérdezésekhez hogy megismerje a lekérdezések felépítését.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Indítsa el a feldolgozást hogy benyújtsa a dokumentumokat az Amazon Textracthoz feldolgozásra.
Nyomon követheti a dokumentum állapotát, és letöltheti a feldolgozott dokumentumok kimeneti eredményeit a Benyújtott dokumentumok szakasz. Ez a szakasz rendszeresen frissül, és manuálisan is frissítheti, hogy megnézze, befejeződött-e a feldolgozás. Minden dokumentum külön-külön kerül feldolgozásra, így a dokumentumot a következővel választhatja ki Letöltésre kész állapotát, vagy várja meg, amíg az összes dokumentum feldolgozása befejeződik az eredmények letöltéséhez. A feldolgozott dokumentumok kimenete legfeljebb 7 napig letölthető, majd lejár. A lejárt dokumentumok törlésre kerülnek a Benyújtott dokumentumok szakaszban további 7 nap (a feldolgozás dátumától számított 14 nap) elteltével. Javasoljuk a kimenetek letöltését és megőrzését 7 napos időszakon belül.
Következtetés
Ebben a bejegyzésben bemutattuk az új Amazon Textract Bulk Document Uploader funkciót, amely lehetővé teszi nagyszámú dokumentum gyors feldolgozását értékelési célokra. Ezzel a funkcióval kiértékelheti az Amazon Textractot egy előre meghatározott használati esetre a dokumentumokkal. Ha többet szeretne megtudni arról, hogyan használhatja az Amazon Textractot intelligens dokumentumfeldolgozási munkaterhelésében, látogasson el a webhelyre Az Amazon Texttract szolgáltatásai és a Az Amazon Textract használatának megkezdése.
A szerzőkről
Shashwat Sapre az Amazon Textract csapatának vezető műszaki termékmenedzsere. Arra összpontosít, hogy gépi tanuláson alapuló szolgáltatásokat építsen ki az AWS-ügyfelek számára. Szabadidejében szeret új technológiákról olvasni, utazni és különféle konyhákat felfedezni.
Anjan Biswas vezető mesterséges intelligencia-szolgáltatási építész, aki az AI/ML-re és az adatelemzésre összpontosít. Anjan a világméretű mesterséges intelligencia-szolgáltatások csapatának tagja, és az ügyfelekkel dolgozik, hogy segítsen nekik megérteni és megoldásokat kidolgozni az AI és az ML üzleti problémáira. Anjan több mint 14 éves tapasztalattal rendelkezik a globális ellátási lánc, gyártó és kiskereskedelmi szervezetekkel kapcsolatban, és aktívan segíti az ügyfeleket az AWS AI-szolgáltatások megkezdésében és bővítésében.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoAiStream. Web3 adatintelligencia. Felerősített tudás. Hozzáférés itt.
- A jövő pénzverése – Adryenn Ashley. Hozzáférés itt.
- Részvények vásárlása és eladása PRE-IPO társaságokban a PREIPO® segítségével. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- :van
- :is
- :ahol
- $ UP
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- Rólunk
- hozzáférés
- Fiók
- Akció
- aktívan
- További
- Ezen kívül
- Után
- újra
- ellen
- AI
- AI szolgáltatások
- AI / ML
- Minden termék
- lehetővé teszi, hogy
- Is
- amazon
- Amazon szöveg
- Az Amazon Web Services
- an
- elemzés
- analitika
- és a
- bejelentés
- bármilyen
- api
- API-k
- alkalmazott
- VANNAK
- mesterséges
- AS
- At
- automatikusan
- elérhető
- AWS
- BE
- Doboz
- Épület
- üzleti
- by
- TUD
- képességek
- eset
- esetek
- lánc
- díjak
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- választja
- kód
- összehasonlítás
- teljes
- számítógép
- bizalom
- Konzol
- konstrukció
- tartalmaz
- teremt
- készítette
- Jelenleg
- Ügyfelek
- dátum
- Adatelemzés
- találka
- Nap
- Demo
- attól
- kívánatos
- Fejleszt
- különböző
- közvetlenül
- megjelenítő
- dokumentum
- dokumentumok
- letöltés
- minden
- könnyen
- könnyű
- hatékony
- bármelyik
- lehetővé teszi
- fokozott
- biztosítására
- Eter (ETH)
- értékelni
- értékelés
- létező
- tapasztalat
- Feltárása
- külső
- kivonatok
- Funkció
- Jellemzők
- filé
- Fájlok
- vezetéknév
- Összpontosít
- összpontosított
- következő
- A
- formátum
- formák
- ból ből
- kap
- Globális
- Legyen
- he
- segít
- segít
- kiemeli
- övé
- Hogyan
- How To
- HTML
- http
- HTTPS
- ember által olvasható
- if
- kép
- képek
- importál
- fontos
- szabhat
- in
- Egyénileg
- információ
- kezdetben
- helyette
- Intelligens
- Intelligens dokumentumfeldolgozás
- szándékolt
- bevezetéséről
- intuitív
- IT
- jpg
- json
- Tart
- nagy
- nagyobb
- a későbbiekben
- indított
- TANUL
- tanulás
- LIMIT
- határértékek
- elhelyezkedés
- gép
- gépi tanulás
- csinál
- KÉSZÍT
- menedzser
- kézzel
- gyártási
- sok
- maximális
- Lehet..
- bánja
- ML
- több
- hatékonyabb
- többszörös
- kell
- Navigáció
- Szükség
- igénylő
- Új
- Új technológiák
- szám
- OCR
- of
- Nem elérhető
- on
- egyszer
- ONE
- csak
- Művelet
- opció
- Opciók
- or
- szervezetek
- teljesítmény
- felett
- saját
- oldal
- üvegtábla
- rész
- ösvény
- Előadja
- időszak
- engedélyek
- Plató
- Platón adatintelligencia
- PlatoData
- állás
- gyakorlat
- megőrzése
- árazás
- problémák
- folyamat
- Folyamatok
- feldolgozás
- Termékek
- termék menedzser
- programadó
- ad
- feltéve,
- biztosít
- célokra
- lekérdezések
- Quick
- gyorsan
- Olvasás
- vidék
- szabályos
- támaszkodnak
- marad
- Jelentések
- kérni
- válasz
- Eredmények
- kiskereskedelem
- Kritika
- azonos
- Skála
- Második
- Rész
- lát
- kiválasztott
- kiválasztása
- idősebb
- küldött
- különálló
- szolgáltatás
- Szolgáltatások
- készlet
- kellene
- aláírások
- Egyszerű
- egyszerre
- Méret
- So
- Megoldások
- forrás
- meghatározott
- standard
- kezdődött
- Állapot
- Lépései
- tárolás
- tárgy
- beküldése
- későbbi
- ilyen
- javasol
- kínálat
- ellátási lánc
- Támogatott
- Támogatja
- csapat
- Műszaki
- Technologies
- teszt
- mint
- hogy
- A
- The Source
- Őket
- akkor
- ebből adódóan
- ők
- ezt
- Keresztül
- idő
- nak nek
- szerszámok
- idő
- vágány
- Tranzakciók
- Utazó
- kettő
- ui
- alatt
- megért
- nem úgy mint
- Frissítés
- feltöltve
- Feltöltés
- URL
- Használat
- használ
- használati eset
- használt
- segítségével
- keresztül
- látható
- Látogat
- megjelenítés
- várjon
- akar
- we
- háló
- webes szolgáltatások
- JÓL
- amikor
- ami
- lesz
- val vel
- belül
- nélkül
- dolgozó
- művek
- ír
- írás
- év
- te
- A te
- zephyrnet
- Postai irányítószám