amazontext är en maskininlärningstjänst (ML) som automatiskt extraherar text, handstil och data från alla dokument eller bilder. För att göra det enklare att utvärdera funktionerna hos Amazon Textract har vi lanserat en ny Bulk Document Uploader-funktion på Amazon Textract-konsolen som gör att du snabbt kan bearbeta din egen uppsättning dokument utan att skriva någon kod.
I det här inlägget går vi igenom när och hur du använder Amazon Textract Bulk Document Uploader för att utvärdera hur Amazon Textract presterar på dina dokument.
Översikt över lösningen
Bulk Document Uploader bör användas för snabb utvärdering av Amazon Textract för förutbestämda användningsfall. Genom att ladda upp flera dokument samtidigt via ett intuitivt användargränssnitt kan du enkelt mäta hur bra Amazon Textract presterar på dina dokument.
Du kan ladda upp och bearbeta upp till 150 dokument samtidigt. Till skillnad från befintliga Amazon Textract-konsoldemonstrationer, som sätter konstgjorda gränser för antalet dokument, dokumentstorlek och maximalt tillåtna antal sidor, stöder Bulk Document Uploader bearbetning av upp till 150 dokument per begäran och har samma dokumentstorlek och sidbegränsningar som Amazon Textract API:er. Detta gör det mer effektivt för dig att utvärdera en större uppsättning dokument.
Bulk Document Uploader matar ut ett standard Amazon Textract JSON-svar och en CSV-fil. Resultaten tillhandahålls i JSON-format för enkel programmatisk analys. Dessutom tillhandahålls en läsbar CSV-fil med konfidenspoäng för enkel jämförelse och utvärdering av den extraherade informationen.
Tänk på följande när du använder den här funktionen:
- Bulk Document Uploader bearbetar dokument via asynkrona operationer. Du kan spåra statusen för bearbetningen på Amazon Textract-konsolen. Endast DetectDocumentText (OCR), Analysera dokument (Tabeller, frågor, formulär och signaturer), och AnalyseraExpense API:er stöds för närvarande.
- Bulk Document Uploader tillhandahåller JSON-resultat av API-operationer och formaterade CSV-rapporter. Du kan behöva förlita dig på externa verktyg för visualisering av data, till exempel att visa markeringsrammarkeringar på dokumentet med hjälp av JSON-resultaten.
- Att använda den här funktionen för att behandla dokument medför samma avgifter som vanlig Amazon Textract-användning (beroende på vilken funktion som används), och är föremål för TPS-gränserna (transaktioner per sekund) för API:er som är inställda för kontot och regionen. För mer information om priser, se Amazon Textract-prissättning. För att lära dig mer om Amazon Textract-gränser, se Kvoter i Amazon Textract.
- Godkända filformat för massuppladdning är JPEG, PNG, TIF och PDF. JPEG 2000-kodade bilder i PDF-filer stöds också. JPEG- och PNG-filer har en storleksgräns på 10 MB, medan PDF- och TIF-filer har en storleksgräns på 500 MB. Flersidiga PDF- och TIF-filer har en gräns på 3,000 XNUMX sidor.
Använd Bulk Document Uploader
Bulk Document Uploader är avsedd att hjälpa dig att snabbt utvärdera hur Amazon Textract presterar på en uppsättning av dina egna dokument, utan att behöva skriva någon kod. Du kan använda Bulk Document Uploader för att bearbeta så många som 150 dokument istället för att ladda upp och bearbeta dokument individuellt. Du kan massöverföra dokument direkt från din dator eller importera dokument från en befintlig Amazon enkel lagringstjänst (Amazon S3) hink.
Bulk Document Uploader ger resultat som du kan ladda ner senare för granskning offline. Varje nedladdningsbar ZIP-fil innehåller Amazon Textract API-svar i JSON-filformat och en mänskligt läsbar CSV-fil av utdata som innehåller extraherade data och konfidenspoäng. Resultaten är tillgängliga för nedladdning i 7 dagar efter bearbetning. Efter 14 dagar rensas dokument från Inlämnade handlingar sektion. För att använda Bulk Document Uploader, utför följande steg:
- På Amazon Textract-konsolen, under demos välj i navigeringsfönstret Överförare för massdokument.
- Välja Ladda upp dokument.
- Ange källan till dina dokument.
Du har två alternativ för att ladda upp dokument:
- Importera dokument från S3-hinken – Om du använder en S3-bucket för dina dokument, ange URL-adressen för bucket och (valfritt) prefixet där dina dokument finns, i
s3://your-bucket/prefix/
formatera. Alternativt, välj Bläddra i S3 för att bläddra och välja önskad plats för dina dokument. Om Amazon S3-platsen du angav innehåller mer än 150 dokument, kommer endast de första 150 dokumenten att skickas till Amazon Textract för bearbetning. - Ladda upp dokument från din dator – Om du laddar upp dokument från din dator kan du ladda upp upp till 50 dokument åt gången genom att välja Ladda upp dokument. För att ladda upp ytterligare dokument (upp till maximalt 150), välj Lägg till dokument efter att dina första dokument har laddats upp.
I det här fallet laddas dina dokument först upp till en S3-bucket i ditt konto som skapas för din räkning, därför är det viktigt att se till att du har behörighet att komma åt och ladda upp dokument till Amazon S3. Detta är en engångsåtgärd, och samma hink kommer att användas för alla efterföljande uppladdningar från din dator. Om du vill ladda upp och bearbeta samma uppsättning dokument kan du använda sökvägen till den här S3-hinken med Importera dokument från S3-hinken alternativ. S3-skopan som skapats för din räkning kommer att synas efter att hinken har skapats.
- Ange sedan Amazon Textract-funktionen du vill använda för att bearbeta dina dokument.
Du kan bara välja en funktion åt gången för att bearbeta dina dokument. Om du behöver utvärdera ytterligare funktioner måste du skapa en separat förfrågan genom att välja önskad funktion och ladda upp dokumenten igen. Om AnalyseraDokument – Frågor funktionen är vald måste du ange de frågor du vill testa mot dina dokument. Du kan ange upp till 30 frågor åt gången. Om de uppladdade dokumenten innehåller flersidiga (PDF eller TIF) filer tillämpas frågor endast på första sidan i varje dokument. Hänvisa till Bästa metoder för frågor för att lära dig hur man konstruerar frågor.
- Välja Börja bearbeta att lämna in dokumenten till Amazon Textract för bearbetning.
Du kan spåra dokumentets status och ladda ner resultatet av bearbetade dokument i Inlämnade handlingar sektion. Det här avsnittet uppdateras regelbundet och du kan uppdatera det manuellt för att se om bearbetningen är klar. Varje dokument behandlas individuellt, så du kan antingen välja dokumentet med Klar att ladda ner status eller vänta på att alla dokument har slutförts bearbetning för att ladda ner resultaten. Utdata från de behandlade dokumenten kommer att vara tillgängliga i upp till 7 dagar för nedladdning, varefter de upphör att gälla. Utgångna dokument kommer att rensas från Inlämnade handlingar avsnitt efter ytterligare 7 dagar (14 dagar från bearbetningsdatumet). Vi föreslår att du laddar ner och bevarar utgångarna inom 7-dagarsperioden.
Slutsats
I det här inlägget tillkännagav vi den nya Amazon Textract Bulk Document Uploader-funktionen, som gör att du snabbt kan bearbeta ett stort antal dokument för utvärderingsändamål. Du kan använda den här funktionen för att utvärdera Amazon Textract för ett förutbestämt användningsfall med dina dokument. För att lära dig mer om hur du kan använda Amazon Textract i din intelligenta dokumentbearbetningsbelastning, besök Amazon Textract-funktioner och Komma igång med Amazon Textract.
Om författarna
Shashwat Sapre är Senior Technical Product Manager med Amazon Textract-teamet. Han är fokuserad på att bygga maskininlärningsbaserade tjänster för AWS-kunder. På fritiden tycker han om att läsa om ny teknik, att resa och utforska olika kök.
Anjan Biswas är Senior AI Services Solutions Architect med fokus på AI/ML och Data Analytics. Anjan är en del av det världsomspännande AI-serviceteamet och arbetar med kunder för att hjälpa dem att förstå och utveckla lösningar på affärsproblem med AI och ML. Anjan har över 14 års erfarenhet av att arbeta med globala supply chain-, tillverknings- och detaljhandelsorganisationer och hjälper aktivt kunder att komma igång och skala på AWS AI-tjänster.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoAiStream. Web3 Data Intelligence. Kunskap förstärkt. Tillgång här.
- Minting the Future med Adryenn Ashley. Tillgång här.
- Köp och sälj aktier i PRE-IPO-företag med PREIPO®. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- : har
- :är
- :var
- $UPP
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- Om oss
- tillgång
- Konto
- Handling
- aktivt
- Annat
- Dessutom
- Efter
- igen
- mot
- AI
- AI-tjänster
- AI / ML
- Alla
- tillåter
- också
- amason
- amazontext
- Amazon Web Services
- an
- analys
- analytics
- och
- meddelade
- vilken som helst
- api
- API: er
- tillämpas
- ÄR
- konstgjord
- AS
- At
- automatiskt
- tillgänglig
- AWS
- BE
- Box
- Byggnad
- företag
- by
- KAN
- kapacitet
- Vid
- fall
- kedja
- avgifter
- Välja
- välja
- koda
- jämförelse
- fullborda
- dator
- förtroende
- Konsol
- konstruera
- innehåller
- skapa
- skapas
- För närvarande
- Kunder
- datum
- Data Analytics
- Datum
- Dagar
- demos
- beroende
- önskas
- utveckla
- olika
- direkt
- visning
- dokumentera
- dokument
- ladda ner
- varje
- lätt
- lätt
- effektiv
- antingen
- möjliggör
- förbättrad
- säkerställa
- Eter (ETH)
- utvärdera
- utvärdering
- befintliga
- erfarenhet
- Utforska
- extern
- extrakt
- Leverans
- Funktioner
- Fil
- Filer
- Förnamn
- Fokus
- fokuserade
- efter
- För
- format
- former
- från
- skaffa sig
- Välgörenhet
- Har
- he
- hjälpa
- hjälpa
- höjdpunkter
- hans
- Hur ser din drömresa ut
- How To
- html
- http
- HTTPS
- läsbar
- if
- bild
- bilder
- importera
- med Esport
- ålagts
- in
- Individuellt
- informationen
- inledande
- istället
- Intelligent
- Intelligent dokumentbehandling
- avsedd
- införa
- intuitiv
- IT
- jpg
- json
- Ha kvar
- Large
- större
- senare
- lanserades
- LÄRA SIG
- inlärning
- BEGRÄNSA
- gränser
- läge
- Maskinen
- maskininlärning
- göra
- GÖR
- chef
- manuellt
- Produktion
- många
- maximal
- Maj..
- emot
- ML
- mer
- mer effektiv
- multipel
- måste
- Navigering
- Behöver
- behöver
- Nya
- Ny teknik
- antal
- OCR
- of
- offline
- on
- gång
- ONE
- endast
- Verksamhet
- Alternativet
- Tillbehör
- or
- organisationer
- produktion
- över
- egen
- sida
- panelen
- del
- bana
- utför
- perioden
- behörigheter
- plato
- Platon Data Intelligence
- PlatonData
- Inlägg
- praxis
- konservering
- prissättning
- problem
- process
- processer
- bearbetning
- Produkt
- produktchef
- programma
- ge
- förutsatt
- ger
- syfte
- sökfrågor
- Snabbt
- snabbt
- Läsning
- region
- regelbunden
- förlita
- förblir
- Rapport
- begära
- respons
- Resultat
- detaljhandeln
- översyn
- Samma
- Skala
- Andra
- §
- se
- vald
- väljer
- senior
- skickas
- separat
- service
- Tjänster
- in
- skall
- signaturer
- Enkelt
- samtidigt
- Storlek
- So
- Lösningar
- Källa
- specificerade
- standard
- igång
- status
- Steg
- förvaring
- ämne
- skicka
- senare
- sådana
- föreslå
- leverera
- leveranskedjan
- Som stöds
- Stöder
- grupp
- Teknisk
- Tekniken
- testa
- än
- den där
- Smakämnen
- källan
- Dem
- sedan
- därför
- de
- detta
- Genom
- tid
- till
- verktyg
- tps
- spår
- Transaktioner
- Traveling
- två
- ui
- under
- förstå
- till skillnad från
- Uppdateringar
- uppladdad
- uppladdning
- URL
- Användning
- användning
- användningsfall
- Begagnade
- med hjälp av
- via
- synlig
- Besök
- visualisering
- vänta
- vill
- we
- webb
- webbservice
- VÄL
- när
- som
- kommer
- med
- inom
- utan
- arbetssätt
- fungerar
- skriva
- skrivning
- år
- dig
- Din
- zephyrnet
- Postnummer