amazontekst er en maskinlæringstjeneste (ML) som automatisk trekker ut tekst, håndskrift og data fra ethvert dokument eller bilde. For å gjøre det enklere å evaluere egenskapene til Amazon Textract, har vi lansert en ny Bulk Document Uploader-funksjon på Amazon Textract-konsollen som lar deg raskt behandle ditt eget sett med dokumenter uten å skrive noen kode.
I dette innlegget går vi gjennom når og hvordan du bruker Amazon Textract Bulk Document Uploader for å evaluere hvordan Amazon Textract presterer på dokumentene dine.
Oversikt over løsning
Bulk Document Uploader bør brukes for rask evaluering av Amazon Textract for forhåndsbestemte brukstilfeller. Ved å laste opp flere dokumenter samtidig gjennom et intuitivt brukergrensesnitt, kan du enkelt måle hvor godt Amazon Textract presterer på dokumentene dine.
Du kan laste opp og behandle opptil 150 dokumenter samtidig. I motsetning til de eksisterende Amazon Textract-konsolldemoene, som setter kunstige begrensninger på antall dokumenter, dokumentstørrelse og maksimalt tillatt antall sider, støtter Bulk Document Uploader behandling av opptil 150 dokumenter per forespørsel og har samme dokumentstørrelse og sidegrenser som Amazon Textract APIer. Dette gjør det mer effektivt for deg å evaluere et større sett med dokumenter.
Bulk Document Uploader sender ut et standard Amazon Textract JSON-svar og CSV-fil. Resultatene leveres i JSON-format for enkel programmatisk analyse. I tillegg er en menneskelesbar CSV-fil med konfidenspoeng for enkel sammenligning og evaluering av den utpakkede informasjonen.
Når du bruker denne funksjonen, husk følgende:
- Bulk Document Uploader behandler dokumenter via asynkrone operasjoner. Du kan spore statusen til behandlingen på Amazon Textract-konsollen. Bare Oppdag Dokumenttekst (OCR), Analyser Dokument (Tabeller, spørringer, skjemaer og signaturer), og AnalyserExpense APIer støttes for øyeblikket.
- Bulk Document Uploader gir JSON-resultater av API-operasjoner og formaterte CSV-rapporter. Du må kanskje stole på eksterne verktøy for visualisering av dataene, for eksempel visning av markeringsrammehøydepunkter på dokumentet ved å bruke JSON-resultatene.
- Bruk av denne funksjonen til å behandle dokumenter medfører de samme kostnadene som vanlig Amazon Textract-bruk (avhengig av hvilken funksjon som brukes), og er underlagt TPS-grensene (transaksjoner per sekund) for APIer som er satt for kontoen og regionen. For mer informasjon om priser, se Amazon Textract-priser. For å lære mer om Amazon Textract-grenser, se Kvoter i Amazon Textract.
- Godkjente filformater for masseopplasting er JPEG, PNG, TIF og PDF. JPEG 2000-kodede bilder i PDF-filer støttes også. JPEG- og PNG-filer har en størrelsesgrense på 10 MB, mens PDF- og TIF-filer har en størrelsesgrense på 500 MB. Flersidige PDF- og TIF-filer har en grense på 3,000 sider.
Bruk opplasting av massedokumenter
Bulk Document Uploader er ment å hjelpe deg raskt å evaluere hvordan Amazon Textract presterer på et sett med dine egne dokumenter, uten å måtte skrive noen kode. Du kan bruke Bulk Document Uploader til å behandle så mange som 150 dokumenter i stedet for å laste opp og behandle dokumenter individuelt. Du kan masseopplasting av dokumenter direkte fra datamaskinen din eller importere dokumenter fra en eksisterende Amazon enkel lagringstjeneste (Amazon S3) bøtte.
Bulk Document Uploader gir resultater som du kan laste ned senere for offline gjennomgang. Hver nedlastbare ZIP-fil inneholder Amazon Textract API-svaret i JSON-filformat og en menneskelig lesbar CSV-fil av utdataene som inneholder de utpakkede dataene og konfidenspoeng. Utdataresultatene er tilgjengelige for nedlasting i 7 dager etter behandling. Etter 14 dager blir dokumenter slettet fra Innsendte dokumenter seksjon. For å bruke massedokumentopplastingen, fullfør følgende trinn:
- På Amazon Textract-konsollen, under Demonstrasjoner Velg navigasjonsruten Massedokumentopplasting.
- Velg Last opp dokumenter.
- Angi kilden til dokumentene dine.
Du har to alternativer for å laste opp dokumenter:
- Importer dokumenter fra S3-bøtte – Hvis du bruker en S3-bøtte for dokumentene dine, oppgi URL-adressen for bøtte og (valgfritt) prefikset der dokumentene dine ligger, i
s3://your-bucket/prefix/
format. Alternativt, velg Bla gjennom S3 for å bla gjennom og velge ønsket plassering av dokumentene dine. Hvis Amazon S3-lokasjonen du spesifiserte inneholder mer enn 150 dokumenter, vil bare de første 150 dokumentene bli sendt til Amazon Textract for behandling. - Last opp dokumenter fra datamaskinen – Hvis du laster opp dokumenter fra datamaskinen, kan du laste opp opptil 50 dokumenter om gangen ved å velge Last opp dokumenter. For å laste opp flere dokumenter (opptil maksimalt 150), velg Legg til dokumenter etter at de første dokumentene er lastet opp.
I dette tilfellet blir dokumentene først lastet opp til en S3-bøtte i kontoen din som er opprettet på dine vegne, derfor er det viktig å sikre at du har tillatelser til å få tilgang til og laste opp dokumenter til Amazon S3. Dette er en engangshandling, og den samme bøtten vil bli brukt for alle påfølgende opplastinger fra datamaskinen din. Hvis du vil laste opp og behandle det samme settet med dokumenter, kan du bruke banen til denne S3-bøtten ved å bruke Importer dokumenter fra S3-bøtte alternativ. S3-bøtten som er opprettet på dine vegne, vil være synlig etter at bøtten er opprettet.
- Deretter spesifiser Amazon Textract-funksjonen du vil bruke til å behandle dokumentene dine.
Du kan bare velge én funksjon om gangen for å behandle dokumentene dine. Hvis du trenger å vurdere tilleggsfunksjoner, må du opprette en egen forespørsel ved å velge ønsket funksjon og laste opp dokumentene på nytt. Hvis AnalyzeDocument – Spørringer funksjonen er valgt, må du angi spørringene du vil teste mot dokumentene dine. Du kan spesifisere opptil 30 søk om gangen. Hvis de opplastede dokumentene inneholder filer på flere sider (PDF eller TIF), brukes søk bare på den første siden i hvert dokument. Referere til Beste praksis for spørringer for å lære om hvordan du konstruerer spørringer.
- Velg Start behandlingen å sende inn dokumentene til Amazon Textract for behandling.
Du kan spore dokumentstatusen og laste ned utdataresultatene for behandlede dokumenter i Innsendte dokumenter seksjon. Denne delen oppdateres med jevne mellomrom, og du kan oppdatere den manuelt for å se om behandlingen er fullført. Hvert dokument behandles individuelt, så du kan enten velge dokumentet med Klar til å laste ned status eller vent til alle dokumentene er ferdig behandlet for å laste ned resultatene. Utdataene fra de behandlede dokumentene vil forbli tilgjengelig i opptil 7 dager for nedlasting, hvoretter de utløper. Utløpte dokumenter vil bli slettet fra Innsendte dokumenter seksjon etter 7 ekstra dager (14 dager fra behandlet dato). Vi foreslår at du laster ned og bevarer utdataene innen 7-dagersperioden.
konklusjonen
I dette innlegget kunngjorde vi den nye Amazon Textract Bulk Document Uploader-funksjonen, som lar deg raskt behandle et stort antall dokumenter for evalueringsformål. Du kan bruke denne funksjonen til å evaluere Amazon Textract for en forhåndsbestemt brukssak med dokumentene dine. For å lære mer om hvordan du kan bruke Amazon Textract i arbeidsmengden for intelligent dokumentbehandling, besøk Amazon Textract-funksjoner og Komme i gang med Amazon Textract.
Om forfatterne
Shashwat Sapre er senior teknisk produktsjef hos Amazon Textract-teamet. Han er fokusert på å bygge maskinlæringsbaserte tjenester for AWS-kunder. På fritiden liker han å lese om nye teknologier, reise og utforske ulike retter.
Anjan Biswas er en senior AI Services Solutions Architect med fokus på AI/ML og Data Analytics. Anjan er en del av det verdensomspennende AI-tjenesteteamet og jobber med kunder for å hjelpe dem med å forstå og utvikle løsninger på forretningsproblemer med AI og ML. Anjan har over 14 års erfaring med å jobbe med globale forsyningskjeder, produksjons- og detaljhandelsorganisasjoner, og hjelper aktivt kunder med å komme i gang og skalere på AWS AI-tjenester.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoAiStream. Web3 Data Intelligence. Kunnskap forsterket. Tilgang her.
- Minting the Future med Adryenn Ashley. Tilgang her.
- Kjøp og selg aksjer i PRE-IPO-selskaper med PREIPO®. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- : har
- :er
- :hvor
- $OPP
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- Om oss
- adgang
- Logg inn
- Handling
- aktivt
- Ytterligere
- I tillegg
- Etter
- en gang til
- mot
- AI
- AI-tjenester
- AI / ML
- Alle
- tillater
- også
- Amazon
- amazontekst
- Amazon Web Services
- an
- analyse
- analytics
- og
- annonsert
- noen
- api
- APIer
- anvendt
- ER
- kunstig
- AS
- At
- automatisk
- tilgjengelig
- AWS
- BE
- Eske
- Bygning
- virksomhet
- by
- CAN
- evner
- saken
- saker
- kjede
- avgifter
- Velg
- velge
- kode
- sammenligning
- fullføre
- datamaskin
- selvtillit
- Konsoll
- konstruere
- inneholder
- skape
- opprettet
- I dag
- Kunder
- dato
- Data Analytics
- Dato
- Dager
- Demonstrasjoner
- avhengig
- ønsket
- utvikle
- forskjellig
- direkte
- visning
- dokument
- dokumenter
- nedlasting
- hver enkelt
- lett
- lett
- effektiv
- enten
- muliggjør
- forbedret
- sikre
- Eter (ETH)
- evaluere
- evaluering
- eksisterende
- erfaring
- Utforske
- utvendig
- ekstrakter
- Trekk
- Egenskaper
- filet
- Filer
- Først
- Fokus
- fokuserte
- etter
- Til
- format
- skjemaer
- fra
- få
- Global
- Ha
- he
- hjelpe
- hjelpe
- striper
- hans
- Hvordan
- Hvordan
- HTML
- http
- HTTPS
- lesbar
- if
- bilde
- bilder
- importere
- viktig
- pålegge
- in
- individuelt
- informasjon
- innledende
- i stedet
- Intelligent
- Intelligent dokumentbehandling
- tiltenkt
- innføre
- intuitiv
- IT
- jpg
- JSON
- Hold
- stor
- større
- seinere
- lansert
- LÆRE
- læring
- BEGRENSE
- grenser
- plassering
- maskin
- maskinlæring
- gjøre
- GJØR AT
- leder
- manuelt
- produksjon
- mange
- maksimal
- Kan..
- tankene
- ML
- mer
- mer effektivt
- flere
- må
- Navigasjon
- Trenger
- trenger
- Ny
- Ny teknologi
- Antall
- OCR
- of
- offline
- on
- gang
- ONE
- bare
- Drift
- Alternativ
- alternativer
- or
- organisasjoner
- produksjon
- enn
- egen
- side
- brød
- del
- banen
- utfører
- perioden
- tillatelser
- plato
- Platon Data Intelligence
- PlatonData
- Post
- praksis
- bevarer
- prising
- problemer
- prosess
- Prosesser
- prosessering
- Produkt
- Produktsjef
- programma
- gi
- forutsatt
- gir
- formål
- spørsmål
- Rask
- raskt
- Lesning
- region
- regelmessig
- avhengige
- forbli
- Rapporter
- anmode
- svar
- Resultater
- detaljhandel
- anmeldelse
- samme
- Skala
- Sekund
- Seksjon
- se
- valgt
- velge
- senior
- sendt
- separat
- tjeneste
- Tjenester
- sett
- bør
- signaturer
- Enkelt
- samtidig
- Størrelse
- So
- Solutions
- kilde
- spesifisert
- Standard
- startet
- status
- Steps
- lagring
- emne
- send
- senere
- slik
- foreslår
- levere
- forsyningskjeden
- Støttes
- Støtter
- lag
- Teknisk
- Technologies
- test
- enn
- Det
- De
- Kilden
- Dem
- deretter
- derfor
- de
- denne
- Gjennom
- tid
- til
- verktøy
- tps
- spor
- Transaksjoner
- Traveling
- to
- ui
- etter
- forstå
- I motsetning til
- oppdateringer
- lastet opp
- Opplasting
- URL
- bruk
- bruke
- bruk sak
- brukt
- ved hjelp av
- av
- synlig
- Besøk
- visualisering
- vente
- ønsker
- we
- web
- webtjenester
- VI VIL
- når
- hvilken
- vil
- med
- innenfor
- uten
- arbeid
- virker
- skrive
- skriving
- år
- du
- Din
- zephyrnet
- Zip