Amazontext ist ein Dienst für maschinelles Lernen (ML), der automatisch Text, Handschrift und Daten aus jedem Dokument oder Bild extrahiert. Um die Bewertung der Funktionen von Amazon Textract zu vereinfachen, haben wir eine neue Funktion zum Hochladen von Massendokumenten auf der Amazon Textract-Konsole eingeführt, mit der Sie Ihre eigenen Dokumente schnell verarbeiten können, ohne Code schreiben zu müssen.
In diesem Beitrag erfahren Sie, wann und wie Sie den Amazon Textract Bulk Document Uploader verwenden, um die Leistung von Amazon Textract bei Ihren Dokumenten zu bewerten.
Lösungsübersicht
Der Bulk Document Uploader sollte zur schnellen Evaluierung von Amazon Textract für vorgegebene Anwendungsfälle verwendet werden. Durch das gleichzeitige Hochladen mehrerer Dokumente über eine intuitive Benutzeroberfläche können Sie leicht beurteilen, wie gut Amazon Textract bei Ihren Dokumenten abschneidet.
Sie können bis zu 150 Dokumente gleichzeitig hochladen und bearbeiten. Im Gegensatz zu den vorhandenen Demos der Amazon Textract-Konsole, die künstliche Grenzen für die Anzahl der Dokumente, die Dokumentgröße und die maximal zulässige Anzahl von Seiten festlegen, unterstützt der Bulk Document Uploader die Verarbeitung von bis zu 150 Dokumenten pro Anfrage und verfügt über die gleichen Dokumentgrößen- und Seitenbeschränkungen wie die Amazon Textract-APIs. Dadurch können Sie einen größeren Dokumentensatz effizienter auswerten.
Der Bulk Document Uploader gibt eine Standard-Amazon Textract-JSON-Antwort und eine CSV-Datei aus. Die Ergebnisse werden im JSON-Format zur einfachen programmatischen Analyse bereitgestellt. Darüber hinaus wird eine für Menschen lesbare CSV-Datei mit Konfidenzwerten zum einfachen Vergleich und zur Auswertung der extrahierten Informationen bereitgestellt.
Beachten Sie bei der Verwendung dieser Funktion Folgendes:
- Der Bulk Document Uploader verarbeitet Dokumente über asynchrone Operationen. Sie können den Status der Verarbeitung auf der Amazon Textract-Konsole verfolgen. Nur DokumentText erkennen (OCR), Dokument analysieren (Tabellen, Abfragen, Formulare und Signaturen) und Kosten analysieren APIs werden derzeit unterstützt.
- Der Bulk Document Uploader stellt JSON-Ergebnisse der API-Vorgänge und formatierte CSV-Berichte bereit. Möglicherweise müssen Sie sich zur Visualisierung der Daten auf externe Tools verlassen, z. B. die Anzeige von Begrenzungsrahmenhervorhebungen im Dokument mithilfe der JSON-Ergebnisse.
- Für die Verwendung dieser Funktion zum Verarbeiten von Dokumenten fallen dieselben Gebühren an wie für die reguläre Nutzung von Amazon Textract (je nachdem, welche Funktion verwendet wird) und unterliegt den TPS-Grenzwerten (Transaktionen pro Sekunde) für APIs, die für das Konto und die Region festgelegt sind. Weitere Informationen zu den Preisen finden Sie unter Preisgestaltung für Amazon Textract. Weitere Informationen zu den Amazon Textract-Grenzwerten finden Sie unter Quoten in Amazon Textract.
- Akzeptierte Dateiformate für den Massen-Uploader sind JPEG, PNG, TIF und PDF. JPEG 2000-kodierte Bilder in PDFs werden ebenfalls unterstützt. Für JPEG- und PNG-Dateien gilt eine Größenbeschränkung von 10 MB, während für PDF- und TIF-Dateien eine Größenbeschränkung von 500 MB gilt. Für mehrseitige PDF- und TIF-Dateien gilt eine Begrenzung auf 3,000 Seiten.
Verwenden Sie den Massendokument-Uploader
Der Bulk Document Uploader soll Ihnen helfen, schnell zu bewerten, wie Amazon Textract bei einer Reihe Ihrer eigenen Dokumente funktioniert, ohne Code schreiben zu müssen. Mit dem Bulk Document Uploader können Sie bis zu 150 Dokumente verarbeiten, anstatt Dokumente einzeln hochzuladen und zu verarbeiten. Sie können Dokumente direkt von Ihrem Computer in großen Mengen hochladen oder Dokumente aus einem vorhandenen importieren Amazon Simple Storage-Service (Amazon S3) Eimer.
Der Bulk Document Uploader liefert Ergebnisse, die Sie später zur Offline-Überprüfung herunterladen können. Jede herunterladbare ZIP-Datei enthält die Amazon Textract API-Antwort im JSON-Dateiformat und eine für Menschen lesbare CSV-Datei der Ausgabe mit den extrahierten Daten und Konfidenzwerten. Die Ausgabeergebnisse stehen nach der Verarbeitung 7 Tage lang zum Download zur Verfügung. Nach 14 Tagen werden die Dokumente gelöscht Eingereichte Dokumente Abschnitt. Um den Massendokument-Uploader zu verwenden, führen Sie die folgenden Schritte aus:
- Auf der Amazon Textract-Konsole unter Demos Wählen Sie im Navigationsbereich Massendokument-Uploader.
- Auswählen
Dokumente hochladen.
- Geben Sie die Quelle Ihrer Dokumente an.
Sie haben zwei Möglichkeiten, Dokumente hochzuladen:
- Importieren Sie Dokumente aus dem S3-Bucket – Wenn Sie einen S3-Bucket für Ihre Dokumente verwenden, geben Sie die Bucket-URL und (optional) das Präfix an, in dem sich Ihre Dokumente befinden
s3://your-bucket/prefix/
Format. Alternativ wählen Sie Durchsuchen Sie S3 um den gewünschten Speicherort Ihrer Dokumente zu durchsuchen und auszuwählen. Wenn der von Ihnen angegebene Amazon S3-Speicherort mehr als 150 Dokumente enthält, werden nur die ersten 150 Dokumente zur Verarbeitung an Amazon Textract gesendet. - Laden Sie Dokumente von Ihrem Computer hoch – Wenn Sie Dokumente von Ihrem Computer hochladen, können Sie durch Auswahl von bis zu 50 Dokumente gleichzeitig hochladen Dokumente hochladen. Um weitere Dokumente (maximal 150) hochzuladen, wählen Sie Dokumente hinzufügen nachdem Ihre ersten Dokumente hochgeladen wurden.
In diesem Fall werden Ihre Dokumente zunächst in einen S3-Bucket in Ihrem Konto hochgeladen, der in Ihrem Namen erstellt wird. Daher ist es wichtig sicherzustellen, dass Sie über Berechtigungen zum Zugriff auf Amazon S3 und zum Hochladen von Dokumenten auf Amazon S3 verfügen. Dies ist eine einmalige Aktion und derselbe Bucket wird für alle nachfolgenden Uploads von Ihrem Computer verwendet. Wenn Sie denselben Dokumentensatz hochladen und verarbeiten möchten, können Sie den Pfad zu diesem SXNUMX-Bucket mit verwenden Importieren Sie Dokumente aus dem S3-Bucket Möglichkeit. Der in Ihrem Namen erstellte S3-Bucket wird sichtbar, nachdem der Bucket erstellt wurde.
- Geben Sie als Nächstes die Amazon Textract-Funktion an, die Sie zum Verarbeiten Ihrer Dokumente verwenden möchten.
Sie können jeweils nur eine Funktion zur Verarbeitung Ihrer Dokumente auswählen. Wenn Sie zusätzliche Funktionen bewerten müssen, müssen Sie eine separate Anfrage erstellen, indem Sie die gewünschte Funktion auswählen und die Dokumente erneut hochladen. Wenn die AnalyzeDocument – Abfragen Wenn die Funktion ausgewählt ist, müssen Sie die Abfragen bereitstellen, die Sie anhand Ihrer Dokumente testen möchten. Sie können bis zu 30 Abfragen gleichzeitig angeben. Wenn die hochgeladenen Dokumente mehrseitige Dateien (PDF oder TIF) enthalten, werden Abfragen nur auf die erste Seite jedes Dokuments angewendet. Beziehen auf Best Practices für Abfragen um zu erfahren, wie man Abfragen erstellt.
- Auswählen Verarbeitung starten die Dokumente zur Bearbeitung an Amazon Textract zu übermitteln.
Sie können den Dokumentstatus verfolgen und die Ausgabeergebnisse verarbeiteter Dokumente im herunterladen Eingereichte Dokumente Abschnitt. Dieser Abschnitt wird regelmäßig aktualisiert und Sie können ihn manuell aktualisieren, um zu sehen, ob die Verarbeitung abgeschlossen ist. Jedes Dokument wird einzeln verarbeitet, sodass Sie das Dokument entweder mit auswählen können Bereit zum Download Status oder warten Sie, bis die Verarbeitung aller Dokumente abgeschlossen ist, um die Ergebnisse herunterzuladen. Die Ausgabe der verarbeiteten Dokumente bleibt bis zu 7 Tage zum Download verfügbar, danach verfallen sie. Abgelaufene Dokumente werden aus dem gelöscht Eingereichte Dokumente Abschnitt nach weiteren 7 Tagen (14 Tage ab dem Verarbeitungsdatum). Wir empfehlen, die Ausgaben innerhalb der 7-Tage-Frist herunterzuladen und aufzubewahren.
Zusammenfassung
In diesem Beitrag haben wir die neue Amazon Textract Bulk Document Uploader-Funktion angekündigt, mit der Sie schnell eine große Anzahl von Dokumenten zu Auswertungszwecken verarbeiten können. Mit dieser Funktion können Sie Amazon Textract für einen vorgegebenen Anwendungsfall mit Ihren Dokumenten evaluieren. Um mehr darüber zu erfahren, wie Sie Amazon Textract in Ihrer intelligenten Dokumentenverarbeitungsarbeit verwenden können, besuchen Sie Funktionen von Amazon Textract und Erste Schritte mit Amazon Textract.
Über die Autoren
Shashwat Sapre ist Senior Technical Product Manager beim Amazon Textract-Team. Er konzentriert sich auf den Aufbau von auf maschinellem Lernen basierenden Diensten für AWS-Kunden. In seiner Freizeit liest er gerne über neue Technologien, reist und erkundet verschiedene Küchen.
Anjan Biswas ist Senior AI Services Solutions Architect mit den Schwerpunkten AI/ML und Data Analytics. Anjan ist Teil des weltweiten Teams für KI-Services und arbeitet mit Kunden zusammen, um ihnen dabei zu helfen, Geschäftsprobleme mit KI und ML zu verstehen und Lösungen für diese zu entwickeln. Anjan verfügt über mehr als 14 Jahre Erfahrung in der Arbeit mit globalen Lieferketten-, Fertigungs- und Einzelhandelsorganisationen und hilft Kunden aktiv beim Einstieg und bei der Skalierung von AWS-KI-Services.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoAiStream. Web3-Datenintelligenz. Wissen verstärkt. Hier zugreifen.
- Die Zukunft prägen mit Adryenn Ashley. Hier zugreifen.
- Kaufen und verkaufen Sie Anteile an PRE-IPO-Unternehmen mit PREIPO®. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- :hast
- :Ist
- :Wo
- $UP
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- Über uns
- Zugang
- Konto
- Action
- aktiv
- Zusätzliche
- zusätzlich
- Nach der
- aufs Neue
- gegen
- AI
- KI-Dienste
- AI / ML
- Alle
- erlaubt
- ebenfalls
- Amazon
- Amazontext
- Amazon Web Services
- an
- Analyse
- Analytik
- und
- angekündigt
- jedem
- Bienen
- APIs
- angewandt
- SIND
- künstlich
- AS
- At
- Im Prinzip so, wie Sie es von Google Maps kennen.
- verfügbar
- AWS
- BE
- Box
- Building
- Geschäft
- by
- CAN
- Fähigkeiten
- Häuser
- Fälle
- Kette
- Gebühren
- Auswählen
- Auswahl
- Code
- Vergleich
- abschließen
- Computer
- Vertrauen
- Konsul (Console)
- konstruieren
- enthält
- erstellen
- erstellt
- Zur Zeit
- Kunden
- technische Daten
- Datenanalyse
- Datum
- Tage
- Demos
- Abhängig
- erwünscht
- entwickeln
- anders
- Direkt
- Anzeige
- Dokument
- Unterlagen
- herunterladen
- jeder
- leicht
- Einfache
- effizient
- entweder
- ermöglicht
- verbesserte
- gewährleisten
- Äther (ETH)
- bewerten
- Auswertung
- vorhandenen
- ERFAHRUNGEN
- Möglichkeiten sondieren
- extern
- KONZENTRAT
- Merkmal
- Eigenschaften
- Reichen Sie das
- Mappen
- Vorname
- Setzen Sie mit Achtsamkeit
- konzentriert
- Folgende
- Aussichten für
- Format
- Formen
- für
- bekommen
- Global
- Haben
- he
- Hilfe
- Unternehmen
- Highlights
- seine
- Ultraschall
- Hilfe
- HTML
- http
- HTTPS
- für Menschen lesbar
- if
- Image
- Bilder
- importieren
- wichtig
- auferlegte
- in
- Individuell
- Information
- Anfangs-
- beantragen müssen
- Intelligent
- Intelligente Dokumentenverarbeitung
- beabsichtigt
- Einführung
- intuitiv
- IT
- jpg
- JSON
- Behalten
- grosse
- größer
- später
- ins Leben gerufen
- LERNEN
- lernen
- LIMIT
- Grenzen
- Standorte
- Maschine
- Maschinelles Lernen
- um
- MACHT
- Manager
- manuell
- Herstellung
- viele
- maximal
- Kann..
- Geist / Bewusstsein
- ML
- mehr
- effizienter
- mehrere
- sollen
- Navigation
- Need
- benötigen
- Neu
- Neue Technologien
- Anzahl
- OCR
- of
- Offline-Bereich.
- on
- einmal
- EINEM
- einzige
- Einkauf & Prozesse
- Option
- Optionen
- or
- Organisationen
- Ausgabe
- übrig
- besitzen
- Seite
- Brot
- Teil
- Weg
- führt
- Zeit
- Berechtigungen
- Plato
- Datenintelligenz von Plato
- PlatoData
- Post
- Praktiken
- Erhaltung
- gebühr
- Probleme
- Prozessdefinierung
- anpassen
- Verarbeitung
- Produkt
- Produkt-Manager
- Programmatic
- die
- vorausgesetzt
- bietet
- Zwecke
- Abfragen
- Direkt
- schnell
- Lesebrillen
- Region
- regulär
- verlassen
- bleiben
- Meldungen
- Anforderung
- Antwort
- Die Ergebnisse
- Einzelhandel
- Überprüfen
- gleich
- Skalieren
- Zweite
- Abschnitt
- sehen
- ausgewählt
- Auswahl
- Senior
- geschickt
- getrennte
- Leistungen
- kompensieren
- sollte
- Unterschriften
- Einfacher
- gleichzeitig
- Größe
- So
- Lösungen
- Quelle
- angegeben
- Standard
- begonnen
- Status
- Shritte
- storage
- Fach
- abschicken
- Folge
- so
- vorschlagen
- liefern
- Supply Chain
- Unterstützte
- Unterstützt
- Team
- Technische
- Technologies
- Test
- als
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- Die Quelle
- Sie
- dann
- deswegen
- vom Nutzer definierten
- fehlen uns die Worte.
- Durch
- Zeit
- zu
- Werkzeuge
- tps
- verfolgen sind
- Transaktionen
- Reise
- XNUMX
- ui
- für
- verstehen
- nicht wie
- Updates
- hochgeladen
- Uploading
- URL
- Anwendungsbereich
- -
- Anwendungsfall
- benutzt
- Verwendung von
- sichtbar
- Besuchen Sie
- Visualisierung
- warten
- wollen
- we
- Netz
- Web-Services
- GUT
- wann
- welche
- werden wir
- mit
- .
- ohne
- arbeiten,
- Werk
- schreiben
- Schreiben
- Jahr
- U
- Ihr
- Zephyrnet
- PLZ