アマゾンテキストラック は、あらゆるドキュメントや画像からテキスト、手書き文字、データを自動的に抽出する機械学習 (ML) サービスです。 Amazon Textract の機能を評価しやすくするために、Amazon Textract コンソールで新しい一括ドキュメント アップローダー機能を開始しました。これにより、コードを記述せずに独自のドキュメント セットを迅速に処理できるようになります。
この投稿では、Amazon Textract Bulk Document Uploader を使用して、ドキュメントに対する Amazon Textract のパフォーマンスを評価するタイミングと方法について説明します。
ソリューションの概要
Bulk Document Uploader は、所定のユースケースに対する Amazon Textract の迅速な評価に使用する必要があります。 直感的な UI を通じて複数のドキュメントを同時にアップロードすることで、ドキュメントに対する Amazon Textract のパフォーマンスを簡単に測定できます。
一度に最大 150 個のドキュメントをアップロードして処理できます。 ドキュメントの数、ドキュメントのサイズ、および最大許容ページ数に人為的な制限を課す既存の Amazon Textract コンソールのデモとは異なり、Bulk Document Uploader はリクエストごとに最大 150 のドキュメントの処理をサポートし、ドキュメント サイズとページ制限は Bulk Document Uploader と同じです。 Amazon Textract API。 これにより、大規模なドキュメントのセットをより効率的に評価できるようになります。
Bulk Document Uploader は、標準の Amazon Textract JSON レスポンスと CSV ファイルを出力します。 結果はプログラムによる分析を容易にするために JSON 形式で提供されます。 さらに、抽出された情報を簡単に比較および評価できるよう、人間が判読できる信頼スコアを含む CSV ファイルが提供されます。
この機能を使用するときは、次の点に注意してください。
- Bulk Document Uploader は、次の方法でドキュメントを処理します。 非同期操作。 Amazon Textract コンソールで処理のステータスを追跡できます。 それだけ ドキュメントテキストの検出 (OCR)、 ドキュメントの分析 (テーブル、クエリ、フォーム、署名)、および 分析費用 API は現在サポートされています。
- Bulk Document Uploader は、API 操作の JSON 結果とフォーマットされた CSV レポートを提供します。 JSON 結果を使用してドキュメント上の境界ボックスをハイライト表示するなど、データの視覚化には外部ツールに依存する必要がある場合があります。
- この機能を使用してドキュメントを処理すると、通常の Amazon Textract の使用と同じ料金が発生し (使用する機能に応じて)、アカウントとリージョンに設定されている API の TPS (XNUMX 秒あたりのトランザクション数) 制限の対象となります。 価格の詳細については、を参照してください。 AmazonTextractの価格。 Amazon Textract の制限の詳細については、以下を参照してください。 Amazon Textract のクォータ.
- 一括アップローダーで受け入れられるファイル形式は、JPEG、PNG、TIF、PDF です。 PDF 内の JPEG 2000 でエンコードされた画像もサポートされます。 JPEG および PNG ファイルには 10 MB のサイズ制限がありますが、PDF および TIF ファイルには 500 MB のサイズ制限があります。 複数ページの PDF および TIF ファイルには 3,000 ページの制限があります。
一括ドキュメント アップローダーを使用する
Bulk Document Uploader は、コードを記述することなく、独自のドキュメントのセットに対して Amazon Textract がどのように実行されるかを迅速に評価できるようにすることを目的としています。 Bulk Document Uploader を使用すると、ドキュメントを個別にアップロードして処理するのではなく、最大 150 個のドキュメントを処理できます。 コンピュータから直接ドキュメントを一括アップロードしたり、既存のドキュメントからドキュメントをインポートしたりできます。 Amazon シンプル ストレージ サービス (Amazon S3)バケット。
Bulk Document Uploader は、後でオフラインで確認するためにダウンロードできる結果を提供します。 ダウンロード可能な各 ZIP ファイルには、JSON ファイル形式の Amazon Textract API 応答と、抽出されたデータと信頼スコアを含む人間が判読できる出力の CSV ファイルが含まれています。 出力結果は、処理後 7 日間ダウンロードできます。 14 日後、書類はから削除されます。 提出書類 セクション。 Bulk Document Uploader を使用するには、次の手順を実行します。
- Amazon Textract コンソールの次の場所にあります。 デモ ナビゲーション ペインで、 一括ドキュメントアップローダー.
- 選択する ドキュメントをアップロード.
- 文書の出所を指定してください。
ドキュメントをアップロードするには XNUMX つのオプションがあります。
- S3 バケットからドキュメントをインポートする – ドキュメントに S3 バケットを使用している場合は、バケット URL と (オプションで) ドキュメントが存在するプレフィックスを指定します。
s3://your-bucket/prefix/
フォーマット。 または、選択してください S3を参照 をクリックして、ドキュメントの目的の場所を参照して選択します。 指定した Amazon S3 の場所に 150 を超えるドキュメントが含まれている場合、最初の 150 ドキュメントのみが処理のために Amazon Textract に送信されます。 - コンピュータから書類をアップロードする – コンピュータからドキュメントをアップロードする場合は、次のオプションを選択して、一度に最大 50 個のドキュメントをアップロードできます ドキュメントをアップロード。 追加のドキュメント (最大 150) をアップロードするには、 文書を追加する 最初の書類がアップロードされた後。
この場合、ドキュメントはまず、ユーザーに代わって作成されたアカウントの S3 バケットにアップロードされるため、Amazon S3 にアクセスしてドキュメントをアップロードするためのアクセス許可があることを確認することが重要です。 これは 3 回限りのアクションであり、コンピューターからの後続のすべてのアップロードには同じバケットが使用されます。 同じドキュメントのセットをアップロードして処理する場合は、次のコマンドを使用してこの SXNUMX バケットへのパスを使用できます。 S3 バケットからドキュメントをインポートする オプション。 ユーザーに代わって作成された S3 バケットは、バケットの作成後に表示されます。
- 次に、ドキュメントの処理に使用する Amazon Textract 機能を指定します。
ドキュメントを処理するために一度に選択できる機能は XNUMX つだけです。 追加の機能を評価する必要がある場合は、目的の機能を選択してドキュメントを再度アップロードして、別のリクエストを作成する必要があります。 もし AnalyzeDocument – クエリ 機能が選択されている場合は、ドキュメントに対してテストするクエリを指定する必要があります。 一度に最大 30 個のクエリを指定できます。 アップロードされたドキュメントに複数ページ (PDF または TIF) ファイルが含まれている場合、クエリは各ドキュメントの最初のページにのみ適用されます。 参照する クエリのベスト プラクティス クエリの作成方法について学びます。
- 選択する 処理開始 処理のためにドキュメントを Amazon Textract に送信します。
ドキュメントのステータスを追跡し、処理されたドキュメントの出力結果をダウンロードできます。 提出書類 セクション。 このセクションは定期的に更新されるため、手動で更新して処理が完了したかどうかを確認できます。 各ドキュメントは個別に処理されるため、次のいずれかの方法でドキュメントを選択できます。 ダウンロードする準備ができました ステータスを確認するか、すべてのドキュメントの処理が完了して結果をダウンロードするまで待ちます。 処理されたドキュメントの出力は、最長 7 日間ダウンロード可能であり、その後有効期限が切れます。 有効期限が切れた書類は次から消去されます。 提出書類 さらに 7 日後 (処理日から 14 日後) のセクション。 出力をダウンロードして 7 日以内に保存することをお勧めします。
まとめ
この投稿では、評価目的で大量のドキュメントを迅速に処理できる新しい Amazon Textract Bulk Document Uploader 機能を発表しました。 この機能を使用すると、ドキュメントの所定のユースケースに対して Amazon Textract を評価できます。 インテリジェントなドキュメント処理ワークロードで Amazon Textract を使用する方法の詳細については、次のサイトをご覧ください。 Amazon Textract の機能 & Amazon Textrac の使用を開始する.
著者について
シャシュワット サプレ Amazon Textract チームのシニア テクニカル プロダクト マネージャーです。 彼は、AWS のお客様向けの機械学習ベースのサービスの構築に注力しています。 余暇には、新しいテクノロジーに関する本を読んだり、旅行したり、さまざまな料理を探索したりするのが好きです。
アンジャンビスワス AI/ML とデータ分析を専門とするシニア AI サービス ソリューション アーキテクトです。 Anjan は、世界規模の AI サービス チームの一員であり、お客様と協力して、AI と ML を使用したビジネス上の問題に対するソリューションの理解と開発を支援しています。 Anjan は、グローバルサプライチェーン、製造、および小売組織との 14 年以上の経験を持ち、お客様が AWS AI サービスを開始してスケールするのを積極的に支援しています。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- プラトアイストリーム。 Web3 データ インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- 未来を鋳造する w エイドリエン・アシュリー。 こちらからアクセスしてください。
- PREIPO® を使用して PRE-IPO 企業の株式を売買します。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- :持っている
- :は
- :どこ
- $UP
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- 私たちについて
- アクセス
- Action
- 積極的に
- NEW
- さらに
- 後
- 再び
- に対して
- AI
- AIサービス
- AI / ML
- すべて
- ことができます
- また
- Amazon
- アマゾンテキストラック
- Amazon Webサービス
- an
- 分析
- 分析論
- &
- 発表の
- どれか
- API
- API
- 適用された
- です
- 人工の
- AS
- At
- 自動的に
- 利用できます
- AWS
- BE
- ボックス
- 建物
- ビジネス
- by
- 缶
- 機能
- 場合
- 例
- チェーン
- 課金
- 選択する
- 選択する
- コード
- 比較
- コンプリート
- コンピュータ
- 信頼
- 領事
- 構築する
- 含まれています
- 作ります
- 作成した
- 現在
- Customers
- データ
- データ分析
- 日付
- 日
- デモ
- によっては
- 希望
- 開発する
- 異なります
- 直接に
- 表示
- ドキュメント
- ドキュメント
- ダウンロード
- 各
- 簡単に
- 簡単に
- 効率的な
- どちら
- 可能
- 強化された
- 確保
- エーテル(ETH)
- 評価する
- 評価
- 既存の
- 体験
- 探る
- 外部
- 抽出物
- 特徴
- 特徴
- File
- 名
- フォーカス
- 焦点を当て
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- フォーム
- から
- 取得する
- グローバル
- 持ってる
- he
- 助けます
- 助け
- ハイライト
- 彼の
- 認定条件
- How To
- HTML
- HTTP
- HTTPS
- 人間が読める
- if
- 画像
- 画像
- import
- 重要
- 課す
- in
- 個別に
- 情報
- 初期
- を取得する必要がある者
- インテリジェント-
- インテリジェントなドキュメント処理
- 意図された
- 導入
- 直観的な
- IT
- JPG
- JSON
- キープ
- 大
- より大きい
- 後で
- 打ち上げ
- LEARN
- 学習
- LIMIT
- 制限
- 場所
- 機械
- 機械学習
- make
- 作る
- マネージャー
- 手動で
- 製造業
- 多くの
- 五月..
- マインド
- ML
- 他には?
- もっと効率的
- の試合に
- しなければなりません
- ナビゲーション
- 必要
- 必要
- 新作
- 新技術
- 数
- OCR
- of
- オンライン
- on
- かつて
- ONE
- の
- 業務執行統括
- オプション
- オプション
- or
- 組織
- 出力
- が
- 自分の
- ページ
- ペイン
- 部
- path
- 実行する
- 期間
- パーミッション
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポスト
- プラクティス
- 保存する
- 価格設定
- 問題
- プロセス
- ラボレーション
- 処理
- プロダクト
- プロダクトマネージャー
- プログラム的な
- 提供します
- 提供
- は、大阪で
- 目的
- クエリ
- クイック
- すぐに
- リーディング
- 地域
- レギュラー
- 頼る
- 残る
- レポート
- 要求
- 応答
- 結果
- 小売
- レビュー
- 同じ
- 規模
- 二番
- セクション
- 選択
- 選択
- シニア
- 送信
- 別
- サービス
- サービス
- セッションに
- すべき
- 署名
- 簡単な拡張で
- 同時に
- サイズ
- So
- ソリューション
- ソース
- 指定の
- 標準
- 開始
- Status:
- ステップ
- ストレージ利用料
- テーマ
- 提出する
- それに続きます
- そのような
- 示唆する
- 供給
- サプライチェーン
- サポート
- サポート
- チーム
- 技術的
- テクノロジー
- test
- より
- それ
- ソース
- それら
- その後
- したがって、
- 彼ら
- この
- 介して
- 時間
- 〜へ
- 豊富なツール群
- TPS
- 追跡する
- 取引
- 旅行
- 2
- ui
- 下
- わかる
- 異なり、
- 更新版
- アップロード
- アップロード
- URL
- 使用法
- つかいます
- 使用事例
- 中古
- 、
- 目に見える
- 訪問
- 可視化
- wait
- 欲しいです
- we
- ウェブ
- Webサービス
- WELL
- いつ
- which
- 意志
- 以内
- 無し
- ワーキング
- 作品
- 書きます
- 書き込み
- 年
- 貴社
- あなたの
- ゼファーネット
- 〒