Amazon Machine Learning Solutions Lab (MLSL) は最近、名前付きエンティティ認識 (NER) と関係ラベルを使用してテキストに注釈を付けるためのツールを作成しました。 Amazon SageMakerグラウンドトゥルース. アノテーターはこのツールを使用して、名前付きエンティティーでテキストにラベルを付け、それらの関係をリンクします。これにより、最先端の自然言語処理 (NLP) 機械学習 (ML) モデルをトレーニングするためのデータセットが構築されます。 最も重要なことは、これがすべての AWS のお客様に公開されるようになったことです。
お客様のユースケース: Booking.com
Booking.com は、世界有数のオンライン旅行プラットフォームの 28 つです。 プラットフォーム上の同社の XNUMX 万以上の物件リストについて顧客が何を言っているのかを理解することは、一流の顧客体験を維持するために不可欠です。 これまで、Booking.com は従来のセンチメント分析を利用して顧客が作成したレビューを大規模に解釈することしかできませんでした。 これらの解釈の特異性を向上させるために、Booking.com は最近、アスペクトベースの感情分析モデルをトレーニングするためのカスタムの注釈付きデータセットの構築を支援するために MLSL に目を向けました。
従来のセンチメント分析は、テキストの一部をポジティブ、ネガティブ、またはニュートラルに分類するプロセスです。 特異な感情. これは、ユーザーが特定のエクスペリエンスに満足しているか不満であるかを広く理解するために機能します。 たとえば、従来のセンチメント分析では、次のテキストは「中立」に分類される場合があります。
ホテルでの滞在はよかったです。 スタッフはフレンドリーで、部屋はきれいでしたが、ベッドはかなり不快でした。
アスペクトベースのセンチメント分析により、コンテンツをより微妙に理解できます。 Booking.com の場合、カスタマー レビューを全体として取り上げてカテゴリ別に分類するのではなく、レビュー内の感情を特定の側面に割り当てることができます。 たとえば、あるホテルのカスタマー レビューでは、真っ白なプールとフィットネス エリアは称賛されますが、レストランとラウンジには批判的なフィードバックが返されます。
従来のセンチメント分析では「ニュートラル」に分類されたステートメントは、アスペクトベースのセンチメント分析では次のようになります。
ホテルでの滞在はよかったです。 スタッフはフレンドリーで、部屋はきれいでしたが、ベッドはかなり不快でした。
- ホテル: ポジティブ
- スタッフ:ポジティブ
- 部屋:ポジティブ
- ベッド: ネガ
Booking.com は、ゲスト エクスペリエンスの特定の部分 (50 以上の側面のリストから) を伝えるカスタムの側面ベースの感情分析モデルを構築しようとしました。 正の, 負または ニュートラル.
Booking.com がこのモデルのトレーニング データセットを構築する前に、それに注釈を付ける方法が必要でした。 MLSL の注釈ツールは、切望されていたカスタマイズされたソリューションを提供しました。 人によるレビューは、ホテルのレビューの大規模なコレクションに対して実行されました。 次に、アノテーターは、適切なスパンをリンクする前に、センチメントとゲスト エクスペリエンスのテキスト スパンとフレーズに対する名前付きエンティティ アノテーションを完成させました。
新しいアスペクトベースのモデルにより、Booking.com は宿泊施設とレビューの両方を顧客に合わせてパーソナライズできます。 各宿泊施設のプラス面とマイナス面を強調することで、顧客は完璧にマッチするものを選ぶことができます。 さらに、さまざまな顧客が宿泊施設のさまざまな側面を気にかけているため、新しいモデルにより、それぞれに最も関連性の高いレビューを表示する機会が開かれます。
ラベル付けの要件
Ground Truth は組み込みの NER テキスト注釈機能を提供しますが、エンティティをリンクする機能は提供しません。 これを念頭に置いて、Booking.com と MLSL は、次のような新しい固有表現認識テキスト ラベル付けツールの高度な要件を策定しました。
- 入力として受け入れます: 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다. , エンティティ ラベル, 関係ラベル, 分類ラベル.
- 必要に応じて、前のラベルと関係の注釈を使用して、事前に注釈が付けられたデータを入力として受け入れます.
- 注釈なしのテキストまたは注釈付きのテキストをアノテーターに提示します。
- アノテーターが任意のテキストを強調表示し、エンティティ ラベルで注釈を付けることができます。
- アノテーターが XNUMX つのエンティティ アノテーション間の関係を作成できるようにします。
- アノテーターが多数のエンティティ ラベルを簡単にナビゲートできるようにします。
- エンティティ ラベルのカテゴリへのグループ化をサポートします。
- 重複する関係を許可します。つまり、同じ注釈付きテキスト セグメントを複数の他の注釈付きテキスト セグメントに関連付けることができます。
- 重複するエンティティ ラベルの注釈を許可します。つまり、XNUMX つの注釈が同じテキストに重なる可能性があります。 たとえば、「シアトル スペース ニードル」というテキストには、「シアトル」→「場所」と「シアトル スペース ニードル」→「アトラクション」の両方の注釈を付けることができます。
- 出力形式は入力形式と互換性があり、後続のラベル付けタスクにフィードバックできます。
- 絵文字やその他のマルチバイト文字を含む UTF-8 でエンコードされたテキストをサポートします。
- 左から右への言語をサポートします。
サンプル注釈
次のドキュメントを検討してください。
このホテルの場所が気に入りました! ルーフトップラウンジからはスペースニードルが一望できました。 パイク プレイス マーケットやウォーターフロントからも車ですぐです。
食事はルームサービスでしか利用できませんでしたが、これは少しがっかりしましたが、このパンデミック後の世界では理にかなっています.
全体的に、手ごろな価格の経験。
このドキュメントを新しい NER アノテーションにロードすると、ワーカーに次のインターフェイスが表示されます。
この場合、ワーカーの仕事は次のとおりです。
- プロパティに関連するラベル エンティティ (場所、価格、食べ物など)
- センチメントに関連するエンティティにラベルを付ける (ポジティブ、ネガティブ、またはニュートラル)
- プロパティ関連の名前付きエンティティをセンチメント関連のキーワードにリンクして、ゲスト エクスペリエンスを正確に捉えます
注釈速度は、ツールの重要な考慮事項でした。 アノテーターは一連の直感的なキーボード ショートカットとマウス ジェスチャを使用して、インターフェイスを操作し、次のことを行うことができます。
- 名前付きエンティティの注釈を追加および削除する
- 名前付きエンティティ間の関係を追加する
- ドキュメントの最初と最後にジャンプ
- 書類を提出する
さらに、重複するラベルもサポートされています。 例えば、 Seattle Space Needle
: この句では、 Seattle
場所自体とアトラクション名の一部として注釈が付けられています。
完成した注釈は、データのより完全で微妙な分析を提供します。
リレーションシップは、エンティティ カテゴリから他のエンティティ カテゴリへ (たとえば、「食品」から「感情」へ)、または個々のエンティティ タイプ間で、さまざまなレベルで構成できます。 関係は方向付けられているため、アノテーターは食べ物などの側面を感情にリンクできますが、その逆はできません (明示的に有効にしない限り)。 リレーションシップを描画するとき、注釈ツールはリレーションシップ ラベルと方向を自動的に推測します。
NER 注釈ツールの構成
このセクションでは、お客様固有のユース ケースに合わせて NER 注釈ツールをカスタマイズする方法について説明します。 これには、次の構成が含まれます。
- 注釈を付ける入力テキスト
- エンティティ ラベル
- 関係ラベル
- 分類ラベル
- 事前注釈付きデータ
- 労働者の指示
入力ドキュメント形式と出力ドキュメント形式の詳細について説明し、それぞれの例をいくつか示します。
入力ドキュメント形式
NER 注釈ツールは、次の JSON 形式の入力ドキュメントを想定しています (名前の横に疑問符が付いているフィールドはオプションです)。
簡単に言えば、入力形式には次の特徴があります。
- どちらでも
entityLabels
orclassificationLabels
(または両方) に注釈を付ける必要があります。 - If
entityLabels
与えられると、relationshipLabels
追加することができます。 - 関係は、異なるエンティティ/カテゴリ ラベル間、またはこれらの組み合わせの間で許可できます。
- 関係の「ソース」は、有向矢印が開始するエンティティであり、「ターゲット」はその方向です。
フィールド | タイプ | 説明 |
클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다. | 文字列 | 必須。 注釈のテキストを入力します。 |
トークン行 | ストリング[][] | オプション。 入力テキストのカスタム トークン化。 文字列の配列の配列。 最上位の配列はテキスト (改行) の各行を表し、XNUMX 番目のレベルの配列は各行のトークンを表します。 入力テキスト内のすべての文字/ルーンは、空白を含め、tokenRows で説明する必要があります。 |
ドキュメント ID | 文字列 | オプション。 注釈が付けられているドキュメントを顧客が追跡するためのオプションの値。 |
エンティティ ラベル | 物体[] | classificationLabels が空白の場合は必須です。 エンティティ ラベルの配列。 |
エンティティラベル[].name | 文字列 | 必須。 エンティティ ラベルの表示名。 |
エンティティラベル[].category | 文字列 | オプション。 エンティティ ラベルのカテゴリ名。 |
エンティティラベル[].shortName | 文字列 | オプション。 フル ネームではなく、注釈付きエンティティの上にこのテキストを表示します。 |
エンティティラベル[].shortCategory | 文字列 | オプション。 カテゴリ名の最初の XNUMX 文字の代わりに、このテキストをエンティティ注釈選択ドロップダウンに表示します。 |
エンティティラベル.カラー | 文字列 | オプション。 「#」プレフィックスが付いた XNUMX 進数のカラー コード。 空白の場合、エンティティ ラベルに自動的に色が割り当てられます。 |
関係ラベル | 物体[] | オプション。 関係ラベルの配列。 |
関係ラベル[].name | 文字列 | 必須。 関係ラベルの表示名。 |
relationshipLabels[].allowedRelationships | 物体[] | オプション。 この関係を割り当てることができるソースおよび宛先のエンティティ ラベルのタイプを制限する値の配列。 配列内の各項目は、一緒に「OR」されます。 |
relationshipLabels[].allowedRelationships[].sourceEntityLabelCategories | ストリング[] | sourceEntityLabelCategories または sourceEntityLabels (または両方) を設定する必要があります。 この関係の法的ソース エンティティ ラベル カテゴリ タイプのリスト。 |
relationshipLabels[].allowedRelationships[].targetEntityLabelCategories | ストリング[] | targetEntityLabelCategories または targetEntityLabels (または両方) を設定する必要があります。 この関係の法的対象エンティティ ラベル カテゴリ タイプのリスト。 |
relationshipLabels[].allowedRelationships[].sourceEntityLabels | ストリング[] | sourceEntityLabelCategories または sourceEntityLabels (または両方) を設定する必要があります。 この関係の法的ソース エンティティ ラベル タイプのリスト。 |
relationshipLabels[].allowedRelationships[].sourceEntityLabels | ストリング[] | targetEntityLabelCategories または targetEntityLabels (または両方) を設定する必要があります。 この関係の法的対象エンティティ ラベル タイプのリスト。 |
分類ラベル | ストリング[] | entityLabels が空白の場合は必須。 ドキュメント レベルの分類ラベルのリスト。 |
エンティティ注釈 | 物体[] | オプション。 入力テキストに事前に注釈を付けるためのエンティティ注釈の配列。 |
エンティティアノテーション[].id | 文字列 | 必須。 このエンティティ アノテーションの一意の識別子。 relationshipAnnotations でこのエンティティを参照するために使用されます。 |
エンティティアノテーション[].start | 数 | 必須。 このエンティティ アノテーションのルーン オフセットを開始します。 |
エンティティアノテーション[].end | 数 | 必須。 このエンティティ アノテーションの終了ルーン オフセット。 |
エンティティアノテーション[].text | 文字列 | 必須。 ルーン オフセットの開始と終了の間のテキスト コンテンツ。 |
エンティティアノテーション[].label | 文字列 | 必須。 関連付けられたエンティティ ラベル名 (entityLabels の名前から)。 |
エンティティアノテーション[].labelCategory | 文字列 | Optional.Associated entity label category (entityLabels のカテゴリから)。 |
関係注釈 | 物体[] | オプション。 関係注釈の配列。 |
relationshipAnnotations[].sourceEntityAnnotationId | 文字列 | 必須。 この関係のソース エンティティ アノテーション ID。 |
relationshipAnnotations[].targetEntityAnnotationId | 文字列 | 必須。 この関係のターゲット エンティティ アノテーション ID。 |
RelationshipAnnotations[].label | 文字列 | 必須。 関連付けられた関係ラベル名。 |
分類注釈 | ストリング[] | オプション。 ドキュメントに事前にアノテーションを付けるための分類の配列。 |
メタ | オブジェクト | オプション。 追加の構成パラメーター。 |
メタ指示 | 文字列 | オプション。 Markdown 形式のラベル付けアノテーターの手順。 |
meta.disableSubmitconfirmation | ブール値 | オプション。 送信確認モーダルを無効にするには、true に設定します。 |
メタ.マルチ分類 | ブール値 | オプション。 classificationLabels のマルチラベル モードを有効にするには、true に設定します。 |
この入力形式をよりよく理解するためのいくつかのサンプル ドキュメントを次に示します。
このスキーマに準拠するドキュメントは、入力マニフェストの個別の項目として Ground Truth に提供されます。
出力ドキュメント形式
出力形式は、新しい注釈タスクに簡単にフィードバックできるように設計されています。 出力ドキュメントのオプション フィールドは、入力ドキュメントでも設定されている場合に設定されます。 入力形式と出力形式の唯一の違いは、 meta
オブジェクト。
フィールド | タイプ | 説明 |
メタ.拒否されました | ブール値 | アノテーターがこの文書を拒否した場合、true に設定されます。 |
meta.rejected理由 | 文字列 | 文書を却下したアノテーターの理由。 |
メタルーン | ストリング[] | 入力テキストのすべての文字を表すルーンの配列。 エンティティ アノテーションの開始オフセットと終了オフセットを計算するために使用されます。 |
注釈が付けられた出力ドキュメントの例を次に示します。
ルーン注:
このコンテキストでの「ルーン」は、絵文字などのマルチバイト文字を含む、テキスト内の強調表示可能な単一の文字です。
- プログラミング言語が異なればマルチバイト文字の表現も異なるため、「Runes」を使用してハイライト可能なすべての文字を単一の原子要素として定義することは、特定のテキスト選択を記述するための明確な方法があることを意味します。
- たとえば、Python はスウェーデンの国旗を次の XNUMX 文字として扱います。
しかし、JavaScript は同じ絵文字を XNUMX つの文字として扱います。
あいまいさを排除するために、スウェーデンの国旗 (および他のすべての絵文字とマルチバイト文字) を単一のアトミック要素として扱います。
- オフセット: 入力テキストに対するルーン位置 (インデックス 0 から開始)
Ground Truth を使用した NER アノテーションの実行
フルマネージド データ ラベル サービスとして、Ground Truth は ML 用のトレーニング データセットを構築します。 このユース ケースでは、Ground Truth を使用して、注釈のためにテキスト ドキュメントのコレクションをワーカーのプールに送信します。 最後に、品質についてレビューします。
Ground Truth は、新しい NER ツールをカスタム テンプレートとして使用してデータ ラベル付けジョブを構築するように構成できます。
具体的には、次のことを行います。
- アノテーション タスクを実行するプライベート ラベル付け作業員を作成する
- 注釈を付けたいドキュメントでグラウンド トゥルース入力マニフェストを作成し、アップロードします。 Amazon Simple Storage Service(Amazon S3)
- ラベル付け前タスクとラベル付け後タスクの Lambda 関数を作成する
- カスタム NER テンプレートを使用してグラウンド トゥルース ラベル付けジョブを作成する
- ドキュメントに注釈を付ける
- 結果を確認する
NER ツール リソース
参照されているリソースとサンプル ドキュメントの完全なリストは、次の表に記載されています。
ラベリング労働力の創出
Ground Truth は、SageMaker ラベル付けワークフォースを使用して、ワーカーを管理し、タスクを分散します。 プライベート ワークフォース、ner-worker-team というワーカー チームを作成し、次の手順に従ってチームに自分を割り当てます。 プライベートワークフォースを作成する(Amazon SageMakerコンソール).
プライベート ワークフォースに自分自身を追加し、E メールを確認したら、AWS マネジメント コンソールからワーカー ポータルの URL をメモします。
- MFAデバイスに移動する
SageMaker
- MFAデバイスに移動する
Ground Truth → Labeling workforces
- 現在地に最も近い
Private
タブ - URL に注意してください
Labeling portal sign-in URL
ワーカー ポータルにログインして、ラベル付けタスクを表示して作業を開始します。
入力マニフェスト
Ground Truth の入力データ マニフェストは、各行に XNUMX つのワーカー タスクが含まれる JSON 行ファイルです。 この場合、各行には、注釈を付けたいテキストと NER 注釈スキーマを含む単一の JSON エンコードされた入力ドキュメントが含まれます。
サンプルの入力マニフェストをダウンロードする reviews.manifest
から https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest
Note: 入力マニフェストの各行にはトップレベルのキーが必要です source
or source-ref
. 詳細については、 入力マニフェスト ファイルを使用する Amazon SageMaker 開発者ガイド。
入力マニフェストを Amazon S3 にアップロードする
AWS マネジメント コンソールまたはコマンド ラインを使用して、この入力マニフェストを S3 バケットにアップロードします。 your-bucket
実際のバケット名で。
カスタム ワーカー テンプレートをダウンロード
NER ツールのカスタム ワーカー テンプレートを次からダウンロードします。 https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html ソースを表示して内容をローカルに保存するか、コマンドラインから:
ラベル付け前タスクとラベル付け後タスクの Lambda 関数を作成する
サンプルの事前ラベル付けタスク Lambda 関数をダウンロードします。 smgt-ner-pre-labeling-task-lambda.py
から https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py
サンプルの事前ラベル付けタスク Lambda 関数をダウンロードします。 smgt-ner-post-labeling-task-lambda.py
から https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py
- AWS マネジメント コンソールから事前ラベル付けタスク Lambda 関数を作成します。
- MFAデバイスに移動する
Lambda
- 選択
Create function
- 指定
Function name
assmgt-ner-pre-labeling-task-lambda
- 選択
Runtime
→Python 3.6
- 選択
Create function
- In
Function code
→lambda_hanadler.py
の内容を貼り付けますsmgt-ner-pre-labeling-task-lambda.py
- 選択
Deploy
- MFAデバイスに移動する
- AWS マネジメント コンソールからラベル付け後のタスク Lambda 関数を作成します。
- MFAデバイスに移動する
Lambda
- 選択
Create function
- 指定
Function name
assmgt-ner-post-labeling-task-lambda
- 選択
Runtime
→Python 3.6
- 詳細
Change default execution role
- 選択
Create a new role from AWS policy templates
- 入力する
Role name
:smgt-ner-post-labeling-task-lambda-role
- 選択
Create function
- 現在地に最も近い
Permissions
タブ - 現在地に最も近い
Role name
:smgt-ner-post-labeling-task-lambda-role
IAM コンソールを開く - ロールに XNUMX つのポリシーを追加する
- 選択
Attach policies
- アタッチする
AmazonS3FullAccess
方針 - 選択
Add inline policy
- 現在地に最も近い
JSON
タブ - 次のインライン ポリシーを貼り付けます。
- 選択
- に戻ります
smgt-ner-post-labeling-task-lambda
Lambda 関数の設定ページ - 現在地に最も近い
Configuration
タブ - In
Function code
→lambda_hanadler.py
の内容を貼り付けますsmgt-ner-post-labeling-task-lambda.py
- 選択
Deploy
- MFAデバイスに移動する
Ground Truth ラベル付けジョブを作成する
AWS マネジメント コンソールから:
- に移動します
Amazon SageMaker
サービス - MFAデバイスに移動する
Ground Truth
→Labeling Jobs
. - 選択
Create labeling job
- 指定します
Job Name
- 選択
Manual Data Setup
- 以前に入力マニフェストをアップロードした入力データセットの場所を指定します (例: s
3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl
) - 出力データセットの場所を指定して、同じバケット内の別のフォルダーを指すようにします (例:
s3://your-bucket/ner-output/
) - 指定します
IAM Role
選択することによりCreate new role
- を選択して、このロールが任意の S3 バケットにアクセスできるようにします。
S3 buckets you specify
→Any S3 bucket
ポリシーを作成するとき - 新しい AWS マネジメント コンソール ウィンドウで、
IAM
コンソールと選択Roles
- 作成したロールの名前を検索します (たとえば、
AmazonSageMaker-ExecutionRole-20210301T154158
) - ロール名を選択して、コンソールでロールを開きます
- 次の XNUMX つのポリシーをアタッチします。
- [ポリシーのアタッチ] を選択します
- アタッチする
AWSLambda_FullAccess
役割に - 選択
Trust Relationships
→Edit Trust Relationships
- 信頼関係の JSON を編集し、
- 交換する
YOUR_ACCOUNT_NUMBER
数値の AWS アカウント番号を使用して、以下を読み取ります。 - 信頼関係を保存する
- を選択して、このロールが任意の S3 バケットにアクセスできるようにします。
- 前の AWS マネジメント コンソール ウィンドウの新しい Ground Truth ジョブに戻ります。
Task Category
選択Custom
- 選択
Next
- 選択
Worker types
:Private
- 現在地に最も近い
Private team
:ner-worker-team
前のセクションで作成した -
Custom labeling task setup
テキスト領域で、デフォルトのコンテンツをクリアして、worker-template.liquid.html
以前に取得したファイル - 特定します
Pre-labeling task Lambda function
以前に作成した関数で:smgt-ner-pre-labeling
- 特定します
Post-labeling task Lambda function
前に作成した関数で:smgt-ner-post-labeling
- 選択
Create
ドキュメントに注釈を付ける
Ground Truth ジョブが作成されたら、ドキュメントに注釈を付けることができます。 以前に作成した従業員のワーカー ポータルを開きます (AWS マネジメント コンソールで、 SageMaker
, Ground Truth → Labeling workforces
, Private
、を開きます Labeling portal sign-in URL
)
サインインして表の最初のラベル付けタスクを選択し、[作業を開始] を選択してアノテーターを開きます。 注釈を実行し、XNUMX つのサンプル ドキュメントすべてで [送信] を選択します。
結果を確認する
Ground Truth アノテーターがタスクを完了すると、結果が出力 S3 バケットで利用可能になります。
ラベル付けジョブのすべてのタスクが完了すると、統合された出力が output.manifest
ファイルは次の場所にあります。
この出力マニフェストは、前に指定した「出力ドキュメント形式」の行ごとに XNUMX つの注釈付きテキスト ドキュメントを含む JSON 行ファイルです。 このファイルは「入力ドキュメント形式」と互換性があり、別のラウンドの注釈のために後続のグラウンド トゥルース ジョブに直接フィードできます。 または、解析して ML トレーニング ジョブに送信することもできます。 XNUMX 回目のアノテーションを使用する可能性のあるシナリオには、次のようなものがあります。
- アノテーション プロセスを XNUMX つのステップに分割し、最初のアノテーターがエンティティ アノテーションを識別し、XNUMX 番目のアノテーターが関係を描画します。
- 私たちのサンプルを取る
output.manifest
品質管理チェックとしてレビューするために、より経験豊富な XNUMX 番目のアノテーターに送信します。
カスタム グラウンド トゥルース アノテーション テンプレート
このドキュメントで説明されている NER 注釈ツールは、カスタム Ground Truth 注釈テンプレートとして実装されています。 AWS のお客様は、次の手順を使用して独自のカスタム アノテーション インターフェイスを構築できます。
まとめ
Booking.com と Amazon MLSL は協力して、複雑な名前付きエンティティの認識と関係の注釈を作成できる強力なテキスト注釈ツールを開発することができました。
NER テキスト アノテーションのユース ケースを使用している AWS のお客様には、この投稿で説明されているツールを試すことをお勧めします。 製品やサービスでの ML の使用を促進するための支援が必要な場合は、 Amazon 機械学習ソリューション ラボ.
著者について
ダンノーブル アマゾンのソフトウェア開発エンジニアであり、楽しいユーザーエクスペリエンスの構築を支援しています。 余暇には、読書、運動、家族との冒険を楽しんでいます。
プリノニス はAmazonMLSolutions Labのディープラーニングアーキテクトであり、さまざまな分野の顧客と協力して、クラウド移行の旅を加速し、最先端のソリューションとテクノロジーを使用してMLの問題を解決するのを支援しています。
ニハリカ・ジャヤンティ AWS のフロント エンド エンジニアであり、Amazon SageMaker の顧客向けにカスタム アノテーション ソリューションを開発しています。 仕事以外では、彼女は美術館に行ったり、運動したりすることを楽しんでいます。
アミット・ベカ の機械学習マネージャーです。 Booking.com、ソフトウェア開発と機械学習で 15 年以上の経験があります。 彼は人々と言語に魅了されており、コンピューターは依然としてその両方に戸惑っています。
- '
- 100
- 11
- 7
- 私たちについて
- アクセス
- 会計
- 越えて
- Action
- 添加
- NEW
- すべて
- Amazon
- アマゾン機械学習
- アマゾンセージメーカー
- 曖昧さ
- 分析
- AREA
- 利用できます
- すべてに利用可能
- AWS
- 開始
- さ
- ビルド
- 建物
- これ
- 例
- 分類
- クラウド
- コード
- コレクション
- 複雑な
- コンピューター
- 考慮
- 領事
- コンテンツ
- 中身
- 可能性
- 作成
- 重大な
- 顧客満足体験
- Customers
- データ
- 深い学習
- 開発する
- Developer
- 開発
- 異なります
- ドキュメント
- そうではありません
- 簡単に
- 効果
- 絵文字
- 奨励する
- エンジニア
- 等
- 例
- 実行
- 期待する
- 体験
- エクスペリエンス
- 家族
- FRBは
- フィードバック
- フィールズ
- 最後に
- 名
- フィットネス
- フード
- 形式でアーカイブしたプロジェクトを保存します.
- 発見
- フル
- function
- GIF
- 行く
- ゲスト
- ガイド
- 助けます
- ことができます
- こちら
- 特徴
- ホテル
- 認定条件
- How To
- HTTPS
- IAM
- 実装
- 重要
- 含めて
- index
- 個人
- IT
- JavaScriptを
- ジョブ
- 旅
- キー
- ラベリング
- ラベル
- 言語
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- 大
- 主要な
- LEARN
- 学習
- リーガルポリシー
- レベル
- レベル
- LINE
- LINK
- 液体
- リスト
- <font style="vertical-align: inherit;"><font style="vertical-align: inherit;">アップロード履歴
- 局部的に
- 場所
- 探して
- 機械学習
- 管理
- マーク
- 市場
- 一致
- Meta
- マインド
- ML
- 他には?
- 博物館
- 名
- 自然言語
- 自然言語処理
- 必要とされる
- NLP
- 番号
- オファー
- オフセット
- オンライン
- 開いた
- 開きます
- 機会
- その他
- のワークプ
- フレーズ
- プラットフォーム
- プラットフォーム
- ポリシー
- 方針
- プール
- ポータル
- パンデミック後
- 強力な
- ブランド
- 校長
- プライベート
- プロセス
- 製品
- プログラミング
- プログラミング言語
- 財産
- 提供します
- は、大阪で
- Python
- 品質
- 質問
- リーディング
- の関係
- 要件
- リソースを追加する。
- リソース
- レストラン
- 結果
- レビュー
- レビュー
- 客室
- セージメーカー
- 節約
- 規模
- センス
- 感情
- サービス
- セッションに
- ショート
- 簡単な拡張で
- So
- ソフトウェア
- ソフトウェア開発
- ソリューション
- 解決する
- スペース
- スピード
- start
- ステートメント
- 滞在
- ストレージ利用料
- サポート
- ターゲット
- テクノロジー
- ソース
- 時間
- 一緒に
- トークン化
- トークン
- ツール
- top
- トップレベル
- 追跡する
- 伝統的な
- トレーニング
- 旅行
- 治療する
- 扱い
- 信頼
- us
- users
- 値
- バージョン
- 詳しく見る
- この試験は
- 以内
- 仕事
- 働いていました
- 労働者
- 労働人口
- ワーキング
- 働く
- 作品
- 世界
- 世界の
- でしょう
- 年