SageMaker Ground Truth を使用したアスペクトベースの感情分析用のテキストのラベル付け

プラトン再発行

フォロワー： 0

Amazon Machine Learning Solutions Lab (MLSL) は最近、名前付きエンティティ認識 (NER) と関係ラベルを使用してテキストに注釈を付けるためのツールを作成しました。 Amazon SageMakerグラウンドトゥルース. アノテーターはこのツールを使用して、名前付きエンティティーでテキストにラベルを付け、それらの関係をリンクします。これにより、最先端の自然言語処理 (NLP) 機械学習 (ML) モデルをトレーニングするためのデータセットが構築されます。最も重要なことは、これがすべての AWS のお客様に公開されるようになったことです。

お客様のユースケース: Booking.com

Booking.com は、世界有数のオンライン旅行プラットフォームの 28 つです。プラットフォーム上の同社の XNUMX 万以上の物件リストについて顧客が何を言っているのかを理解することは、一流の顧客体験を維持するために不可欠です。これまで、Booking.com は従来のセンチメント分析を利用して顧客が作成したレビューを大規模に解釈することしかできませんでした。これらの解釈の特異性を向上させるために、Booking.com は最近、アスペクトベースの感情分析モデルをトレーニングするためのカスタムの注釈付きデータセットの構築を支援するために MLSL に目を向けました。

従来のセンチメント分析は、テキストの一部をポジティブ、ネガティブ、またはニュートラルに分類するプロセスです。 特異な感情. これは、ユーザーが特定のエクスペリエンスに満足しているか不満であるかを広く理解するために機能します。たとえば、従来のセンチメント分析では、次のテキストは「中立」に分類される場合があります。

ホテルでの滞在はよかったです。スタッフはフレンドリーで、部屋はきれいでしたが、ベッドはかなり不快でした。

アスペクトベースのセンチメント分析により、コンテンツをより微妙に理解できます。 Booking.com の場合、カスタマーレビューを全体として取り上げてカテゴリ別に分類するのではなく、レビュー内の感情を特定の側面に割り当てることができます。たとえば、あるホテルのカスタマーレビューでは、真っ白なプールとフィットネスエリアは称賛されますが、レストランとラウンジには批判的なフィードバックが返されます。

従来のセンチメント分析では「ニュートラル」に分類されたステートメントは、アスペクトベースのセンチメント分析では次のようになります。

ホテルでの滞在はよかったです。スタッフはフレンドリーで、部屋はきれいでしたが、ベッドはかなり不快でした。

ホテル: ポジティブ
スタッフ：ポジティブ
部屋：ポジティブ
ベッド: ネガ

Booking.com は、ゲストエクスペリエンスの特定の部分 (50 以上の側面のリストから) を伝えるカスタムの側面ベースの感情分析モデルを構築しようとしました。正の, 負または ニュートラル.

Booking.com がこのモデルのトレーニングデータセットを構築する前に、それに注釈を付ける方法が必要でした。 MLSL の注釈ツールは、切望されていたカスタマイズされたソリューションを提供しました。人によるレビューは、ホテルのレビューの大規模なコレクションに対して実行されました。次に、アノテーターは、適切なスパンをリンクする前に、センチメントとゲストエクスペリエンスのテキストスパンとフレーズに対する名前付きエンティティアノテーションを完成させました。

新しいアスペクトベースのモデルにより、Booking.com は宿泊施設とレビューの両方を顧客に合わせてパーソナライズできます。各宿泊施設のプラス面とマイナス面を強調することで、顧客は完璧にマッチするものを選ぶことができます。さらに、さまざまな顧客が宿泊施設のさまざまな側面を気にかけているため、新しいモデルにより、それぞれに最も関連性の高いレビューを表示する機会が開かれます。

ラベル付けの要件

Ground Truth は組み込みの NER テキスト注釈機能を提供しますが、エンティティをリンクする機能は提供しません。これを念頭に置いて、Booking.com と MLSL は、次のような新しい固有表現認識テキストラベル付けツールの高度な要件を策定しました。

入力として受け入れます: 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다. , エンティティラベル, 関係ラベル, 分類ラベル.
必要に応じて、前のラベルと関係の注釈を使用して、事前に注釈が付けられたデータを入力として受け入れます.
注釈なしのテキストまたは注釈付きのテキストをアノテーターに提示します。
アノテーターが任意のテキストを強調表示し、エンティティラベルで注釈を付けることができます。
アノテーターが XNUMX つのエンティティアノテーション間の関係を作成できるようにします。
アノテーターが多数のエンティティラベルを簡単にナビゲートできるようにします。
エンティティラベルのカテゴリへのグループ化をサポートします。
重複する関係を許可します。つまり、同じ注釈付きテキストセグメントを複数の他の注釈付きテキストセグメントに関連付けることができます。
重複するエンティティラベルの注釈を許可します。つまり、XNUMX つの注釈が同じテキストに重なる可能性があります。たとえば、「シアトルスペースニードル」というテキストには、「シアトル」→「場所」と「シアトルスペースニードル」→「アトラクション」の両方の注釈を付けることができます。
出力形式は入力形式と互換性があり、後続のラベル付けタスクにフィードバックできます。
絵文字やその他のマルチバイト文字を含む UTF-8 でエンコードされたテキストをサポートします。
左から右への言語をサポートします。

サンプル注釈

次のドキュメントを検討してください。

このホテルの場所が気に入りました！ルーフトップラウンジからはスペースニードルが一望できました。パイクプレイスマーケットやウォーターフロントからも車ですぐです。
食事はルームサービスでしか利用できませんでしたが、これは少しがっかりしましたが、このパンデミック後の世界では理にかなっています.
全体的に、手ごろな価格の経験。

このドキュメントを新しい NER アノテーションにロードすると、ワーカーに次のインターフェイスが表示されます。

注釈のない文書を提示された労働者

この場合、ワーカーの仕事は次のとおりです。

プロパティに関連するラベルエンティティ (場所、価格、食べ物など)
センチメントに関連するエンティティにラベルを付ける (ポジティブ、ネガティブ、またはニュートラル)
プロパティ関連の名前付きエンティティをセンチメント関連のキーワードにリンクして、ゲストエクスペリエンスを正確に捉えます

注釈を実行するワーカー

注釈速度は、ツールの重要な考慮事項でした。アノテーターは一連の直感的なキーボードショートカットとマウスジェスチャを使用して、インターフェイスを操作し、次のことを行うことができます。

名前付きエンティティの注釈を追加および削除する
名前付きエンティティ間の関係を追加する
ドキュメントの最初と最後にジャンプ
書類を提出する

さらに、重複するラベルもサポートされています。例えば、 Seattle Space Needle: この句では、 Seattle 場所自体とアトラクション名の一部として注釈が付けられています。

完成した注釈は、データのより完全で微妙な分析を提供します。

完成した文書

リレーションシップは、エンティティカテゴリから他のエンティティカテゴリへ (たとえば、「食品」から「感情」へ)、または個々のエンティティタイプ間で、さまざまなレベルで構成できます。関係は方向付けられているため、アノテーターは食べ物などの側面を感情にリンクできますが、その逆はできません (明示的に有効にしない限り)。リレーションシップを描画するとき、注釈ツールはリレーションシップラベルと方向を自動的に推測します。

NER 注釈ツールの構成

このセクションでは、お客様固有のユースケースに合わせて NER 注釈ツールをカスタマイズする方法について説明します。これには、次の構成が含まれます。

注釈を付ける入力テキスト
エンティティラベル
関係ラベル
分類ラベル
事前注釈付きデータ
労働者の指示

入力ドキュメント形式と出力ドキュメント形式の詳細について説明し、それぞれの例をいくつか示します。

入力ドキュメント形式

NER 注釈ツールは、次の JSON 形式の入力ドキュメントを想定しています (名前の横に疑問符が付いているフィールドはオプションです)。

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; classificationLabels?: string[]; relationshipLabels?: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; entityAnnotations?: { id: string; start: number; end: number; text: string; label: string; labelCategory?: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta?: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; };
}

簡単に言えば、入力形式には次の特徴があります。

どちらでも entityLabels or classificationLabels (または両方) に注釈を付ける必要があります。
If entityLabels 与えられると、 relationshipLabels 追加することができます。
関係は、異なるエンティティ/カテゴリラベル間、またはこれらの組み合わせの間で許可できます。
関係の「ソース」は、有向矢印が開始するエンティティであり、「ターゲット」はその方向です。

フィールド	タイプ	説明
클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.	文字列	必須。注釈のテキストを入力します。
トークン行	ストリング[][]	オプション。入力テキストのカスタムトークン化。文字列の配列の配列。最上位の配列はテキスト (改行) の各行を表し、XNUMX 番目のレベルの配列は各行のトークンを表します。入力テキスト内のすべての文字/ルーンは、空白を含め、tokenRows で説明する必要があります。
ドキュメント ID	文字列	オプション。注釈が付けられているドキュメントを顧客が追跡するためのオプションの値。
エンティティラベル	物体[]	classificationLabels が空白の場合は必須です。エンティティラベルの配列。
エンティティラベル[].name	文字列	必須。エンティティラベルの表示名。
エンティティラベル[].category	文字列	オプション。エンティティラベルのカテゴリ名。
エンティティラベル[].shortName	文字列	オプション。フルネームではなく、注釈付きエンティティの上にこのテキストを表示します。
エンティティラベル[].shortCategory	文字列	オプション。カテゴリ名の最初の XNUMX 文字の代わりに、このテキストをエンティティ注釈選択ドロップダウンに表示します。
エンティティラベル.カラー	文字列	オプション。「#」プレフィックスが付いた XNUMX 進数のカラーコード。空白の場合、エンティティラベルに自動的に色が割り当てられます。
関係ラベル	物体[]	オプション。関係ラベルの配列。
関係ラベル[].name	文字列	必須。関係ラベルの表示名。
relationshipLabels[].allowedRelationships	物体[]	オプション。この関係を割り当てることができるソースおよび宛先のエンティティラベルのタイプを制限する値の配列。配列内の各項目は、一緒に「OR」されます。
relationshipLabels[].allowedRelationships[].sourceEntityLabelCategories	ストリング[]	sourceEntityLabelCategories または sourceEntityLabels (または両方) を設定する必要があります。この関係の法的ソースエンティティラベルカテゴリタイプのリスト。
relationshipLabels[].allowedRelationships[].targetEntityLabelCategories	ストリング[]	targetEntityLabelCategories または targetEntityLabels (または両方) を設定する必要があります。この関係の法的対象エンティティラベルカテゴリタイプのリスト。
relationshipLabels[].allowedRelationships[].sourceEntityLabels	ストリング[]	sourceEntityLabelCategories または sourceEntityLabels (または両方) を設定する必要があります。この関係の法的ソースエンティティラベルタイプのリスト。
relationshipLabels[].allowedRelationships[].sourceEntityLabels	ストリング[]	targetEntityLabelCategories または targetEntityLabels (または両方) を設定する必要があります。この関係の法的対象エンティティラベルタイプのリスト。
分類ラベル	ストリング[]	entityLabels が空白の場合は必須。ドキュメントレベルの分類ラベルのリスト。
エンティティ注釈	物体[]	オプション。入力テキストに事前に注釈を付けるためのエンティティ注釈の配列。
エンティティアノテーション[].id	文字列	必須。このエンティティアノテーションの一意の識別子。 relationshipAnnotations でこのエンティティを参照するために使用されます。
エンティティアノテーション[].start	数	必須。このエンティティアノテーションのルーンオフセットを開始します。
エンティティアノテーション[].end	数	必須。このエンティティアノテーションの終了ルーンオフセット。
エンティティアノテーション[].text	文字列	必須。ルーンオフセットの開始と終了の間のテキストコンテンツ。
エンティティアノテーション[].label	文字列	必須。関連付けられたエンティティラベル名 (entityLabels の名前から)。
エンティティアノテーション[].labelCategory	文字列	Optional.Associated entity label category (entityLabels のカテゴリから)。
関係注釈	物体[]	オプション。関係注釈の配列。
relationshipAnnotations[].sourceEntityAnnotationId	文字列	必須。この関係のソースエンティティアノテーション ID。
relationshipAnnotations[].targetEntityAnnotationId	文字列	必須。この関係のターゲットエンティティアノテーション ID。
RelationshipAnnotations[].label	文字列	必須。関連付けられた関係ラベル名。
分類注釈	ストリング[]	オプション。ドキュメントに事前にアノテーションを付けるための分類の配列。
メタ	オブジェクト	オプション。追加の構成パラメーター。
メタ指示	文字列	オプション。 Markdown 形式のラベル付けアノテーターの手順。
meta.disableSubmitconfirmation	ブール値	オプション。送信確認モーダルを無効にするには、true に設定します。
メタ.マルチ分類	ブール値	オプション。 classificationLabels のマルチラベルモードを有効にするには、true に設定します。

この入力形式をよりよく理解するためのいくつかのサンプルドキュメントを次に示します。

このスキーマに準拠するドキュメントは、入力マニフェストの個別の項目として Ground Truth に提供されます。

出力ドキュメント形式

出力形式は、新しい注釈タスクに簡単にフィードバックできるように設計されています。出力ドキュメントのオプションフィールドは、入力ドキュメントでも設定されている場合に設定されます。入力形式と出力形式の唯一の違いは、 meta オブジェクト。

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; relationshipLabels: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; classificationLabels?: string[]; entityAnnotations?: { id: string; start: number; end: number; text: string; labelCategory?: string; label: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; runes: string[]; rejected: boolean; rejectedReason: string; }
}

フィールド	タイプ	説明
メタ.拒否されました	ブール値	アノテーターがこの文書を拒否した場合、true に設定されます。
meta.rejected理由	文字列	文書を却下したアノテーターの理由。
メタルーン	ストリング[]	入力テキストのすべての文字を表すルーンの配列。エンティティアノテーションの開始オフセットと終了オフセットを計算するために使用されます。

注釈が付けられた出力ドキュメントの例を次に示します。

ルーン注:

このコンテキストでの「ルーン」は、絵文字などのマルチバイト文字を含む、テキスト内の強調表示可能な単一の文字です。

プログラミング言語が異なればマルチバイト文字の表現も異なるため、「Runes」を使用してハイライト可能なすべての文字を単一の原子要素として定義することは、特定のテキスト選択を記述するための明確な方法があることを意味します。
たとえば、Python はスウェーデンの国旗を次の XNUMX 文字として扱います。

しかし、JavaScript は同じ絵文字を XNUMX つの文字として扱います。

あいまいさを排除するために、スウェーデンの国旗 (および他のすべての絵文字とマルチバイト文字) を単一のアトミック要素として扱います。

オフセット: 入力テキストに対するルーン位置 (インデックス 0 から開始)

Ground Truth を使用した NER アノテーションの実行

フルマネージドデータラベルサービスとして、Ground Truth は ML 用のトレーニングデータセットを構築します。このユースケースでは、Ground Truth を使用して、注釈のためにテキストドキュメントのコレクションをワーカーのプールに送信します。最後に、品質についてレビューします。

Ground Truth は、新しい NER ツールをカスタムテンプレートとして使用してデータラベル付けジョブを構築するように構成できます。

具体的には、次のことを行います。

アノテーションタスクを実行するプライベートラベル付け作業員を作成する
注釈を付けたいドキュメントでグラウンドトゥルース入力マニフェストを作成し、アップロードします。 Amazon Simple Storage Service（Amazon S3）
ラベル付け前タスクとラベル付け後タスクの Lambda 関数を作成する
カスタム NER テンプレートを使用してグラウンドトゥルースラベル付けジョブを作成する
ドキュメントに注釈を付ける
結果を確認する

NER ツールリソース

参照されているリソースとサンプルドキュメントの完全なリストは、次の表に記載されています。

ラベリング労働力の創出

Ground Truth は、SageMaker ラベル付けワークフォースを使用して、ワーカーを管理し、タスクを分散します。プライベートワークフォース、ner-worker-team というワーカーチームを作成し、次の手順に従ってチームに自分を割り当てます。プライベートワークフォースを作成する（Amazon SageMakerコンソール）.

プライベートワークフォースに自分自身を追加し、E メールを確認したら、AWS マネジメントコンソールからワーカーポータルの URL をメモします。

MFAデバイスに移動する SageMaker
MFAデバイスに移動する Ground Truth → Labeling workforces
現在地に最も近い Private タブ
URL に注意してください Labeling portal sign-in URL

ワーカーポータルにログインして、ラベル付けタスクを表示して作業を開始します。

入力マニフェスト

Ground Truth の入力データマニフェストは、各行に XNUMX つのワーカータスクが含まれる JSON 行ファイルです。この場合、各行には、注釈を付けたいテキストと NER 注釈スキーマを含む単一の JSON エンコードされた入力ドキュメントが含まれます。

サンプルの入力マニフェストをダウンロードする reviews.manifest から https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest

Note: 入力マニフェストの各行にはトップレベルのキーが必要です source or source-ref. 詳細については、入力マニフェストファイルを使用する Amazon SageMaker 開発者ガイド。

入力マニフェストを Amazon S3 にアップロードする

AWS マネジメントコンソールまたはコマンドラインを使用して、この入力マニフェストを S3 バケットにアップロードします。 your-bucket 実際のバケット名で。

aws s3 cp reviews.manifest s3://your-bucket/ner-input/reviews.manifest

カスタムワーカーテンプレートをダウンロード

NER ツールのカスタムワーカーテンプレートを次からダウンロードします。 https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html ソースを表示して内容をローカルに保存するか、コマンドラインから:

wget https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html

ラベル付け前タスクとラベル付け後タスクの Lambda 関数を作成する

サンプルの事前ラベル付けタスク Lambda 関数をダウンロードします。 smgt-ner-pre-labeling-task-lambda.py から https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py

サンプルの事前ラベル付けタスク Lambda 関数をダウンロードします。 smgt-ner-post-labeling-task-lambda.py から https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py

AWS マネジメントコンソールから事前ラベル付けタスク Lambda 関数を作成します。
- MFAデバイスに移動する Lambda
- 選択 Create function
- 指定 Function name as smgt-ner-pre-labeling-task-lambda
- 選択 Runtime → Python 3.6
- 選択 Create function
- In Function code → lambda_hanadler.pyの内容を貼り付けます smgt-ner-pre-labeling-task-lambda.py
- 選択 Deploy
AWS マネジメントコンソールからラベル付け後のタスク Lambda 関数を作成します。
- MFAデバイスに移動する Lambda
- 選択 Create function
- 指定 Function name as smgt-ner-post-labeling-task-lambda
- 選択 Runtime → Python 3.6
- 詳細 Change default execution role
- 選択 Create a new role from AWS policy templates
- 入力する Role name: smgt-ner-post-labeling-task-lambda-role
- 選択 Create function
- 現在地に最も近い Permissions タブ
- 現在地に最も近い Role name: smgt-ner-post-labeling-task-lambda-role IAM コンソールを開く
- ロールに XNUMX つのポリシーを追加する
  - 選択 Attach policies
  - アタッチする AmazonS3FullAccess 方針
  - 選択 Add inline policy
  - 現在地に最も近い JSON タブ
  - 次のインラインポリシーを貼り付けます。
```
{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/AmazonSageMaker-ExecutionRole-*" }
}
```
- に戻ります smgt-ner-post-labeling-task-lambda Lambda 関数の設定ページ
- 現在地に最も近い Configuration タブ
- In Function code →lambda_hanadler.pyの内容を貼り付けます smgt-ner-post-labeling-task-lambda.py
- 選択 Deploy

Ground Truth ラベル付けジョブを作成する

AWS マネジメントコンソールから:

に移動します Amazon SageMaker サービス
MFAデバイスに移動する Ground Truth → Labeling Jobs.
選択 Create labeling job
指定します Job Name
選択 Manual Data Setup
以前に入力マニフェストをアップロードした入力データセットの場所を指定します (例: s3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl)
出力データセットの場所を指定して、同じバケット内の別のフォルダーを指すようにします (例: s3://your-bucket/ner-output/)
指定します IAM Role 選択することにより Create new role
- を選択して、このロールが任意の S3 バケットにアクセスできるようにします。 S3 buckets you specify → Any S3 bucket ポリシーを作成するとき
- 新しい AWS マネジメントコンソールウィンドウで、 IAM コンソールと選択 Roles
- 作成したロールの名前を検索します (たとえば、 AmazonSageMaker-ExecutionRole-20210301T154158)
- ロール名を選択して、コンソールでロールを開きます
- 次の XNUMX つのポリシーをアタッチします。
  - [ポリシーのアタッチ] を選択します
  - アタッチする AWSLambda_FullAccess 役割に
  - 選択 Trust Relationships → Edit Trust Relationships
  - 信頼関係の JSON を編集し、
  - 交換する YOUR_ACCOUNT_NUMBER 数値の AWS アカウント番号を使用して、以下を読み取ります。
```
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": "sts:AssumeRole" }, { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/smgt-ner-post-labeling-task-lambda-role" }, "Action": "sts:AssumeRole" } ]
}
```
  - 信頼関係を保存する
前の AWS マネジメントコンソールウィンドウの新しい Ground Truth ジョブに戻ります。 Task Category選択 Custom
選択 Next
選択 Worker types: Private
現在地に最も近い Private team : ner-worker-team 前のセクションで作成した
Custom labeling task setup テキスト領域で、デフォルトのコンテンツをクリアして、 worker-template.liquid.html 以前に取得したファイル
特定します Pre-labeling task Lambda function 以前に作成した関数で: smgt-ner-pre-labeling
特定します Post-labeling task Lambda function 前に作成した関数で: smgt-ner-post-labeling
選択 Create

ドキュメントに注釈を付ける

Ground Truth ジョブが作成されたら、ドキュメントに注釈を付けることができます。以前に作成した従業員のワーカーポータルを開きます (AWS マネジメントコンソールで、 SageMaker , Ground Truth → Labeling workforces, Private、を開きます Labeling portal sign-in URL )

サインインして表の最初のラベル付けタスクを選択し、[作業を開始] を選択してアノテーターを開きます。注釈を実行し、XNUMX つのサンプルドキュメントすべてで [送信] を選択します。

結果を確認する

Ground Truth アノテーターがタスクを完了すると、結果が出力 S3 バケットで利用可能になります。

s3://your-bucket/path-to-your-ner-job/annotations/worker-response/iteration-1/0/

ラベル付けジョブのすべてのタスクが完了すると、統合された出力が output.manifest ファイルは次の場所にあります。

s3://your-bucket/path-to-your-ner-job/manifests/output/output.manifest

この出力マニフェストは、前に指定した「出力ドキュメント形式」の行ごとに XNUMX つの注釈付きテキストドキュメントを含む JSON 行ファイルです。このファイルは「入力ドキュメント形式」と互換性があり、別のラウンドの注釈のために後続のグラウンドトゥルースジョブに直接フィードできます。または、解析して ML トレーニングジョブに送信することもできます。 XNUMX 回目のアノテーションを使用する可能性のあるシナリオには、次のようなものがあります。

アノテーションプロセスを XNUMX つのステップに分割し、最初のアノテーターがエンティティアノテーションを識別し、XNUMX 番目のアノテーターが関係を描画します。
私たちのサンプルを取る output.manifest 品質管理チェックとしてレビューするために、より経験豊富な XNUMX 番目のアノテーターに送信します。

カスタムグラウンドトゥルースアノテーションテンプレート

このドキュメントで説明されている NER 注釈ツールは、カスタム Ground Truth 注釈テンプレートとして実装されています。 AWS のお客様は、次の手順を使用して独自のカスタムアノテーションインターフェイスを構築できます。

まとめ

Booking.com と Amazon MLSL は協力して、複雑な名前付きエンティティの認識と関係の注釈を作成できる強力なテキスト注釈ツールを開発することができました。

NER テキストアノテーションのユースケースを使用している AWS のお客様には、この投稿で説明されているツールを試すことをお勧めします。製品やサービスでの ML の使用を促進するための支援が必要な場合は、 Amazon 機械学習ソリューションラボ.

著者について

ダンノーブル アマゾンのソフトウェア開発エンジニアであり、楽しいユーザーエクスペリエンスの構築を支援しています。余暇には、読書、運動、家族との冒険を楽しんでいます。

プリノニス はAmazonMLSolutions Labのディープラーニングアーキテクトであり、さまざまな分野の顧客と協力して、クラウド移行の旅を加速し、最先端のソリューションとテクノロジーを使用してMLの問題を解決するのを支援しています。

ニハリカ・ジャヤンティ AWS のフロントエンドエンジニアであり、Amazon SageMaker の顧客向けにカスタムアノテーションソリューションを開発しています。仕事以外では、彼女は美術館に行ったり、運動したりすることを楽しんでいます。

アミット・ベカ の機械学習マネージャーです。 Booking.com、ソフトウェア開発と機械学習で 15 年以上の経験があります。彼は人々と言語に魅了されており、コンピューターは依然としてその両方に戸惑っています。

ソース: https://aws.amazon.com/blogs/machine-learning/labeling-text-for-aspect-based-sentiment-analysis-using-sagemaker-ground-truth/

タイムスタンプ： 2022 年 1 月 14 日

タイムスタンプ： 2021 年 10 月 15 日

SageMakerGroundTruthを使用したアスペクトベースの感情分析用のラベルテキスト

プラトン再発行

お客様のユースケース: Booking.com

ラベル付けの要件

サンプル注釈

NER 注釈ツールの構成

入力ドキュメント形式

出力ドキュメント形式

ルーン注:

Ground Truth を使用した NER アノテーションの実行

NER ツールリソース

ラベリング労働力の創出

入力マニフェスト

入力マニフェストを Amazon S3 にアップロードする

カスタムワーカーテンプレートをダウンロード

ラベル付け前タスクとラベル付け後タスクの Lambda 関数を作成する

Ground Truth ラベル付けジョブを作成する

ドキュメントに注釈を付ける

結果を確認する

カスタムグラウンドトゥルースアノテーションテンプレート

まとめ

著者について

より多くの AWS機械学習ブログ

Amazon SageMakerを使用して、自然言語生成でスポーツの物語を強化します

Amazon Kendra が AWS パートナーである Perficient の新しい検索コネクタを追加し、顧客がエンタープライズコンテンツをより迅速に検索できるようにします

TourRadar が Amazon EventBridge と Amazon Translate を使用して翻訳プロセスを自動化する方法

Amazon SageMaker Feature Store を使用してモデルの系統を拡張し、ML 機能を含める

AWSは、MLの知識をビジネスリーダーに提供するための無料のデジタルトレーニングコースを開始します

Amazon SageMakerを使用して、タンパク質分類のためにProtBERTモデルを微調整してデプロイします

マルチテナントSaaSアプリケーション用にAmazonForecastを設定する

HawkEye 360 は、Deep Graph Library と Amazon Neptune を使用して船舶のリスクを予測します

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

お客様のユースケース: Booking.com

ラベル付けの要件

サンプル注釈

NER 注釈ツールの構成

入力ドキュメント形式

出力ドキュメント形式

ルーン注:

Ground Truth を使用した NER アノテーションの実行

NER ツール リソース

ラベリング労働力の創出

入力マニフェスト

入力マニフェストを Amazon S3 にアップロードする

カスタム ワーカー テンプレートをダウンロード

ラベル付け前タスクとラベル付け後タスクの Lambda 関数を作成する

Ground Truth ラベル付けジョブを作成する

ドキュメントに注釈を付ける

結果を確認する

カスタム グラウンド トゥルース アノテーション テンプレート

まとめ

著者について

より多くの AWS機械学習ブログ

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

NER ツールリソース

カスタムワーカーテンプレートをダウンロード

カスタムグラウンドトゥルースアノテーションテンプレート