Amazon Transcribe を使用して多言語音声の言語を自動的に識別する

プラトン再発行

フォロワー： 0

複数の公用語がある国または複数の地域にまたがる国で事業を行っている場合、音声ファイルにはさまざまな言語が含まれている可能性があります。参加者はまったく異なる言語を話している場合もあれば、言語を切り替える場合もあります。多言語人口が多い地域での問題を報告するための顧客サービスの電話を考えてみましょう。会話は XNUMX つの言語で開始することもできますが、快適さのレベルや他の言語での使用の好みに応じて、顧客が問題を説明するために別の言語に変更する可能性があります。同様に、カスタマーケア担当者は、操作またはトラブルシューティングの指示を伝えながら、言語を切り替える場合があります。

最低 3 秒の音声で、 Amazon Transcribe 人間が言語を指定しなくても、音声で話されている言語のトランスクリプトを自動的に識別して効率的に生成できます。これは、顧客からの電話の文字起こし、ボイスメールのテキストへの変換、会議でのやり取りのキャプチャ、ユーザーフォーラムでのコミュニケーションの追跡、メディアコンテンツの制作とローカリゼーションのワークフローの監視など、さまざまなユースケースに適用されます。

この投稿では、Amazon Transcribe を使用して多言語音声ファイルを文字起こしする手順について説明します。音声ファイルを Amazon Transcribe で利用できるようにする方法と、Amazon Transcribe API を呼び出すときに多言語音声ファイルの書き起こしを有効にする方法について説明します。

ソリューションの概要

Amazon Transcribe は、音声をテキストに簡単に変換できる AWS のサービスです。自動音声認識 (ASR) サービスである Amazon Transcribe の助けを借りて、任意のアプリケーションに音声テキスト機能を簡単に追加できます。 Amazon Transcribe を使用して音声入力を取り込み、読みやすくレビューしやすい明確なトランスクリプトを作成し、カスタマイズで精度を高め、情報をフィルタリングしてクライアントのプライバシーを保護できます。

ソリューションはまた使用します Amazon シンプルストレージサービス (Amazon S3) は、どこからでも任意の量のデータを保存および取得するために構築されたオブジェクトストレージサービスです。これは、業界をリードする耐久性、可用性、パフォーマンス、セキュリティ、および事実上無制限のスケーラビリティを非常に低コストで提供するシンプルなストレージサービスです。 Amazon S3 にデータを保存するときは、 バケツ & オブジェクト. バケットはオブジェクトのコンテナです。オブジェクトは、ファイルとそのファイルを説明するメタデータです。

この投稿では、次の手順に従って、多言語の音声文字起こしソリューションを実装します。

S3バケットを作成します。
音声ファイルをバケットにアップロードします。
文字起こしジョブを作成します。
ジョブの出力を確認します。

前提条件

このチュートリアルでは、次の前提条件を満たしている必要があります。

Amazon Transcribe は、文字起こしされた出力をサービス管理または顧客管理の S3 バケットに保存するオプションを提供します。この投稿では、Amazon Transcribe が結果をサービス管理の S3 バケットに書き込みます。

Amazon Transcribe はリージョンサービスであり、呼び出される Amazon Transcribe API エンドポイントは S3 バケットと同じリージョンにある必要があることに注意してください。

音声入力ファイルを保存する S3 バケットを作成する

S3 バケットを作成するには、次の手順を実行します。

Amazon S3コンソールで、 バケットを作成する.
バケット名で、バケットのグローバルに一意の名前を入力します。
AWSリージョン、Amazon Transcribe API エンドポイントと同じリージョンを選択します。
すべてのデフォルトをそのままにしておきます。
選択する バケットを作成する.

音声ファイルを S3 バケットにアップロードする

多言語音声ファイルを AWS アカウントの S3 バケットにアップロードします。この演習では、次のサンプルを使用します。多言語音声ファイル. 英語とスペイン語を含むカスタマーサポートコールをキャプチャします。.

Amazon S3コンソールで、 バケット ナビゲーションペインに表示されます。
入力オーディオファイルを格納するために前に作成したバケットを選択します。
選択する アップロード.
選択する ファイルを追加.
書き起こしたいオーディオファイルをローカルコンピューターから選択します。
選択する アップロード.

オーディオファイルは、まもなく S3 バケットで利用できるようになります。

文字起こしジョブを作成する

オーディオファイルがアップロードされたので、文字起こしジョブを作成します。

Amazon Transcribe コンソールで、選択します 文字起こしの仕事 ナビゲーションペインに表示されます。
選択する ジョブを作成.
名前で、ジョブの一意の名前を入力します。
これは、出力トランスクリプトファイルの名前にもなります。
言語設定選択 自動多言語識別.
この機能により、Amazon Transcribe は音声ファイルで話されているすべての言語を自動的に識別して書き起こすことができます。
自動言語識別の言語オプション、選択しないままにします。
Amazon Transcribe は、音声で話されているすべての言語を自動的に識別して書き起こします。文字起こしの精度を向上させるために、必要に応じて、音声で話されていることがわかっている XNUMX つ以上の言語を選択できます。
モデルタイプ、のみ 一般モデル オプションは、この投稿の執筆時点で利用可能です。
入力データ、選択する S3を参照.
以前にアップロードしたオーディオソースファイルを選択します。
出力データ、どちらかを選択できます サービス管理の S3 バケット or お客様が指定したS3バケット. この投稿では、選択 サービス管理の S3 バケット。
選択する Next.
選択する ジョブを作成.

ジョブ出力を確認する

文字起こしジョブが完了したら、文字起こしジョブを開きます。

下にスクロールして 文字起こしのプレビュー セクション。音声の書き起こしは、 テキスト タブ。文字起こしには、会話の英語部分とスペイン語部分の両方が含まれます。

オプションで、トランスクリプトのコピーを JSON ファイルとしてダウンロードできます。通話後の分析.

クリーンアップ

今後料金が発生しないようにするには、入力オーディオソースファイルを保存するために作成した S3 バケットを空にして削除します。バケット内に含まれるすべてのオブジェクトが完全に削除されるため、ファイルが別の場所に保存されていることを確認してください。 Amazon Transcribe コンソールで、以前に文字起こし用に作成したジョブを選択して削除します。

まとめ

この投稿では、コードを記述することなく、多言語音声ファイルの識別と書き起こしを自動化するエンドツーエンドのワークフローを作成しました。 Amazon Transcribe の新しい機能を使用して、音声ファイル内のさまざまな言語を自動的に識別し、各言語を正しく書き起こしました。

詳細については、バッチ文字起こしジョブによる言語識別.

著者について

ムルトゥザ・ブートワラ AI/ML テクノロジーに関心を持つ AWS のシニアソリューションアーキテクトです。彼は顧客と協力して、顧客がビジネス成果を達成できるよう支援することに喜びを感じています。仕事以外では、アウトドア活動や家族との時間を楽しんでいます。

ビクターロホ AI / ML とソフトウェア開発に情熱を注いでいます。彼は、米国とメキシコで Amazon Alexa の立ち上げと稼働を支援しました。彼はまた、Amazon Textract を AWS パートナーに持ち込み、AWS コンタクトセンターインテリジェンス (CCI) を軌道に乗せました。彼は現在、会話型 AI パートナーのグローバルテックリーダーです。

バブスリニバサン は、シカゴを拠点とする AWS シニアスペシャリスト SA (Language AI Services) です。彼は Amazon Transcribe (音声からテキストへ) に焦点を当てており、お客様が AI サービスを使用してビジネス上の問題を解決できるよう支援しています。仕事以外では、木工とマジックショーを楽しんでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/automatically-identify-languages-in-multi-lingual-audio-using-amazon-transcribe/

タイムスタンプ： 2022 年 12 月 14 日

タイムスタンプ： 2023 年 11 月 16 日

Amazon Transcribe を使用して多言語音声の言語を自動的に識別する

プラトン再発行

ソリューションの概要

前提条件

音声入力ファイルを保存する S3 バケットを作成する

音声ファイルを S3 バケットにアップロードする

文字起こしジョブを作成する

ジョブ出力を確認する

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

Amazon Bedrock を使用した生成 AI でコードレビューと承認の効率を向上 |アマゾンウェブサービス

AWS を使用する Amazon サードパーティ販売者向けの AI/ML 主導の実用的な洞察とテーマ

NFL の Next Gen Stats でディフェンスカバレッジスキームを特定する

探索的データ分析に Amazon SageMaker Canvas を使用する

事前に署名されたURLを使用して、ビジネスアナリストにAmazonSageMakerCanvasへの安全なアクセスを提供します

Amazon SageMaker Canvas によるノーコード機械学習を使用して、製造品質のためのコンピュータービジョンによる欠陥検出を民主化する | アマゾンウェブサービス

LoRA を使用して Amazon SageMaker で Whisper モデルを微調整する | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー