複数の公用語がある国または複数の地域にまたがる国で事業を行っている場合、音声ファイルにはさまざまな言語が含まれている可能性があります。 参加者はまったく異なる言語を話している場合もあれば、言語を切り替える場合もあります。 多言語人口が多い地域での問題を報告するための顧客サービスの電話を考えてみましょう。 会話は XNUMX つの言語で開始することもできますが、快適さのレベルや他の言語での使用の好みに応じて、顧客が問題を説明するために別の言語に変更する可能性があります。 同様に、カスタマー ケア担当者は、操作またはトラブルシューティングの指示を伝えながら、言語を切り替える場合があります。
最低 3 秒の音声で、 Amazon Transcribe 人間が言語を指定しなくても、音声で話されている言語のトランスクリプトを自動的に識別して効率的に生成できます。 これは、顧客からの電話の文字起こし、ボイスメールのテキストへの変換、会議でのやり取りのキャプチャ、ユーザー フォーラムでのコミュニケーションの追跡、メディア コンテンツの制作とローカリゼーションのワークフローの監視など、さまざまなユース ケースに適用されます。
この投稿では、Amazon Transcribe を使用して多言語音声ファイルを文字起こしする手順について説明します。 音声ファイルを Amazon Transcribe で利用できるようにする方法と、Amazon Transcribe API を呼び出すときに多言語音声ファイルの書き起こしを有効にする方法について説明します。
ソリューションの概要
Amazon Transcribe は、音声をテキストに簡単に変換できる AWS のサービスです。 自動音声認識 (ASR) サービスである Amazon Transcribe の助けを借りて、任意のアプリケーションに音声テキスト機能を簡単に追加できます。 Amazon Transcribe を使用して音声入力を取り込み、読みやすくレビューしやすい明確なトランスクリプトを作成し、カスタマイズで精度を高め、情報をフィルタリングしてクライアントのプライバシーを保護できます。
ソリューションはまた使用します Amazon シンプル ストレージ サービス (Amazon S3) は、どこからでも任意の量のデータを保存および取得するために構築されたオブジェクト ストレージ サービスです。 これは、業界をリードする耐久性、可用性、パフォーマンス、セキュリティ、および事実上無制限のスケーラビリティを非常に低コストで提供するシンプルなストレージ サービスです。 Amazon S3 にデータを保存するときは、 バケツ & オブジェクト. バケットはオブジェクトのコンテナです。 オブジェクトは、ファイルとそのファイルを説明するメタデータです。
この投稿では、次の手順に従って、多言語の音声文字起こしソリューションを実装します。
- S3バケットを作成します。
- 音声ファイルをバケットにアップロードします。
- 文字起こしジョブを作成します。
- ジョブの出力を確認します。
前提条件
このチュートリアルでは、次の前提条件を満たしている必要があります。
Amazon Transcribe は、文字起こしされた出力をサービス管理または顧客管理の S3 バケットに保存するオプションを提供します。 この投稿では、Amazon Transcribe が結果をサービス管理の S3 バケットに書き込みます。
Amazon Transcribe はリージョン サービスであり、呼び出される Amazon Transcribe API エンドポイントは S3 バケットと同じリージョンにある必要があることに注意してください。
音声入力ファイルを保存する S3 バケットを作成する
S3 バケットを作成するには、次の手順を実行します。
- Amazon S3コンソールで、 バケットを作成する.
- バケット名で、バケットのグローバルに一意の名前を入力します。
- AWSリージョン、Amazon Transcribe API エンドポイントと同じリージョンを選択します。
- すべてのデフォルトをそのままにしておきます。
- 選択する バケットを作成する.
音声ファイルを S3 バケットにアップロードする
多言語音声ファイルを AWS アカウントの S3 バケットにアップロードします。 この演習では、次のサンプルを使用します。 多言語音声ファイル. 英語とスペイン語を含むカスタマー サポート コールをキャプチャします。.
- Amazon S3コンソールで、 バケット ナビゲーションペインに表示されます。
- 入力オーディオ ファイルを格納するために前に作成したバケットを選択します。
- 選択する アップロード.
- 選択する ファイルを追加.
- 書き起こしたいオーディオ ファイルをローカル コンピューターから選択します。
- 選択する アップロード.
オーディオ ファイルは、まもなく S3 バケットで利用できるようになります。
文字起こしジョブを作成する
オーディオ ファイルがアップロードされたので、文字起こしジョブを作成します。
- Amazon Transcribe コンソールで、選択します 文字起こしの仕事 ナビゲーションペインに表示されます。
- 選択する ジョブを作成.
- 名前 で、ジョブの一意の名前を入力します。
これは、出力トランスクリプト ファイルの名前にもなります。 - 言語設定選択 自動多言語識別.
この機能により、Amazon Transcribe は音声ファイルで話されているすべての言語を自動的に識別して書き起こすことができます。 - 自動言語識別の言語オプション、選択しないままにします。
Amazon Transcribe は、音声で話されているすべての言語を自動的に識別して書き起こします。 文字起こしの精度を向上させるために、必要に応じて、音声で話されていることがわかっている XNUMX つ以上の言語を選択できます。 - モデルタイプ、 のみ 一般モデル オプションは、この投稿の執筆時点で利用可能です。
- 入力データ、選択する S3を参照.
- 以前にアップロードしたオーディオ ソース ファイルを選択します。
- 出力データ、どちらかを選択できます サービス管理の S3 バケット or お客様が指定したS3バケット. この投稿では、選択 サービス管理の S3 バケット。
- 選択する Next.
- 選択する ジョブを作成.
ジョブ出力を確認する
下にスクロールして 文字起こしのプレビュー セクション。 音声の書き起こしは、 テキスト タブ。 文字起こしには、会話の英語部分とスペイン語部分の両方が含まれます。
オプションで、トランスクリプトのコピーを JSON ファイルとしてダウンロードできます。 通話後の分析.
クリーンアップ
今後料金が発生しないようにするには、入力オーディオ ソース ファイルを保存するために作成した S3 バケットを空にして削除します。 バケット内に含まれるすべてのオブジェクトが完全に削除されるため、ファイルが別の場所に保存されていることを確認してください。 Amazon Transcribe コンソールで、以前に文字起こし用に作成したジョブを選択して削除します。
まとめ
この投稿では、コードを記述することなく、多言語音声ファイルの識別と書き起こしを自動化するエンド ツー エンドのワークフローを作成しました。 Amazon Transcribe の新しい機能を使用して、音声ファイル内のさまざまな言語を自動的に識別し、各言語を正しく書き起こしました。
詳細については、 バッチ文字起こしジョブによる言語識別.
著者について
ムルトゥザ・ブートワラ AI/ML テクノロジーに関心を持つ AWS のシニア ソリューション アーキテクトです。 彼は顧客と協力して、顧客がビジネス成果を達成できるよう支援することに喜びを感じています。 仕事以外では、アウトドア活動や家族との時間を楽しんでいます。
ビクターロホ AI / ML とソフトウェア開発に情熱を注いでいます。 彼は、米国とメキシコで Amazon Alexa の立ち上げと稼働を支援しました。 彼はまた、Amazon Textract を AWS パートナーに持ち込み、AWS コンタクト センター インテリジェンス (CCI) を軌道に乗せました。 彼は現在、会話型 AI パートナーのグローバル テック リーダーです。
バブスリニバサン は、シカゴを拠点とする AWS シニア スペシャリスト SA (Language AI Services) です。 彼は Amazon Transcribe (音声からテキストへ) に焦点を当てており、お客様が AI サービスを使用してビジネス上の問題を解決できるよう支援しています。 仕事以外では、木工とマジック ショーを楽しんでいます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/automatically-identify-languages-in-multi-lingual-audio-using-amazon-transcribe/
- 100
- a
- 私たちについて
- 精度
- 達成する
- 越えて
- 活動
- AI
- AIサービス
- AI / ML
- アレクサ
- すべて
- しかし
- Amazon
- アマゾンテキストラック
- Amazon Transcribe
- 量
- &
- 別の
- どこにでも
- API
- API
- 申し込み
- AREA
- オーディオ
- 自動化する
- 自動化
- オートマチック
- 自動的に
- 賃貸条件の詳細・契約費用のお見積り等について
- 利用できます
- AWS
- ベース
- なぜなら
- さ
- の間に
- た
- 内蔵
- ビジネス
- コール
- 呼ばれます
- 呼び出し
- コール
- キャプチャ
- キャプチャ
- これ
- 例
- センター
- 変化する
- 課金
- シカゴ
- 選択する
- クリア
- クライアント
- コード
- 快適さ
- 通信部
- コンプリート
- コンピュータ
- 検討
- 領事
- 接触
- コンタクトセンター
- コンテナ
- コンテンツ
- 会話
- 会話
- 会話型AI
- 変換
- 費用
- 可能性
- 国
- 作ります
- 作成した
- 現在
- 顧客
- 顧客サービス
- カスタマーサービス
- Customers
- カスタム化
- データ
- デフォルト
- によっては
- 説明する
- 開発
- 異なります
- 話し合います
- ダウン
- ダウンロード
- 耐久性
- 各
- 効率良く
- どちら
- 他の場所で
- enable
- 可能
- 端から端まで
- 英語
- 入力します
- 完全に
- エーテル(ETH)
- 運動
- 家族
- 実行可能な
- 特徴
- File
- filter
- 焦点を当てて
- フォロー中
- フォーラム
- から
- 機能性
- さらに
- 未来
- 生成する
- 取得する
- グローバル
- グローバルに
- 陸上
- 助けます
- 助けました
- 助け
- 認定条件
- How To
- HTML
- HTTPS
- 人間
- 識別
- 識別する
- 識別する
- 実装する
- 改善します
- in
- 含ま
- 増える
- 業界をリードする
- 情報
- 説明書
- インテリジェンス
- 相互作用
- 関心
- IT
- ジョブ
- JSON
- 知っている
- 既知の
- 言語
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- リーダー
- コメントを残す
- レベル
- ローカル
- ローカライゼーション
- ロー
- マジック
- make
- 作る
- マネージド
- メディア
- ご相談
- Mexico
- かもしれない
- 最小
- モニタリング
- 他には?
- の試合に
- 名
- ナビゲーション
- 必要
- 必要
- 新作
- オブジェクト
- オブジェクト
- オファー
- 公式
- ONE
- 開いた
- 操作する
- オペレーティング
- オプション
- オプション
- その他
- 外側
- ペイン
- 参加者
- パートナー
- 情熱的な
- パフォーマンス
- 実行
- 永久に
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 人口
- ポスト
- プ
- 前提条件
- 前に
- プライバシー
- 問題
- 問題
- 生産
- 守る
- 提供します
- 目的
- 読む
- 認識
- 地域
- 地域の
- 地域
- 削除します
- レポート
- 代表者
- リソース
- 結果
- レビュー
- ランニング
- SA
- 同じ
- スケーラビリティ
- 秒
- セクション
- セキュリティ
- サービス
- サービス
- まもなく
- すべき
- 作品
- 同様の
- 簡単な拡張で
- ソフトウェア
- ソフトウェア開発
- 溶液
- ソリューション
- 解決する
- ソース
- スペイン語
- 話す
- 専門家
- 指定の
- スピーチ
- 音声認識
- 支出
- ステップ
- ストレージ利用料
- 店舗
- 保存され
- かなりの
- そのような
- サポート
- スイッチ
- テク
- テクノロジー
- アプリ環境に合わせて
- 介して
- 時間
- 〜へ
- 追跡
- 成績証明書(トランスクリプト)
- 遷移
- ユニーク
- 無限の
- アップロード
- us
- 使用法
- つかいます
- ユーザー
- さまざまな
- 事実上
- ウォークスルー
- which
- while
- 意志
- 以内
- 無し
- 仕事
- ワークフロー
- ワーキング
- 書きます
- 書き込み
- あなたの
- ゼファーネット