機械翻訳の解決、一度にXNUMXステップ

ソースノード: 795289

子供の頃、私は数学者か物理学者に成長すると思っていました。 私は非常に早い段階で、それらの分野のXNUMXつで勉強して研究したい、あるいは教師になりたいと思っていました。 私はAIが何であるかを知りませんでした。 実際、コンピュータサイエンスの学部生としての最初の数年間、私は数学に切り替えるべきだと何度も感じました。 しなくてよかったです。

私の祖母は私の仕事が何であるかを本当に理解していません。そうするためには、あなたはインターネットを使わなければならないからです。 そうでなければ、Unbabelでは、コンピューターに人間の行動を自動的に実行させているので、おそらくそこに座ってぼんやりと私を見つめているでしょう。

ある意味、私は子供の頃に想像していたのとはまったく違う場所にたどり着くことはありませんでした。 つまり、この機械翻訳分野全体は、第二次世界大戦後、数学者のアレンチューリングがエニグマコードを解読した後、ウォーレンウィーバーから始まりました。

言語をコードとして扱うことができるという考え方です。 違いは、コードが形式的で明確なことです。 そして、翻訳を非常に難しくしているのは、正確にあいまいさです。

機械翻訳の現状

Unbabelが何をするかについて、ある種の知識を持っている人もいます。特定の言語のテキストを別の言語に翻訳します。 しかし、他の人は人工知能が何であるかさえ知りません。 AIが行うのは「ロボットのこと」だけだと考える人もいるかもしれませんが、そうではありません。 AIが行っているのは、何らかの方法で人間の行動を模倣することです。 そしていくつかの点でそれは人間よりも優れています それで。

基本から始めましょう:機械学習システムは何をしますか? ソースオブジェクト(この場合は文)を提示し、何か、ターゲット文を予測するように依頼します。

翻訳の難しさは、ゴールドスタンダードがないことです。 ゴールドスタンダードは実際の真実を表しています。 「これは猫ですか、それとも犬ですか?」と尋ねて画像を検出するマシンを取得しようとしている場合、特定の画像はどちらか一方であるため、金の真実があります。 機械翻訳では、これは存在しません。同じように優れた20の異なる翻訳を作成できるからです。 そもそもそれははるかに難しい問題です。 良い翻訳とは何ですか?そうでないものは何ですか? 言語が非常に曖昧であるという事実もあります。 言葉は、文脈によって非常に異なることを意味する場合があります。 そのため、翻訳の問題はほとんど解決されていません。

機械翻訳を詳しく見ると、ほとんどの人が考えていることにもかかわらず、数年前よりもそれほど良くはないことがわかります。 統計的機械翻訳システムの以前の出力は、非常に不自然またはロボットのようでした。 今日、それらはより流暢に聞こえるかもしれませんが、理解するのは難しいかもしれませんが、通常は適切なコンテンツを持っていた以前のものよりも十分ではありません。 最近の機械翻訳は、コンテンツの面で壊滅的に失敗する可能性がありますが、それでも流暢に聞こえます。 全体的に、それはより良いシステムです。

機械翻訳は、少なくともテキストの要点を理解できるようになりました。 モデルはまだ非常に基本的であり、言語の知識がほとんどないにもかかわらず、それはより流暢になっています。 彼らはまだ主に文レベルごとの一種の文に取り組んでいます。 したがって、機械翻訳が解決されたと考える人は、明らかにそれを使用していません。

そのを販売している会社としてのUnbabelのために 多言語サポートソリューション 毎日数千または数百万の顧客とやり取りする大手企業にとって、それは問題を引き起こします。なぜなら、ほとんどの場合、機械翻訳について言及すると、 人々はすぐにそれが犯す間違いについて考えます。 機械翻訳が完璧であるように見せるためにストーリーを構成することはできません。それがこの時点でのところです。 それでも、ループ内の人間がその余分な品質を提供する必要があります。

たとえば、チャットでは、実際に相手と話している人がいます。つまり、エラーからはるかに早く回復できます。 意味をなさないことを言うと、相手は「なに? 聞き取れませんでした。」その後、翻訳を再試行します。

これは基本的に、あなたがあなた自身の品質見積もりであることを意味します。なぜなら、結局のところ、あなたが望むのは機能する対話だからです。

品質見積もりの​​重要性

品質の見積もり(参照翻訳や人間の介入なしに翻訳システムの品質を評価するために使用するもの)は、機械翻訳の秘訣です。 実際、「正しい翻訳はどれか」という問題を解決できると主張する人もいます。これは、翻訳の良し悪しを評価するシステムが整っているためです。 必ずしも翻訳が   正しいものですが、 a 正しい翻訳。

しかし、品質の見積もりには機械翻訳と同じ問題があります。つまり、同じレベルの精度が期待できます。 機械翻訳の最大の問題は、言語が非常に理解しにくいため、常に間違いを犯すことです。 計算能力のためにモデルが単純すぎるため、または機械学習システムが間違いを犯すという事実のために、最良の株式は約90パーセントです。 それは多くのように思えるかもしれませんが、あなたがそれについて考えるならば、それはXNUMX文にXNUMXつが間違っていることを意味します。

品質の見積もりは、それらの間違った文を予測しようとするか、少なくともエラーが重大であるかどうかを判断しようとします。 基本的に、はるかに高い信頼度で機械翻訳を使用できるようになります。

Unbabelでは、品質見積もりの​​問題を解決するために多くの時間を費やしてきました。。 基本的なAIチームは、主にそれに焦点を合わせ、新しいモデルを発見しているチームです。 次に、次のような質問に答えるために、応用AIと本番環境から多くの作業が投入されます。

  • これはパイプラインでどのように実行されますか?
  • スケーラブルですか? 目標を変更する必要がありますか?
  • 実際のデータとどのように連携しますか?
  • これらのモデルをどのように適応させますか?

基本的なAIは主にジェネリックドメインデータで機能するため、適用されたAIはそれを取得し、差別化されたトーンで機能するかどうかにかかわらず、チャットやチケットの現実で機能することを確認する必要があります。 研究があり、それからその発見を製品に取り入れています。

私たちは品質見積もりシステムをしっかりと信じています。 また、再現性のある共同研究も信じています。そのため、数か月前に 最高の品質見積もりシステムを実装するオープンソースフレームワークであるOpenKiwiを構築しました、同じフレームワークの下でこれらのモデルを実験して反復すること、および新しいモデルを開発することを非常に簡単にします。

私たちはおそらく、生産で品質見積もりを使い始めた最初の企業のXNUMXつであり、このトピックについて非常に長い間研究を行ってきました。 これは、品質見積もりに取り組んでいる他の企業や研究者よりも、モデルが優れており、問題をよりよく理解していることを意味します。

そして賞は…に行きます

これが私たちがとても幸せだった理由です 世界機械翻訳会議で最高のグローバル機械翻訳品質推定システムの称号を取り戻しました 今年の初め。 それだけでなく、自動投稿編集のコンテストでも優勝しました。

それはXNUMXつの理由で私たちにとって非常に重要でした。 XNUMXつ目は、品質見積もりが生産パイプラインに与える影響、つまりそれから得られる投資収益率です。 そしてそのために、私たちがこれまたは他の競争に勝つかどうかは本当に重要ではありません。

しかし一方で、このような権威ある賞を受賞することは、顧客や投資家の注目を集めるために不可欠なUnbabelブランドの認知を意味します。 また、AIチームにとっても重要な認識であり、その作業を理解して評価するのが難しい場合があります。 AIは非常にリスクが高く、報酬も高くなります。 あなたは一年間働き、どこにも行けません。 たとえば、人間の質の推定で行ったすべての作業は機能しませんでした。そのための適切なツールがなかったためです。

したがって、これらの賞は、ビジネスや学界でのUnbabelの名前の認知度を高めるために、認識に役立ちますが、士気にも役立ちます。 Unbabelは純粋にAI企業です。 私たちはAIを使用しているだけでなく、実際にはまだ存在しないAIを構築して発見しています。 そして、それが公に認められることは、私にとって世界を意味します。 私の9歳の数学者志望者の自己は誇りに思うでしょう。

出典:https://unbabel.com/blog/best-machine-translation-quality-estimation/

タイムスタンプ:

より多くの アンバベル