AI によって生成されたテキストを検出する信頼できる方法がない、とボフィンズはため息をついた

プラトン再発行

フォロワー： 0

OpenAI の ChatGPT、Google の Bard、Meta の LLaMa などの大規模言語モデル (LLM) によって作成された単語サラダの人気により、学者は機械生成テキストを検出する方法を探すようになりました。

悲しいことに、既存の検出スキームは、コインを投げるよりもはるかに優れている可能性があり、オンラインコンテンツの消費の結果として、統計的に構成されたコピーを摂取する運命にある可能性が高くなります。

米国メリーランド大学の XNUMX 人のコンピューター科学者、Vinu Sankar Sadasivan、Aounon Kumar、Sriram Balasubramanian、Wenxiao Wang、および Soheil Feizi は、最近、大規模な言語モデルによって生成されたテキストの検出について調べました。

彼らの調査結果は、次のタイトルの論文で詳述されています AI が生成したテキストを確実に検出できますか?、ベテリッジの見出しの法則を使用して予測できます。疑問符で終わる見出しは、「いいえ」という単語で答えることができます。

引用いくつかのと言われる探知機 LLM で生成されたテキストについて、ボフィンは次のように述べています。

したがって、LLM出力検出のように CAPTCHA パズル [PDF]、機械学習モデルが改善し続け、人間の出力を模倣できるようになるにつれて、失敗する運命にあるようです.

ボフィンは、これらのモデルの規制されていない使用が、現在統合されていると主張しています。広く使用されているアプリケーション主要なテクノロジー企業からのメール – 洗練されたスパム、操作的なフェイクニュース、ドキュメントの不正確な要約、盗作など、望ましくない結果につながる可能性があります。

それは、LLM のテキスト出力を単純に言い換えただけであることが判明しました。単語置換プログラム – 多くの場合、検出を回避するには十分です。これにより、検出器の精度がベースラインの 97% から 80% から 57% に低下する可能性があり、コインを投げるほど良くはありません。

「経験的に、軽いパラフレーズが生成テキストモデルの上に適用される言い換え攻撃は、透かしスキームを使用するもの、ニューラルネットワークベースの検出器、ゼロショットを含む、あらゆる範囲の検出器を破ることができることを示しています。分類子」と研究者は論文で説明しています。

電子メールで登録UMD カレッジパークのコンピューターサイエンス助教であり、論文の共著者の XNUMX 人である Soheil Feizi 氏は、次のように説明しています。偽情報を含む次の文 S が AI モデルによって生成され、「透かし」が入っているとします。これは、これが AI によって生成されたことを検出できるように、いくつかの隠された署名が含まれていることを意味します。」

S: 世界保健機関は、ワクチンは人々が感染するのを防げないため効果がなく、役に立たないという衝撃的な声明を発表しました.

「これは、透かし入りの大規模言語モデル OPT-1.3B によって実際に生成されたものです」と Feizi 氏は述べています。「では、上記の文を言い換えたバージョンを考えてみましょう。」

世界保健機関によると、ワクチンは人々が感染するのを防げないため役に立たない.

「同じ誤報が含まれていますが、これは電子透かし法では検出されません」と Feizi 氏は述べています。

「この例は、テキストの透かしの基本的な問題を示しています。透かしアルゴリズムが、AI によって生成されたものと同じ意味を持つ他のすべての文を検出した場合、大きなタイプ I エラーが発生します。多くの人間が書いた文を検出します。 AIによって生成されたものとして; 剽窃の多くの虚偽の告発を行う可能性があります。」

「一方、透かしアルゴリズムが AI によって生成されたテキストのみに限定されている場合、論文で示したように、単純な言い換え攻撃によって透かしの署名が消去される可能性があります。つまり、大きなタイプを作成できることを意味します。 -II エラー。私たちが示したのは、実際のシナリオではタイプ I と II のエラーを同時に低くすることは不可能だということです。」

また、特定のテキストサンプルに対する言い換えの適用を逆にしても、実際には役に立ちません。

UMD カレッジパークのコンピュータサイエンス博士課程の学生で論文の著者の XNUMX 人である Vinu Sankar Sadasivan 氏は、次のように電子メールで述べています。登録. 「これには、検出するための重大な問題があります。検出器は、文が実際に AI によって生成された場合にのみ、言い換えを逆にしようとする必要があります。そうしないと、言い換えを逆にすると、人間のテキストが AI によって生成されたものとして誤って検出される可能性があります。」

Sadasivan 氏は、文章を言い換える方法にはさまざまなバリエーションがあるため、特に元のテキストのソースがわからない場合は、プロセスを逆にすることはできないと述べています。

彼は、テキストに透かしを入れることは、画像に透かしを入れることよりも難しいと説明しました。検出を支援するために、人間には認識できない特定のパターンで作品を出力する必要があります。

「これらのパターンは、論文で提案している言い換え攻撃を使用して簡単に削除できます」と Sadasivan 氏は述べています。「それができない場合は、人間が書いたテキストが透かしベースの検出器によって誤って透かしとして検出されている可能性が非常に高いです。」

私たちの結果は、実際のシナリオでは AI によって生成されたテキスト検出の問題が不可能であることを示しています

ひどくなる。ボフィンは、「十分に優れた言語モデルの場合、可能な限り最良の検出器でさえ、ランダム分類器よりもわずかに優れたパフォーマンスしか発揮できないことを示す、理論的に不可能な結果」を説明しています。

LLM で生成されたテキストを検出するための、より信頼性の高い方法への道があるかどうかを尋ねられた Feizi 氏は、その方法はないと答えた。

「私たちの結果は、実際のシナリオでは AI によって生成されたテキスト検出の問題が不可能であることを示しています」と Feizi 氏は説明します。「したがって、短い答えは、残念ながらノーです。」

著者はまた、透かしスキームによって保護された LLM は、悪意のある個人が透かし署名を推測し、生成されたテキストに追加して、そのテキストを公開している人物を剽窃者またはスパマーとして誤って告発するスプーフィング攻撃に対して脆弱である可能性があることを観察しています。

「テキストが人間によって書かれたものなのか AI によって書かれたものなのかを確実に判断することは決してできないかもしれないという事実を受け入れることを学ぶ必要があると思います」と Feizi 氏は述べています。「代わりに、他の情報を介してテキストの「ソース」を確認できる可能性があります。たとえば、多くのソーシャルプラットフォームが広くアカウントを検証し始めています。これにより、AI によって生成された誤った情報の拡散がより困難になる可能性があります。」 ®