没有可靠的方法来检测 AI 生成的文本,研究人员叹了口气

没有可靠的方法来检测 AI 生成的文本,研究人员叹了口气

源节点: 2024308

OpenAI 的 ChatGPT、谷歌的 Bard 和 Meta 的 LLaMa 等大型语言模型 (LLM) 准备的单词沙拉的流行促使学术界寻找检测机器生成文本的方法。

遗憾的是,现有的检测方案可能并不比掷硬币好多少,这增加了我们注定会因在线内容消费而摄取统计合成副本的可能性。

美国马里兰大学的五位计算机科学家——Vinu Sankar Sadasivan、Aounon Kumar、Sriram Balasubramanian、Wenxiao Wang 和 Soheil Feizi——最近研究了检测大型语言模型生成的文本。

他们的发现在一篇题为 人工智能生成的文本能否被可靠地检测到?, 可以使用 Betteridge 的标题定律来预测:任何以问号结尾的标题都可以用 no 来回答。

引用 几个 声称 探测器 对于 LLM 生成的文本,研究人员观察到,“在本文中,我们从理论上和经验上都表明,这些最先进的检测器无法在实际场景中可靠地检测 LLM 输出。”

因此,LLM 输出检测,例如 验证码谜题 [PDF],随着机器学习模型不断改进并能够模仿人类输出,似乎注定要失败。

研究人员争辩说,这些模型的不受监管的使用——现在正被整合到 广泛使用的应用程序 来自大型科​​技公司的信息——有可能导致不良后果,例如复杂的垃圾邮件、操纵性的假新闻、不准确的文件摘要和剽窃。

结果证明只是简单地解释了 LLM 的文本输出——一些可以用 一个单词替换程序 – 通常足以逃避检测。 这会使检测器的准确度从 97% 的基线降低到 80% 到 57% 之间的任何位置——并不比掷硬币好多少。

“根据经验,我们表明,在生成文本模型之上应用轻量解释器的释义攻击可以破坏整个检测器范围,包括使用水印方案的检测器以及基于神经网络的检测器和零射击分类器,”研究人员在他们的论文中解释道。

在一封电子邮件中 注册, UMD College Park 计算机科学助理教授、该论文的合著者之一 Soheil Feizi 解释说,“文本水印问题在于它忽略了文本分布的复杂性。 假设以下包含错误信息的句子 S 是由 AI 模型生成的,并且带有“水印”,这意味着它包含一些隐藏的签名,因此我们可以检测到它是由 AI 生成的。”

  • S: 世界卫生组织发表了令人震惊的声明,该疫苗是无效的,因为它不能防止人们被感染,这意味着它没有用。

“这实际上是由带有水印的大型语言模型 OPT-1.3B 生成的,”飞子说。 “现在考虑上述句子的释义版本:”

  • 根据世界卫生组织的说法,这种疫苗是无用的,因为它不能防止人们受到感染。

“它包含相同的错误信息,但水印方法未检测到这一点,”飞子说。

“这个例子指出了文本水印的一个基本问题:如果水印算法检测到所有其他句子与 AI 生成的句子具有相同的含义,那么它就会出现很大的 I 类错误:它会检测到许多人写的句子作为人工智能生成的; 可能会提出许多抄袭的错误指控。”

“另一方面,”飞子补充道,“如果水印算法仅限于 AI 生成的文本,那么正如我们在论文中所展示的那样,一个简单的释义攻击就可以擦除水印签名,这意味着它可以创建一个大字体-II 错误。 我们已经表明,在实际场景中不可能同时出现低 I 类和 II 类错误。”

将释义应用于给定的文本样本并没有真正的帮助。

“假设反向释义是可能的,”UMD 大学公园计算机科学博士生、该论文的作者之一 Vinu Sankar Sadasivan 在一封电子邮件中说道。 注册. “这其中存在一个关键的检测问题。 如果句子实际上是由人工智能生成的,检测器应该只尝试反转释义。 否则,逆向释义可能会导致人类文本被错误地检测为人工智能生成的。”

Sadasivan 说一个句子的释义方式有很多变化,所以不可能逆转这个过程,特别是如果你不知道原文的来源。

他解释说,给文本加水印比给图像加水印更难。 它需要以人类无法感知的特定模式输出作品,以辅助检测。

“使用我们在论文中提出的释义攻击可以轻松删除这些模式,”Sadasivan 说。 “如果他们不能,那么很可能是人类编写的文本被基于水印的检测器错误地检测为带有水印。”

我们的结果表明 AI 生成的文本检测问题在实际场景中是不可能的

情况变得更糟。 研究人员描述了“一个理论上不可能的结果,表明对于一个足够好的语言模型,即使是最好的检测器也只能比随机分类器表现得稍微好一点。”

当被问及是否有更可靠的方法来检测 LLM 生成的文本时,飞子说没有。

“我们的结果表明在实际场景中不可能出现人工智能生成的文本检测问题,”飞子解释道。 “所以很遗憾,简短的回答是否定的。”

作者还观察到受水印方案保护的 LLM 可能容易受到欺骗攻击,恶意个人可以通过这种攻击推断水印签名并将其添加到生成的文本中,从而使发布该文本的人被错误地指控为剽窃者或垃圾邮件制造者。

“我认为我们需要学会接受这样一个事实,即我们可能永远无法可靠地判断一段文本是由人类还是人工智能编写的,”飞子说。 “相反,我们可能可以通过其他信息来验证文本的‘来源’。 例如,许多社交平台开始广泛验证账户。 这会使人工智能产生的错误信息的传播更加困难。” ®

时间戳记:

更多来自 注册