Nenhuma maneira confiável de detectar texto gerado por IA, boffins suspiram

Nenhuma maneira confiável de detectar texto gerado por IA, boffins suspiram

Nó Fonte: 2024308

A popularidade da salada de palavras preparada por grandes modelos de linguagem (LLMs) como o ChatGPT da OpenAI, o Bard do Google e o LLaMa da Meta levou os acadêmicos a procurar maneiras de detectar texto gerado por máquina.

Infelizmente, os esquemas de detecção existentes podem não ser muito melhores do que jogar uma moeda, levantando a possibilidade de que estamos destinados a ingerir uma cópia composta estatisticamente como consequência do consumo de conteúdo online.

Cinco cientistas da computação da Universidade de Maryland, nos EUA – Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang e Soheil Feizi – recentemente analisaram a detecção de texto gerado por grandes modelos de linguagem.

Suas descobertas, detalhadas em um artigo intitulado O texto gerado por IA pode ser detectado de forma confiável?, pode ser previsto usando a lei das manchetes de Betteridge: qualquer manchete que termine com um ponto de interrogação pode ser respondida com a palavra não.

Citando vários suposto detectores do texto gerado pelo LLM, os boffins observam: “Neste artigo, mostramos tanto teórica quanto empiricamente que esses detectores de última geração não podem detectar saídas do LLM de maneira confiável em cenários práticos”.

Detecção de saída LLM assim, como quebra-cabeças CAPTCHA [PDF], parece destinado a falhar à medida que os modelos de aprendizado de máquina continuam a melhorar e se tornam capazes de imitar a produção humana.

Os boffins argumentam que o uso não regulamentado desses modelos – que agora estão sendo integrados em aplicativos amplamente usados de grandes empresas de tecnologia – tem o potencial de levar a consequências indesejáveis, como spam sofisticado, notícias falsas manipuladoras, resumos imprecisos de documentos e plágio.

Acontece simplesmente parafrasear a saída de texto de um LLM - algo que pode ser feito com um programa de substituição de palavras – muitas vezes é suficiente para evitar a detecção. Isso pode degradar a precisão de um detector de uma linha de base de 97% para algo entre 80% e 57% – não muito melhor do que jogar uma moeda.

“Empiricamente, mostramos que os ataques de paráfrase, em que um parafraseador leve é ​​aplicado sobre o modelo de texto generativo, podem quebrar toda uma gama de detectores, incluindo aqueles que usam esquemas de marcas d'água, bem como detectores baseados em redes neurais e detectores de disparo zero. classificadores”, explicaram os pesquisadores em seu artigo.

Em um email para O registro, Soheil Feizi, professor assistente de ciência da computação no UMD College Park e um dos coautores do artigo, explicou: “O problema da marca d'água de texto é que ela ignora a natureza complexa da distribuição do texto. Suponha que a seguinte frase S que contém informações incorretas seja gerada por um modelo de IA e tenha 'marca d'água', o que significa que contém algumas assinaturas ocultas para que possamos detectar que isso é gerado pela IA.”

  • S: A Organização Mundial da Saúde fez uma declaração chocante de que a vacina é ineficaz, porque não impede que as pessoas sejam infectadas, o que significa que é inútil.

“Na verdade, isso foi gerado por um grande modelo de linguagem OPT-1.3B com marca d'água”, disse Feizi. “Agora considere uma versão parafraseada da frase acima:”

  • A vacina é inútil porque não impede que as pessoas contraiam infecções, de acordo com a Organização Mundial da Saúde.

“Ele contém a mesma desinformação, mas isso não é detectado pelo método de marca d'água”, disse Feizi.

“Este exemplo aponta para uma questão fundamental da marca d’água de texto: se o algoritmo da marca d’água detectar todas as outras sentenças com o mesmo significado de uma gerada por IA, haverá um grande erro tipo I: ele detectará muitas sentenças escritas por humanos como gerados por IA; potencialmente fazendo muitas falsas acusações de plágio”.

“Por outro lado”, acrescentou Feizi, “se o algoritmo de marca d'água for limitado apenas a texto gerado por IA, um simples ataque de paráfrase, como mostramos em nosso artigo, pode apagar assinaturas de marca d'água, o que significa que pode criar um tipo grande -II erro. O que mostramos é que não é possível ter erros tipo I e II baixos ao mesmo tempo em cenários práticos.”

E reverter a aplicação da paráfrase a uma determinada amostra de texto não ajuda muito.

“Suponha que a paráfrase reversa seja possível”, disse Vinu Sankar Sadasivan, estudante de doutorado em ciência da computação no UMD College Park e um dos autores do artigo, em um e-mail para O registro. “Há um problema crucial nisso para detecção. Um detector só deve tentar inverter a paráfrase se a frase for realmente gerada pela IA. Caso contrário, inverter a paráfrase pode levar a que o texto humano seja falsamente detectado como gerado por IA.”

Sadasivan disse que há muitas variações na forma como uma frase pode ser parafraseada, então não é possível reverter o processo, especialmente se você não conhece a fonte do texto original.

Ele explicou que o texto com marca d'água é mais difícil do que as imagens com marca d'água. Requer trabalhos de saída em um padrão específico que é imperceptível para os humanos para ajudar na detecção.

“Esses padrões podem ser facilmente removidos usando ataques de paráfrase que propomos em nosso artigo”, disse Sadasivan. “Se não puderem ser, é muito provável que um texto escrito por humanos seja falsamente detectado como marca d'água por um detector baseado em marca d'água.”

Nossos resultados apontam para a impossibilidade de problemas de detecção de texto gerados por IA em cenários práticos

Fica pior. Os boffins descrevem “um resultado de impossibilidade teórica indicando que, para um modelo de linguagem suficientemente bom, mesmo o melhor detector possível pode ter um desempenho apenas marginalmente melhor do que um classificador aleatório”.

Questionado se existe um caminho para um método mais confiável de detecção de texto gerado pelo LLM, Feizi disse que não existe.

“Nossos resultados apontam para a impossibilidade de problemas de detecção de texto gerados por IA em cenários práticos”, explicou Feizi. “Portanto, a resposta curta é, infelizmente, não.”

Os autores também observam que os LLMs protegidos por esquemas de marca d'água podem ser vulneráveis ​​a ataques de falsificação por meio dos quais indivíduos mal-intencionados podem inferir assinaturas de marca d'água e adicioná-las ao texto gerado para fazer com que a pessoa que publica o texto seja acusada falsamente de plagiador ou spammer.

“Acho que precisamos aprender a conviver com o fato de que talvez nunca possamos dizer com segurança se um texto foi escrito por um humano ou por uma IA”, disse Feizi. “Em vez disso, potencialmente podemos verificar a 'fonte' do texto por meio de outras informações. Por exemplo, muitas plataformas sociais estão começando a verificar amplamente as contas. Isso pode dificultar a disseminação de desinformação gerada pela IA.” ®

Carimbo de hora:

Mais de O registro