Inget tillförlitligt sätt att upptäcka AI-genererad text, suckar boffins

Inget tillförlitligt sätt att upptäcka AI-genererad text, suckar boffins

Källnod: 2024308

Populariteten hos ordsallad som tillagas av stora språkmodeller (LLM) som OpenAIs ChatGPT, Googles Bard och Metas LLaMa har fått akademiker att leta efter sätt att upptäcka maskingenererad text.

Tyvärr kanske existerande upptäcktsscheman inte är mycket bättre än att vända ett mynt, vilket ökar möjligheten att vi är avsedda att inta statistiskt sammansatta kopior som en konsekvens av konsumtion av innehåll online.

Fem datavetare från University of Maryland i USA – Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang och Soheil Feizi – tittade nyligen på att upptäcka text som genererats av stora språkmodeller.

Deras resultat, detaljerade i en artikel med titeln Kan AI-genererad text detekteras på ett tillförlitligt sätt?, kan förutsägas med hjälp av Betteridges lag om rubriker: alla rubriker som slutar med ett frågetecken kan besvaras med ordet nej.

Värdera flera påstådd detektorer av LLM-genererad text, observerar boffinerna, "I det här dokumentet visar vi både teoretiskt och empiriskt att dessa toppmoderna detektorer inte på ett tillförlitligt sätt kan detektera LLM-utgångar i praktiska scenarier."

LLM-utgångsdetektering alltså, liksom CAPTCHA-pussel [PDF], verkar avsedd att misslyckas när maskininlärningsmodeller fortsätter att förbättras och blir kapabla att efterlikna mänsklig produktion.

Boffinerna hävdar att den oreglerade användningen av dessa modeller – som nu integreras i mycket använda applikationer från stora teknikföretag – har potential att leda till oönskade konsekvenser, såsom sofistikerad spam, manipulativa falska nyheter, felaktiga sammanfattningar av dokument och plagiat.

Det visar sig helt enkelt att parafrasera texten från en LLM – något som kan göras med ett ordersättningsprogram – räcker ofta för att undvika upptäckt. Detta kan försämra noggrannheten hos en detektor från en baslinje på 97 procent till allt från 80 procent till 57 procent – ​​inte mycket bättre än en myntkastning.

"Empiriskt visar vi att parafraserande attacker, där en lätt parafraserare appliceras ovanpå den generativa textmodellen, kan bryta en hel rad detektorer, inklusive de som använder vattenmärkningsscheman såväl som neurala nätverksbaserade detektorer och zero-shot klassificerare”, förklarade forskarna i sin artikel.

I ett e-postmeddelande till RegistretSoheil Feizi, biträdande professor i datavetenskap vid UMD College Park och en av tidningens medförfattare, förklarade: "Frågan med textvattenmärkning är att den ignorerar textdistributionens komplexa karaktär. Anta att följande mening S som innehåller felaktig information genereras av en AI-modell och den är "vattenmärkt", vilket betyder att den innehåller några dolda signaturer så att vi kan upptäcka att detta genereras av AI:n."

  • S: Världshälsoorganisationen gjorde ett chockerande uttalande att vaccinet är ineffektivt, eftersom det inte hindrar människor från att bli smittade, vilket betyder att det är värdelöst.

"Detta genererades faktiskt av en vattenmärkt stor språkmodell OPT-1.3B," sa Feizi. "Tänk nu på en omskriven version av meningen ovan:"

  • Vaccinet är värdelöst eftersom det inte hindrar människor från att få infektioner, enligt Världshälsoorganisationen.

"Den innehåller samma desinformation, men detta går oupptäckt av vattenmärkningsmetoden," sa Feizi.

"Det här exemplet pekar på ett grundläggande problem med textvattenmärkning: om vattenstämpelalgoritmen upptäcker alla andra meningar med samma innebörd som en AI-genererad, kommer den att ha ett stort typ-I-fel: den kommer att upptäcka många mänskliga skrivna meningar som AI-genererade sådana; potentiellt göra många falska anklagelser om plagiat."

"Å andra sidan," tillade Feizi, "om vattenstämpelalgoritmen är begränsad till bara AI-genererad text, kan en enkel parafraseringsattack, som vi har visat i vår tidning, radera vattenmärkessignaturer vilket betyder att den kan skapa en stor typ -II fel. Det vi har visat är att det inte går att ha låga typ I- och II-fel samtidigt i praktiska scenarier.”

Och att vända på tillämpningen av parafrasering på ett givet textexempel hjälper inte riktigt.

"Anta att omvänd parafrasering är möjlig", sa Vinu Sankar Sadasivan, doktorand i datavetenskap vid UMD College Park och en av tidningens författare, i ett e-postmeddelande till Registret. "Det finns ett avgörande problem i det här för upptäckt. En detektor ska bara försöka omvända parafrasering om meningen faktiskt genereras av AI. Annars kan omvänd parafrasering leda till att mänsklig text felaktigt detekteras som AI-genererad."

Sadasivan sa att det finns många variationer i hur en mening kan parafraseras så det är inte möjligt att vända processen, särskilt om du inte vet källan till originaltexten.

Han förklarade att vattenmärka text är svårare än vattenmärka bilder. Det kräver utmatning av verk i ett specifikt mönster som är omärkligt för människor för att underlätta upptäckt.

"Dessa mönster kan enkelt tas bort genom att parafrasera attacker som vi föreslår i vår tidning," sa Sadasivan. "Om de inte kan vara det, är det mycket troligt att en mänsklig skriven text felaktigt upptäcks som vattenmärkt av en vattenmärkningsbaserad detektor."

Våra resultat pekar på omöjligheten av AI-genererade textdetekteringsproblem i praktiska scenarier

Det blir värre. Boffinerna beskriver "ett teoretiskt omöjlighetsresultat som indikerar att för en tillräckligt bra språkmodell kan även den bästa möjliga detektorn bara prestera marginellt bättre än en slumpmässig klassificerare."

På frågan om det finns en väg till en mer tillförlitlig metod för att upptäcka LLM-genererad text, sa Feizi att det inte finns någon.

"Våra resultat pekar på omöjligheten av AI-genererade textdetekteringsproblem i praktiska scenarier," förklarade Feizi. "Så det korta svaret är, tyvärr, nej."

Författarna observerar också att LLM:er som skyddas av vattenmärkningssystem kan vara sårbara för spoofing-attacker genom vilka skadliga individer kan sluta sig till vattenmärkesignaturer och lägga till dem i genererad text för att få personen som publicerar texten falskt anklagad som plagiatör eller spammer.

"Jag tror att vi måste lära oss att leva med det faktum att vi kanske aldrig på ett tillförlitligt sätt kan säga om en text är skriven av en människa eller en AI," sa Feizi. "Istället kan vi potentiellt verifiera "källan" till texten via annan information. Till exempel har många sociala plattformar börjat verifiera konton i stor utsträckning. Detta kan göra spridningen av desinformation som genereras av AI svårare.” ®

Tidsstämpel:

Mer från Registret