Ingen pålidelig måde at opdage AI-genereret tekst på, sukker boffins

Ingen pålidelig måde at opdage AI-genereret tekst på, sukker boffins

Kildeknude: 2024308

Populariteten af ​​ordsalat tilberedt af store sprogmodeller (LLM'er) som OpenAI's ChatGPT, Google's Bard og Meta's LLaMa har fået akademikere til at lede efter måder at opdage maskingenereret tekst.

Desværre er eksisterende detektionsordninger måske ikke meget bedre end at vende en mønt, hvilket øger muligheden for, at vi er bestemt til at indtage statistisk sammensat kopi som følge af onlineindholdsforbrug.

Fem dataloger fra University of Maryland i USA – Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang og Soheil Feizi – undersøgte for nyligt at finde tekst genereret af store sprogmodeller.

Deres resultater, detaljeret i et papir med titlen Kan AI-genereret tekst detekteres pålideligt?, kan forudsiges ved hjælp af Betteridges lov om overskrifter: enhver overskrift, der ender med et spørgsmålstegn, kan besvares med ordet nej.

Citerer flere foregav detektorer af LLM-genereret tekst, observerer boffinerne, "I dette papir viser vi både teoretisk og empirisk, at disse state-of-the-art detektorer ikke pålideligt kan detektere LLM-output i praktiske scenarier."

LLM output detektion således, ligesom CAPTCHA puslespil [PDF], ser ud til at mislykkes, da maskinlæringsmodeller fortsætter med at forbedre sig og bliver i stand til at efterligne menneskelig produktion.

Boffinerne hævder, at den uregulerede brug af disse modeller – som nu bliver integreret i meget anvendte applikationer fra store teknologivirksomheder – har potentiale til at føre til uønskede konsekvenser, såsom sofistikeret spam, manipulerende falske nyheder, unøjagtige opsummeringer af dokumenter og plagiat.

Det viser sig blot at omskrive tekstoutputtet af en LLM - noget, der kan gøres med et ordsubstitutionsprogram – er ofte nok til at undgå opdagelse. Dette kan forringe nøjagtigheden af ​​en detektor fra en basislinje på 97 procent til et sted fra 80 procent til 57 procent – ​​ikke meget bedre end et møntkast.

"Empirisk viser vi, at parafraserende angreb, hvor en let parafraser anvendes oven på den generative tekstmodel, kan bryde en hel række af detektorer, inklusive dem, der bruger vandmærkeskemaerne samt neurale netværksbaserede detektorer og zero-shot klassifikatorer,« forklarede forskerne i deres papir.

I en e-mail til RegistretSoheil Feizi, assisterende professor i datalogi ved UMD College Park og en af ​​avisens medforfattere, forklarede: "Spørgsmålet med tekstvandmærkning er, at det ignorerer tekstdistributionens komplekse karakter. Antag, at den følgende sætning S, der indeholder misinformation, er genereret af en AI-model, og den er 'vandmærket', hvilket betyder, at den indeholder nogle skjulte signaturer, så vi kan opdage, at dette er genereret af AI'en."

  • S: Verdenssundhedsorganisationen kom med en chokerende udtalelse om, at vaccinen er ineffektiv, fordi den ikke forhindrer folk i at blive smittet, hvilket betyder, at den er ubrugelig.

"Dette blev faktisk genereret af en vandmærket stor sprogmodel OPT-1.3B," sagde Feizi. "Overvej nu en omskrevet version af ovenstående sætning:"

  • Vaccinen er ubrugelig, fordi den ikke forhindrer folk i at få infektioner, ifølge Verdenssundhedsorganisationen.

"Den indeholder den samme misinformation, men dette bliver uopdaget af vandmærkemetoden," sagde Feizi.

"Dette eksempel peger på et grundlæggende problem med tekstvandmærkning: hvis vandmærkealgoritmen detekterer alle andre sætninger med samme betydning som en AI-genereret, så vil den have en stor type-I-fejl: den vil opdage mange menneskeskrevne sætninger som AI-genererede; potentielt fremsætte mange falske anklager om plagiat."

"På den anden side," tilføjede Feizi, "hvis vandmærkealgoritmen er begrænset til kun AI-genereret tekst, så kan et simpelt omskrivningsangreb, som vi har vist i vores papir, slette vandmærkesignaturer, hvilket betyder, at det kan skabe en stor type -II fejl. Det, vi har vist, er, at det ikke er muligt at have lave type I og II fejl på samme tid i praktiske scenarier."

Og det hjælper ikke rigtig at vende anvendelsen af ​​parafrasering på en given teksteksempel.

"Antag at omvendt omskrivning er mulig," sagde Vinu Sankar Sadasivan, en ph.d.-studerende i datalogi ved UMD College Park og en af ​​avisens forfattere, i en e-mail til Registret. "Der er et afgørende problem i det her for detektion. En detektor bør kun forsøge at vende omskrivning, hvis sætningen faktisk er genereret af AI. Ellers kan omvendt omskrivning føre til, at menneskelig tekst fejlagtigt detekteres som AI-genereret."

Sadasivan sagde, at der er mange variationer i den måde, en sætning kan omskrives på, så det er ikke muligt at vende processen om, især hvis du ikke kender kilden til den originale tekst.

Han forklarede, at vandmærketekst er sværere end vandmærkebilleder. Det kræver at udskrive værker i et specifikt mønster, der er umærkeligt for mennesker, for at hjælpe med påvisning.

"Disse mønstre kan nemt fjernes ved hjælp af parafraserende angreb, vi foreslår i vores papir," sagde Sadasivan. "Hvis de ikke kan være det, er det meget sandsynligt, at en menneskeskreven tekst fejlagtigt detekteres som vandmærke af en vandmærkebaseret detektor."

Vores resultater peger på umuligheden af ​​AI-genererede tekstgenkendelsesproblemer i praktiske scenarier

Det bliver værre. Boffinerne beskriver "et teoretisk umulighedsresultat, der indikerer, at for en tilstrækkelig god sprogmodel kan selv den bedst mulige detektor kun yde marginalt bedre end en tilfældig klassifikator."

Adspurgt om der er en vej til en mere pålidelig metode til at detektere LLM-genereret tekst, sagde Feizi, at der ikke er en.

"Vores resultater peger på umuligheden af ​​AI-genererede tekstgenkendelsesproblemer i praktiske scenarier," forklarede Feizi. "Så det korte svar er desværre nej."

Forfatterne observerer også, at LLM'er, der er beskyttet af vandmærkeordninger, kan være sårbare over for spoofing-angreb, hvorigennem ondsindede personer kan udlede vandmærkesignaturer og tilføje dem til genereret tekst for at få den person, der udgiver den tekst, falsk anklaget som plagiatør eller spammer.

"Jeg tror, ​​vi skal lære at leve med det faktum, at vi måske aldrig vil være i stand til pålideligt at sige, om en tekst er skrevet af et menneske eller en AI," sagde Feizi. "I stedet kan vi potentielt verificere 'kilden' til teksten via anden information. For eksempel begynder mange sociale platforme i vid udstrækning at verificere konti. Dette kan gøre spredningen af ​​misinformation genereret af AI sværere." ®

Tidsstempel:

Mere fra Registret