Geen betrouwbare manier om door AI gegenereerde tekst te detecteren, zucht Boffins

Heruitgegeven door Plato

volgers: 0

De populariteit van woordsalade die is bereid door grote taalmodellen (LLM's) zoals OpenAI's ChatGPT, Google's Bard en Meta's LLaMa heeft academici ertoe aangezet om te zoeken naar manieren om door machines gegenereerde tekst te detecteren.

Helaas zijn bestaande detectieschema's misschien niet veel beter dan het opgooien van een munt, waardoor de kans groter wordt dat we voorbestemd zijn om statistisch samengestelde kopieën op te nemen als gevolg van online contentconsumptie.

Vijf computerwetenschappers van de Universiteit van Maryland in de VS – Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang en Soheil Feizi – hebben onlangs gekeken naar het detecteren van tekst gegenereerd door grote taalmodellen.

Hun bevindingen, beschreven in een paper met de titel Kan door AI gegenereerde tekst betrouwbaar worden gedetecteerd?, kan worden voorspeld met behulp van de wet van de koppen van Betteridge: elke kop die eindigt op een vraagteken kan worden beantwoord met het woord nee.

Onder verwijzing naar verscheidene beweerde detectoren van LLM-gegenereerde tekst, merken de experts op: "In dit artikel laten we zowel theoretisch als empirisch zien dat deze ultramoderne detectoren LLM-outputs niet betrouwbaar kunnen detecteren in praktische scenario's."

LLM-uitvoerdetectie dus, zoals CAPTCHA-puzzels [PDF], lijkt gedoemd te mislukken, aangezien modellen voor machinaal leren blijven verbeteren en in staat worden om menselijke output na te bootsen.

De techneuten beweren dat het ongereguleerde gebruik van deze modellen – die nu worden geïntegreerd in veelgebruikte toepassingen van grote technologiebedrijven – kan leiden tot ongewenste gevolgen, zoals geavanceerde spam, manipulatief nepnieuws, onnauwkeurige samenvattingen van documenten en plagiaat.

Het blijkt eenvoudigweg de tekstuitvoer van een LLM te parafraseren - iets waarmee gedaan kan worden een woordvervangingsprogramma – is vaak genoeg om detectie te omzeilen. Dit kan de nauwkeurigheid van een detector verslechteren van een basislijn van 97 procent tot ergens tussen de 80 procent en 57 procent – niet veel beter dan een toss.

“Empirisch laten we zien dat parafraserende aanvallen, waarbij een lichte parafraser wordt toegepast bovenop het generatieve tekstmodel, een hele reeks detectoren kan doorbreken, inclusief degenen die de watermerkschema’s gebruiken, evenals op neurale netwerken gebaseerde detectoren en zero-shot classifiers', legden de onderzoekers uit in hun paper.

In een e-mail aan Het register, legt Soheil Feizi, assistent-professor informatica aan UMD College Park en een van de co-auteurs van het artikel uit: “Het probleem met tekstwatermerken is dat het de complexe aard van de tekstdistributie negeert. Stel dat de volgende zin S die onjuiste informatie bevat, wordt gegenereerd door een AI-model en dat het een 'watermerk' heeft, wat betekent dat het enkele verborgen handtekeningen bevat, zodat we kunnen detecteren dat dit door de AI is gegenereerd.

S: De Wereldgezondheidsorganisatie heeft een schokkende verklaring afgelegd, dat het vaccin niet effectief is, omdat het niet voorkomt dat mensen besmet raken, wat betekent dat het nutteloos is.

"Dit is eigenlijk gegenereerd door een groot taalmodel OPT-1.3B met watermerk", zei Feizi. "Overweeg nu een geparafraseerde versie van de bovenstaande zin:"

Het vaccin is nutteloos omdat het niet voorkomt dat mensen infecties krijgen, aldus de Wereldgezondheidsorganisatie.

"Het bevat dezelfde verkeerde informatie, maar dit wordt niet opgemerkt door de watermerkmethode", zei Feizi.

"Dit voorbeeld wijst op een fundamenteel probleem van tekstwatermerken: als het watermerkalgoritme alle andere zinnen detecteert met dezelfde betekenis als een door AI gegenereerde zin, dan zal het een grote type-I-fout hebben: het zal veel door mensen geschreven zinnen detecteren als door AI gegenereerde; mogelijk veel valse beschuldigingen van plagiaat uiten.”

"Aan de andere kant," voegde Feizi eraan toe, "als het watermerkalgoritme beperkt is tot alleen door AI gegenereerde tekst, dan kan een simpele parafrase-aanval, zoals we in ons artikel hebben aangetoond, watermerkhandtekeningen wissen, wat betekent dat het een groot lettertype kan creëren -II fout. Wat we hebben laten zien is dat het in praktijkscenario's niet mogelijk is om tegelijkertijd lage type I- en II-fouten te hebben.”

En het omkeren van de toepassing van parafrasering op een bepaald tekstvoorbeeld helpt niet echt.

"Stel dat omgekeerde parafrasering mogelijk is", zei Vinu Sankar Sadasivan, een doctoraatsstudent informatica aan UMD College Park en een van de auteurs van het artikel, in een e-mail aan Het register. “Hier zit een cruciaal probleem in voor opsporing. Een detector zou parafrasering alleen moeten proberen om te keren als de zin daadwerkelijk door AI is gegenereerd. Anders zou het omkeren van parafrasering ertoe kunnen leiden dat menselijke tekst ten onrechte wordt gedetecteerd als door AI gegenereerd.”

Sadasivan zei dat er veel variaties zijn in de manier waarop een zin kan worden geparafraseerd, dus het is niet mogelijk om het proces om te keren, vooral als je de bron van de originele tekst niet kent.

Hij legde uit dat het watermerken van tekst moeilijker is dan het watermerken van afbeeldingen. Het vereist uitvoerwerken in een specifiek patroon dat niet waarneembaar is voor mensen om detectie te vergemakkelijken.

"Deze patronen kunnen eenvoudig worden verwijderd met behulp van parafraserende aanvallen die we in onze paper voorstellen", zei Sadasivan. "Als dat niet het geval is, is de kans groot dat een door mensen geschreven tekst ten onrechte wordt gedetecteerd als watermerk door een op watermerken gebaseerde detector."

Onze resultaten wijzen op de onmogelijkheid van door AI gegenereerde tekstdetectieproblemen in praktische scenario's

Het wordt erger. De vakmensen beschrijven "een theoretisch onmogelijkheidsresultaat dat aangeeft dat voor een voldoende goed taalmodel zelfs de best mogelijke detector slechts marginaal beter kan presteren dan een willekeurige classificator."

Op de vraag of er een pad is naar een betrouwbaardere methode om LLM-gegenereerde tekst te detecteren, zei Feizi dat die er niet is.

"Onze resultaten wijzen op de onmogelijkheid van door AI gegenereerde tekstdetectieproblemen in praktische scenario's", legt Feizi uit. "Dus het korte antwoord is helaas nee."

De auteurs merken ook op dat LLM's die worden beschermd door watermerkschema's kwetsbaar kunnen zijn voor spoofing-aanvallen waarbij kwaadwillende personen handtekeningen met een watermerk kunnen afleiden en deze kunnen toevoegen aan gegenereerde tekst om de persoon die die tekst publiceert valselijk te beschuldigen van plagiaat of spammer.

"Ik denk dat we moeten leren leven met het feit dat we nooit betrouwbaar kunnen zeggen of een tekst is geschreven door een mens of een AI", zei Feizi. “In plaats daarvan kunnen we de 'bron' van de tekst mogelijk verifiëren via andere informatie. Veel sociale platforms beginnen bijvoorbeeld accounts op grote schaal te verifiëren. Dit kan de verspreiding van door AI gegenereerde desinformatie bemoeilijken.” ®