Ei luotettava tapa havaita tekoälyn luomaa tekstiä, Boffins huokaa

Ei luotettava tapa havaita tekoälyn luomaa tekstiä, Boffins huokaa

Lähdesolmu: 2024308

Suurilla kielimalleilla (LLM), kuten OpenAI:n ChatGPT:llä, Googlen Bardilla ja Metan LLaMalla, valmistetun sanasalaatin suosio on saanut akateemikot etsimään tapoja havaita koneella luotua tekstiä.

Valitettavasti nykyiset tunnistusjärjestelmät eivät välttämättä ole paljon parempia kuin kolikon heittäminen, mikä lisää mahdollisuutta, että meidän on määrä niellä tilastollisesti laadittu kopio verkkosisällön kulutuksen seurauksena.

Viisi tietotekniikan tutkijaa Marylandin yliopistosta Yhdysvalloissa – Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang ja Soheil Feizi – tutki äskettäin suurten kielimallien luoman tekstin havaitsemista.

Heidän havaintojaan on kuvattu yksityiskohtaisesti artikkelissa, jonka otsikko on Voidaanko tekoälyn luoma teksti tunnistaa luotettavasti?, voidaan ennustaa Betteridgen otsikoiden lailla: kaikkiin kysymysmerkkiin päättyviin otsikoihin voidaan vastata sanalla ei.

vedoten useat väitetään ilmaisimet LLM:n luomasta tekstistä boffinit huomauttavat: "Tässä artikkelissa osoitamme sekä teoreettisesti että empiirisesti, että nämä huippuluokan ilmaisimet eivät pysty luotettavasti havaitsemaan LLM-tulosteita käytännön skenaarioissa."

LLM-lähdön tunnistus siis, kuten CAPTCHA palapelit [PDF] näyttää epäonnistuvan, kun koneoppimismallit parantuvat jatkuvasti ja pystyvät matkimaan ihmisen tulosta.

Boffinit väittävät, että näiden mallien sääntelemätön käyttö – joita nyt integroidaan laajalti käytettyjä sovelluksia suurilta teknologiayrityksiltä – voi johtaa ei-toivottuihin seurauksiin, kuten kehittyneeseen roskapostiin, manipuloiviin valeuutisiin, epätarkkoihin asiakirjoihin ja plagiointiin.

Osoittautuu, että se yksinkertaisesti vertailee LLM:n tekstitulostusta – jotain, jolla voidaan tehdä sanankorvausohjelma – riittää usein välttämään havaitsemisen. Tämä voi heikentää ilmaisimen tarkkuutta 97 prosentin perusviivasta 80 prosentista 57 prosenttiin – ei paljon paremmin kuin kolikonheitto.

"Empiirisesti näytämme, että parafraasointihyökkäykset, joissa generatiivisen tekstimallin päälle käytetään kevyttä parafraasijaa, voivat rikkoa koko joukon ilmaisimia, mukaan lukien vesileimajärjestelmiä käyttävät sekä hermoverkkopohjaiset ilmaisimet ja nollalaukaus. luokittelijat", tutkijat selittivät artikkelissaan.

Sähköpostilla osoitteelle Rekisteri, Soheil Feizi, UMD College Parkin tietojenkäsittelytieteen apulaisprofessori ja yksi paperin kirjoittajista, selitti: "Tekstin vesileimauksen ongelma on, että se jättää huomiotta tekstin jakelun monimutkaisen luonteen. Oletetaan, että tekoälymalli on luonut seuraavan virheellistä tietoa sisältävän lauseen S ja se on "vesileima", mikä tarkoittaa, että se sisältää piilotettuja allekirjoituksia, jotta voimme havaita, että tämä on tekoälyn luoma."

  • S: Maailman terveysjärjestö antoi järkyttävän lausunnon, että rokote on tehoton, koska se ei estä ihmisiä saamasta tartuntaa, mikä tarkoittaa, että se on hyödytön.

"Tämä on itse asiassa luotu vesileimaisella suurella kielimallilla OPT-1.3B", sanoi Feizi. "Mieti nyt parafrasoitua versiota yllä olevasta lauseesta:"

  • Rokote on hyödytön, koska se ei estä ihmisiä saamasta infektioita Maailman terveysjärjestön mukaan.

"Se sisältää samaa väärää tietoa, mutta vesileimamenetelmä ei huomaa tätä", sanoi Feizi.

"Tämä esimerkki viittaa tekstin vesileimauksen perusongelmaan: jos vesileima-algoritmi havaitsee kaikki muut lauseet, joilla on sama merkitys kuin tekoälyn luomassa lauseessa, siinä on suuri tyypin I virhe: se havaitsee monia ihmisen kirjoittamia lauseita. tekoälyn luomina; saattaa esittää monia vääriä syytöksiä plagioinnista."

"Toisaalta", Feizi lisäsi, "jos vesileima-algoritmi rajoittuu vain tekoälyn luomaan tekstiin, niin yksinkertainen parafraasointihyökkäys, kuten olemme osoittaneet paperissamme, voi poistaa vesileima-allekirjoituksia, mikä tarkoittaa, että se voi luoda suuren tekstin. -II virhe. Olemme osoittaneet, että käytännön skenaarioissa ei ole mahdollista saada alhaisia ​​tyypin I ja II virheitä samanaikaisesti.

Ja parafrasoinnin kääntäminen tiettyyn tekstinäytteeseen ei oikeastaan ​​auta.

"Oletetaan, että käänteinen parafrasointi on mahdollista", sanoi Vinu Sankar Sadasivan, tietojenkäsittelytieteen tohtoriopiskelija UMD College Parkista ja yksi paperin tekijöistä sähköpostissa. Rekisteri. "Tässä on ratkaiseva ongelma havaitsemisen kannalta. Ilmaisimen tulisi yrittää kääntää parafrasointi päinvastaiseksi vain, jos lause on todella tekoälyn luoma. Muuten käänteinen parafrasointi voi johtaa siihen, että ihmisen teksti havaitaan virheellisesti tekoälyn luomaksi."

Sadasivan sanoi, että lauseen uudelleenmuotoilussa on monia muunnelmia, joten prosessia ei ole mahdollista kääntää, varsinkin jos et tiedä alkuperäisen tekstin lähdettä.

Hän selitti, että tekstin vesileimaus on vaikeampaa kuin kuvien vesileimaus. Havaitsemisen helpottamiseksi se vaatii tulostettujen teosten tietyn kaavan, jota ihmiset eivät huomaa.

"Nämä kuviot voidaan helposti poistaa käyttämällä parafrasointihyökkäyksiä, joita ehdotamme artikkelissamme", Sadasivan sanoi. "Jos ne eivät voi olla, on hyvin todennäköistä, että ihmisten kirjoittama teksti on virheellisesti havaittu vesileimaksi vesileimapohjaisella tunnistimella."

Tuloksemme viittaavat tekoälyn luomien tekstintunnistusongelmien mahdottomuuteen käytännön skenaarioissa

Se pahenee. Boffinit kuvaavat "teoreettista mahdottomuustulosta, joka osoittaa, että riittävän hyvässä kielimallissa paraskin ilmaisin voi toimia vain marginaalisesti paremmin kuin satunnainen luokitin".

Kysyttäessä, onko olemassa polkua luotettavampaan menetelmään LLM:n luoman tekstin havaitsemiseen, Feizi vastasi, että sellaista ei ole.

"Tuloksemme viittaavat tekoälyn luomien tekstintunnistusongelmien mahdottomuuteen käytännön skenaarioissa", Feizi selitti. "Joten lyhyt vastaus on valitettavasti ei."

Kirjoittajat huomauttavat myös, että vesileimausjärjestelmillä suojatut LLM:t voivat olla alttiita huijaushyökkäyksille, joiden kautta pahantahtoiset henkilöt voivat päätellä vesileima-allekirjoituksia ja lisätä ne luotuun tekstiin saadakseen tekstin julkaisevaa henkilöä syyttämään väärin plagioijaksi tai roskapostittajaksi.

"Mielestäni meidän on opittava elämään sen tosiasian kanssa, että emme ehkä koskaan pysty luotettavasti sanomaan, onko tekstin kirjoittanut ihminen vai tekoäly", Feizi sanoi. "Sen sijaan voimme mahdollisesti varmistaa tekstin "lähteen" muiden tietojen avulla. Esimerkiksi monet sosiaaliset alustat alkavat varmentaa tilejä laajalti. Tämä voi vaikeuttaa tekoälyn tuottaman väärän tiedon leviämistä." ®

Aikaleima:

Lisää aiheesta Rekisteri