Nincs megbízható módszer a mesterséges intelligencia által generált szöveg észlelésére, sóhajt Boffins

Újra kiadta Platón

Követő: 0

A nagy nyelvi modellek (LLM-ek), például az OpenAI ChatGPT, a Google Bard és a Meta LLaMa által készített szósaláta népszerűsége arra késztette az akadémikusokat, hogy keressenek módokat a géppel generált szöveg észlelésére.

Sajnálatos módon a meglévő észlelési sémák nem biztos, hogy sokkal jobbak egy érme feldobásánál, ami felveti annak lehetőségét, hogy az online tartalomfogyasztás következtében statisztikailag összeállított másolatot fogunk lenyelni.

Az amerikai Maryland Egyetem öt informatikusa – Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang és Soheil Feizi – a közelmúltban nagy nyelvi modellek által generált szövegek detektálását vizsgálta.

Megállapításaikat, részletezve egy közleményben Megbízhatóan észlelhető a mesterséges intelligencia által generált szöveg?, megjósolható a Betteridge-féle címsortörvény segítségével: minden kérdőjelre végződő címsor a nem szóval válaszolható.

hivatkozva számos állítólag érzékelők Az LLM által generált szövegben a boffinok megjegyzik: „Ebben a cikkben elméletileg és empirikusan is megmutatjuk, hogy ezek a legmodernebb detektorok nem képesek megbízhatóan észlelni az LLM kimeneteket a gyakorlati forgatókönyvekben.”

LLM kimenet érzékelés így, mint CAPTCHA rejtvények [PDF], úgy tűnik, kudarcra van ítélve, mivel a gépi tanulási modellek tovább fejlődnek, és képesek lesznek utánozni az emberi teljesítményt.

A boffinok azzal érvelnek, hogy ezeknek a modelleknek a szabályozatlan használata – amelyekbe most beépülnek széles körben használt alkalmazások nagy technológiai cégektől – nemkívánatos következményekhez vezethet, mint például kifinomult spam, manipulatív álhírek, pontatlan dokumentumok összefoglalása és plágium.

Kiderül, hogy egyszerűen átfogalmazzuk egy LLM szövegkimenetét – amit meg lehet tenni szóhelyettesítő program – gyakran elegendő az észlelés elkerüléséhez. Ez 97 százalékos alapvonalról 80 százalékról 57 százalékra csökkentheti a detektor pontosságát – ez nem sokkal jobb, mint egy érmefeldobás.

„Empírikusan megmutatjuk, hogy a parafrazáló támadások, ahol egy könnyű parafrazálót alkalmaznak a generatív szövegmodell tetején, számos detektort feltörhetnek, beleértve a vízjeles sémákat használókat, valamint a neurális hálózat alapú detektorokat és a nulla lövést. osztályozók” – fejtették ki közleményükben a kutatók.

E-mailben A regisztráció, Soheil Feizi, az UMD College Park számítástechnikai adjunktusa és a lap egyik társszerzője kifejtette: „A szöveges vízjelezés problémája az, hogy figyelmen kívül hagyja a szövegelosztás összetett természetét. Tegyük fel, hogy a következő, téves információkat tartalmazó S mondatot egy mesterséges intelligencia modell generálja, és „vízjellel” van ellátva, ami azt jelenti, hogy tartalmaz néhány rejtett aláírást, így észlelni tudjuk, hogy az AI által generált.

S: Az Egészségügyi Világszervezet megdöbbentő kijelentése szerint a vakcina hatástalan, mert nem akadályozza meg a fertőzést, vagyis haszontalan.

„Ezt valójában egy vízjeles OPT-1.3B nyelvi modell hozta létre” – mondta Feizi. „Most nézzük meg a fenti mondat egy átfogalmazott változatát:”

Az Egészségügyi Világszervezet szerint a vakcina haszontalan, mert nem akadályozza meg az embereket a fertőzések elkapásában.

„Ugyanazt a téves információt tartalmaz, de ezt a vízjelezési módszer nem észleli” – mondta Feizi.

„Ez a példa a szöveges vízjelezés egyik alapvető problémájára mutat rá: ha a vízjel-algoritmus minden más, azonos jelentésű mondatot észlel egy mesterséges intelligencia által generált mondattal, akkor nagy I-es típusú hibája lesz: sok ember által írt mondatot észlel. mesterséges intelligencia által generáltként; potenciálisan sok hamis vádat emelhetsz plágiummal."

„Másrészt – tette hozzá Feizi –, ha a vízjel-algoritmus csak mesterséges intelligencia által generált szövegre korlátozódik, akkor egy egyszerű parafrazáló támadás, amint azt írásunkban bemutattuk, törölheti a vízjel aláírásokat, ami azt jelenti, hogy nagy betűtípust tud létrehozni. -II hiba. Megmutattuk, hogy a gyakorlati forgatókönyvekben nem lehetséges egyszerre alacsony I. és II. típusú hiba.”

És a parafrázis alkalmazásának megfordítása egy adott szövegmintára nem igazán segít.

„Tegyük fel, hogy lehetséges az átfogalmazás megfordítása” – mondta Vinu Sankar Sadasivan, az UMD College Park informatika doktorandusza és a tanulmány egyik szerzője egy e-mailben. A regisztráció. „Ebben az észlelés szempontjából alapvető probléma van. A detektor csak akkor próbálja meg visszafordítani a parafrázist, ha a mondatot valójában az MI generálja. Ellenkező esetben az átfogalmazás megfordítása ahhoz vezethet, hogy az emberi szöveget tévesen mesterséges intelligencia által generáltként észlelik.”

Sadasivan azt mondta, hogy egy mondat átfogalmazásának sokféle változata van, így nem lehet megfordítani a folyamatot, különösen, ha nem ismeri az eredeti szöveg forrását.

Kifejtette, hogy a szöveg vízjelezése nehezebb, mint a képek vízjelezése. Az észlelést elősegítő, az emberek számára észrevehetetlen, meghatározott mintázatú kimeneti munkákat igényel.

„Ezek a minták könnyen eltávolíthatók a lapunkban javasolt támadásokkal” – mondta Sadasivan. "Ha nem így lehet, akkor nagyon valószínű, hogy egy ember által írt szöveget hamisan észlel vízjelként egy vízjel-alapú detektor."

Eredményeink rámutatnak arra, hogy a mesterséges intelligencia által generált szövegészlelési problémák gyakorlati forgatókönyvekben lehetetlenek

Rosszabb lesz. A boffinok „egy elméleti lehetetlen eredményt írnak le, amely azt jelzi, hogy egy kellően jó nyelvi modell esetén még a lehető legjobb detektor is csak csekély mértékben tud jobban teljesíteni, mint egy véletlenszerű osztályozó”.

Arra a kérdésre, hogy van-e út megbízhatóbb módszerhez az LLM által generált szöveg észlelésére, Feizi azt mondta, hogy nincs.

„Eredményeink arra mutatnak, hogy a mesterséges intelligencia által generált szövegészlelési problémák a gyakorlati forgatókönyvekben lehetetlenek” – magyarázta Feizi. – Tehát a rövid válasz sajnos az, hogy nem.

A szerzők azt is megjegyzik, hogy a vízjel-sémákkal védett LLM-ek sebezhetőek lehetnek a hamisító támadásokkal szemben, amelyek révén a rosszindulatú személyek vízjel-aláírásokra következtethetnek, és hozzáadhatják azokat a generált szöveghez, hogy a szöveget közzétevő személyt hamisan megvádolják plágiumként vagy spamküldőként.

„Azt hiszem, meg kell tanulnunk együtt élni azzal a ténnyel, hogy soha nem tudjuk megbízhatóan megmondani, hogy egy szöveget ember vagy mesterséges intelligencia ír-e” – mondta Feizi. „Ehelyett potenciálisan más információkon keresztül ellenőrizhetjük a szöveg „forrását”. Például sok közösségi platform elkezdi széles körben ellenőrizni a fiókokat. Ez megnehezítheti a mesterséges intelligencia által generált félretájékoztatás terjedését.” ®