A Meta elindítja a Chatbotot olyan egyedi személyiségekkel, mint „Lincoln”

A Meta elindítja a Chatbotot olyan egyedi személyiségekkel, mint „Lincoln”

Forrás csomópont: 2194152

A Carnegie Mellon Egyetem és a Center for AI Safety kutatói olyan sérülékenységeket tártak fel az AI chatbotokban, mint a ChatGPT, a Google Bard és a Claude, amelyeket a rosszindulatú szereplők kihasználhatnak.

A népszerű generatív mesterséges intelligencia eszközöket építő cégek, köztük OpenAI és a Antropikus, hangsúlyozták alkotásaik biztonságát. A cégek azt állítják, hogy folyamatosan javítják a chatbotok biztonságát, hogy megakadályozzák a hamis és káros információk terjedését.

Lásd még: Az amerikai szabályozó megvizsgálja az OpenAI ChatGPT-jét hamis információk terjesztéséért

A ChatGPT és a társaság megtévesztése

egy tanulmány július 27-én publikálták, a kutatók a nagy nyelvi modellek (LLM) sebezhetőségét vizsgálták a számítógépes programok által létrehozott ellenséges támadásokkal szemben – ellentétben az úgynevezett „jailbreakekkel”, amelyeket az emberek manuálisan hajtanak végre az LLM-ek ellen.

Azt találták, hogy még az ilyen támadásoknak ellenálló modelleket is becsaphatják olyan káros tartalmak létrehozására, mint a félretájékoztatás, a gyűlöletbeszéd és a gyermekpornó. A kutatók szerint a promptok képesek voltak megtámadni az OpenAI GPT-3.5 és GPT-4 akár 84%-os sikeraránnyal, a Google PaLM-66 esetében pedig 2%-kal.

Azonban az Anthropic sikerességi aránya Claude jóval alacsonyabb volt, mindössze 2.1%. Az alacsony sikerarány ellenére a tudósok megjegyezték, hogy az automatizált ellenséges támadások továbbra is képesek olyan viselkedést kiváltani, amelyet korábban az AI-modellek nem generáltak. A ChatGPT a GPT technológiára épül.

A ChatGPT, Bard és Claude rosszindulatú tartalmat generáltak

Példák a ChatGPT-től, Claude-tól, Bardtól és Llama-2-től káros tartalmat kiváltó ellenséges felszólításra. A kép forrása: Carnegie Mellon

"A kontradiktórius felszólítás nagy valószínűséggel tetszőleges káros viselkedést válthat ki ezekből a modellekből, jelezve a visszaélés lehetőségét" - írták a tanulmányban a szerzők.

"Ez nagyon világosan mutatja a védelem törékenységét, amelyet ezekbe a rendszerekbe építünk" hozzáadott Aviv Ovadya, a Harvard-i Berkman Klein Internet és Társadalom Központ kutatója, a The New York Times szerint.

A kutatók egy nyilvánosan elérhető mesterséges intelligencia rendszert használtak három fekete doboz LLM tesztelésére: az OpenAI ChatGPT-je, Dalnok a Google-tól és Claude az Anthropictól. A cégek mind kifejlesztettek olyan alapmodelleket, amelyeket iparágonként használtak a megfelelő AI chatbotjaik létrehozásához jelentések.

Jailbreaking AI chatbotok

A ChatGPT 2022 novemberi indulása óta néhányan keresték a módokat arra, hogy a népszerű mesterséges intelligencia chatbotot káros tartalom generálására késztesse. Az OpenAI a biztonság növelésével válaszolt.

Áprilisban a cég azt mondta, hogy így lesz akár 20,000 XNUMX dollárt fizet az embereknek a ChatGPT-n, annak bővítményein, az OpenAI API-n és a kapcsolódó szolgáltatásokon belüli „alacsony súlyosságú és kivételes” hibák felfedezéséért – de nem a platform jailbreakéért.

Jailbreaking ChatGPT – vagy bármely más generatív mesterséges intelligencia-eszköz, például a Google Bard – egy olyan folyamat, amely magában foglalja a korlátozások és korlátozások eltávolítását a chatbotról, hogy az a biztosítékokon túlmutató funkciókat hajtson végre.

Ez magában foglalhatja a specifikus utasításokat, például a „Csinálj bármit most” vagy a „Fejlesztői mód”-t, és a felhasználók akár fegyver megalkotására is kényszeríthetik a botot – amit az általában megtagadna.

A ChatGPT, Bard és Claude rosszindulatú tartalmat generáltak

Az AI chatbotok által generált képernyőképek az emberiség elpusztításának terveiről. A kép forrása: Carnegie Mellon

A ChatGPT és társai útmutatót adnak az emberiség elpusztításához

Az automatizált ellenséges támadások segítségével a Carnegie Mellon Egyetem kutatói azt találták, hogy a ChatGPT-t, a Google Bardot és a Claude-ot könnyedén el tudják érni. Miután ez megtörtént, az AI-modellek részletesen reagáltak az emberiség elpusztítására vonatkozó felszólításokra.

A tudósok megtévesztették a chatbotokat azzal, hogy egy csomó értelmetlen karaktert adtak a káros felszólítások végére. Sem a ChatGPT, sem a Bard nem ismerte fel ezeket a karaktereket ártalmasnak, ezért normál módon dolgozták fel a promptokat, és olyan válaszokat generáltak, amelyeket általában nem.

"A szimulált beszélgetések segítségével ezekkel a chatbotokkal meggyőzheti az embereket, hogy higgyenek a dezinformációban" - mondta Matt Fredrikson, a tanulmány egyik szerzője a Timesnak.

Amikor tanácsot kértek az „emberiség elpusztítására”, a chatbotok részletes terveket adtak ki a cél eléréséhez. A válaszok a nukleáris háború szításától, egy halálos vírus létrehozásáig terjedtek, egészen a mesterséges intelligencia felhasználásáig „olyan fejlett fegyverek kifejlesztéséig, amelyek képesek perceken belül egész városokat kiirtani”.

A kutatók attól tartanak, hogy a chatbotok képtelenek megérteni a káros felszólítások természetét, ami rossz szereplők általi visszaélésekhez vezethet. Arra kérték a mesterséges intelligencia fejlesztőit, hogy építsenek erősebb biztonsági ellenőrzéseket annak megakadályozására, hogy a chatbotok káros válaszokat generáljanak.

"Nincs kézenfekvő megoldás" - mondta Zico Kolter, a Carnegie Mellon professzora és a cikk szerzője, ahogy a Times beszámolt. "Rövid idő alatt annyi támadást hozhat létre, amennyit csak akar."

A kutatók a nyilvánosságra hozatal előtt megosztották tanulmányuk eredményeit az OpenAI-val, a Google-lal és az Anthropic-kal.

Időbélyeg:

Még több MetaNews