A Carnegie Mellon Egyetem és a Center for AI Safety kutatói olyan sérülékenységeket tártak fel az AI chatbotokban, mint a ChatGPT, a Google Bard és a Claude, amelyeket a rosszindulatú szereplők kihasználhatnak.
A népszerű generatív mesterséges intelligencia eszközöket építő cégek, köztük OpenAI és a Antropikus, hangsúlyozták alkotásaik biztonságát. A cégek azt állítják, hogy folyamatosan javítják a chatbotok biztonságát, hogy megakadályozzák a hamis és káros információk terjedését.
Lásd még: Az amerikai szabályozó megvizsgálja az OpenAI ChatGPT-jét hamis információk terjesztéséért
A ChatGPT és a társaság megtévesztése
egy tanulmány július 27-én publikálták, a kutatók a nagy nyelvi modellek (LLM) sebezhetőségét vizsgálták a számítógépes programok által létrehozott ellenséges támadásokkal szemben – ellentétben az úgynevezett „jailbreakekkel”, amelyeket az emberek manuálisan hajtanak végre az LLM-ek ellen.
Azt találták, hogy még az ilyen támadásoknak ellenálló modelleket is becsaphatják olyan káros tartalmak létrehozására, mint a félretájékoztatás, a gyűlöletbeszéd és a gyermekpornó. A kutatók szerint a promptok képesek voltak megtámadni az OpenAI GPT-3.5 és GPT-4 akár 84%-os sikeraránnyal, a Google PaLM-66 esetében pedig 2%-kal.
Azonban az Anthropic sikerességi aránya Claude jóval alacsonyabb volt, mindössze 2.1%. Az alacsony sikerarány ellenére a tudósok megjegyezték, hogy az automatizált ellenséges támadások továbbra is képesek olyan viselkedést kiváltani, amelyet korábban az AI-modellek nem generáltak. A ChatGPT a GPT technológiára épül.
"A kontradiktórius felszólítás nagy valószínűséggel tetszőleges káros viselkedést válthat ki ezekből a modellekből, jelezve a visszaélés lehetőségét" - írták a tanulmányban a szerzők.
"Ez nagyon világosan mutatja a védelem törékenységét, amelyet ezekbe a rendszerekbe építünk" hozzáadott Aviv Ovadya, a Harvard-i Berkman Klein Internet és Társadalom Központ kutatója, a The New York Times szerint.
A kutatók egy nyilvánosan elérhető mesterséges intelligencia rendszert használtak három fekete doboz LLM tesztelésére: az OpenAI ChatGPT-je, Dalnok a Google-tól és Claude az Anthropictól. A cégek mind kifejlesztettek olyan alapmodelleket, amelyeket iparágonként használtak a megfelelő AI chatbotjaik létrehozásához jelentések.
Jailbreaking AI chatbotok
A ChatGPT 2022 novemberi indulása óta néhányan keresték a módokat arra, hogy a népszerű mesterséges intelligencia chatbotot káros tartalom generálására késztesse. Az OpenAI a biztonság növelésével válaszolt.
Áprilisban a cég azt mondta, hogy így lesz akár 20,000 XNUMX dollárt fizet az embereknek a ChatGPT-n, annak bővítményein, az OpenAI API-n és a kapcsolódó szolgáltatásokon belüli „alacsony súlyosságú és kivételes” hibák felfedezéséért – de nem a platform jailbreakéért.
Jailbreaking ChatGPT – vagy bármely más generatív mesterséges intelligencia-eszköz, például a Google Bard – egy olyan folyamat, amely magában foglalja a korlátozások és korlátozások eltávolítását a chatbotról, hogy az a biztosítékokon túlmutató funkciókat hajtson végre.
Ez magában foglalhatja a specifikus utasításokat, például a „Csinálj bármit most” vagy a „Fejlesztői mód”-t, és a felhasználók akár fegyver megalkotására is kényszeríthetik a botot – amit az általában megtagadna.
A ChatGPT és társai útmutatót adnak az emberiség elpusztításához
Az automatizált ellenséges támadások segítségével a Carnegie Mellon Egyetem kutatói azt találták, hogy a ChatGPT-t, a Google Bardot és a Claude-ot könnyedén el tudják érni. Miután ez megtörtént, az AI-modellek részletesen reagáltak az emberiség elpusztítására vonatkozó felszólításokra.
A tudósok megtévesztették a chatbotokat azzal, hogy egy csomó értelmetlen karaktert adtak a káros felszólítások végére. Sem a ChatGPT, sem a Bard nem ismerte fel ezeket a karaktereket ártalmasnak, ezért normál módon dolgozták fel a promptokat, és olyan válaszokat generáltak, amelyeket általában nem.
"A szimulált beszélgetések segítségével ezekkel a chatbotokkal meggyőzheti az embereket, hogy higgyenek a dezinformációban" - mondta Matt Fredrikson, a tanulmány egyik szerzője a Timesnak.
Amikor tanácsot kértek az „emberiség elpusztítására”, a chatbotok részletes terveket adtak ki a cél eléréséhez. A válaszok a nukleáris háború szításától, egy halálos vírus létrehozásáig terjedtek, egészen a mesterséges intelligencia felhasználásáig „olyan fejlett fegyverek kifejlesztéséig, amelyek képesek perceken belül egész városokat kiirtani”.
A kutatók attól tartanak, hogy a chatbotok képtelenek megérteni a káros felszólítások természetét, ami rossz szereplők általi visszaélésekhez vezethet. Arra kérték a mesterséges intelligencia fejlesztőit, hogy építsenek erősebb biztonsági ellenőrzéseket annak megakadályozására, hogy a chatbotok káros válaszokat generáljanak.
"Nincs kézenfekvő megoldás" - mondta Zico Kolter, a Carnegie Mellon professzora és a cikk szerzője, ahogy a Times beszámolt. "Rövid idő alatt annyi támadást hozhat létre, amennyit csak akar."
A kutatók a nyilvánosságra hozatal előtt megosztották tanulmányuk eredményeit az OpenAI-val, a Google-lal és az Anthropic-kal.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Autóipar / elektromos járművek, Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- BlockOffsets. A környezetvédelmi ellentételezési tulajdon korszerűsítése. Hozzáférés itt.
- Forrás: https://metanews.com/meta-to-dish-out-chatbots-with-distinct-personas-like-abraham-lincolns/
- :is
- :nem
- $ UP
- 10
- 2022
- 27
- 33
- 36
- a
- Képes
- Rólunk
- visszaélés
- Elérése
- szereplők
- hozzáadásával
- ellenséges
- tanács
- ellen
- AI
- AI chatbot
- AI modellek
- AL
- Minden termék
- mindig
- összeg
- és a
- Antropikus
- bármilyen
- bármi
- api
- április
- VANNAK
- AS
- kérdezte
- At
- támadás
- Támadások
- szerző
- szerzők
- Automatizált
- elérhető
- Rossz
- BE
- óta
- előtt
- viselkedés
- viselkedés
- Hisz
- Túl
- Fekete doboz
- fellendítése
- Bot
- bogarak
- épít
- Épület
- épült
- Csokor
- de
- by
- hívott
- TUD
- képes
- Carnegie Mellon
- Carnegie melloni egyetem
- Központ
- karakter
- chatbot
- chatbots
- ChatGPT
- gyermek
- városok
- világosan
- Companies
- vállalat
- számítógép
- tartalom
- ellenőrzések
- Beszélgetés
- meggyőz
- tudott
- teremt
- készítette
- létrehozása
- alkotások
- Credits
- bemutatását,
- Ellenére
- elpusztítani
- részlet
- részletes
- Fejleszt
- fejlett
- fejlesztők
- felfedezése
- hamis információ
- különböző
- do
- csinált
- Csepp
- E&T
- könnyű
- hangsúlyozta
- végén
- Egész
- Még
- Hasznosított
- hamis
- cégek
- A
- talált
- ból ből
- funkciók
- adott
- generál
- generált
- generáló
- nemző
- Generatív AI
- kap
- cél
- megy
- Őr
- útmutató
- történt
- káros
- Harvard
- Gyűlöletbeszéd
- Legyen
- Magas
- Hogyan
- How To
- HTML
- HTTPS
- Emberiség
- Az emberek
- kép
- javuló
- in
- képtelenség
- Beleértve
- ipar
- információ
- Internet
- bele
- vonja
- jár
- IT
- ITS
- jailbreak
- jpg
- július
- nyelv
- nagy
- indít
- vezet
- mint
- korlátozások
- Lincoln
- keres
- Elő/Utó
- alacsonyabb
- csinál
- kézzel
- sok
- max-width
- Mellon
- meta
- jegyzőkönyv
- félrevezető tájékoztatás
- visszaélés
- Mód
- modellek
- sok
- Természet
- Se
- Új
- New York
- New York Times
- nem
- sem
- normális
- rendszerint
- neves
- november
- nukleáris
- Nyilvánvaló
- of
- on
- egyszer
- ONE
- csak
- OpenAI
- or
- érdekében
- Más
- ki
- Papír
- Emberek (People)
- mert
- teljesít
- tervek
- emelvény
- Plató
- Platón adatintelligencia
- PlatoData
- Plugins
- Népszerű
- Pornó
- potenciálokat
- megakadályozása
- korábban
- valószínűség
- folyamat
- feldolgozott
- Egyetemi tanár
- Programok
- ad
- nyilvános
- nyilvánosan
- közzétett
- Arány
- Olvass
- elismert
- szabályozó
- összefüggő
- eltávolítása
- Számolt
- kutató
- kutatók
- azok
- válaszok
- korlátozások
- Eredmények
- biztosítékok
- Biztonság
- Mondott
- azt mondják
- tudósok
- biztonság
- Szolgáltatások
- megosztott
- rövid
- Műsorok
- So
- Társadalom
- megoldások
- néhány
- valami
- különleges
- beszéd
- terjedése
- terjedés
- Még mindig
- megáll
- erősebb
- Tanulmány
- siker
- ilyen
- rendszer
- Systems
- Technológia
- teszt
- hogy
- A
- A New York Times
- azok
- Ezek
- ők
- ezt
- három
- idő
- alkalommal
- nak nek
- szerszám
- szerszámok
- fedetlen
- megért
- egyetemi
- nem úgy mint
- használ
- használt
- Felhasználók
- segítségével
- nagyon
- vírus
- sérülékenységek
- sebezhetőség
- akar
- háború
- volt
- módon
- we
- voltak
- törlés
- val vel
- belül
- aggódik
- lenne
- írt
- york
- te
- ZDNet
- zephyrnet