Forskere fra Carnegie Mellon University og Center for AI Safety avdekket sårbarheter i AI-chatboter, som ChatGPT, Google Bard og Claude, som kan utnyttes av ondsinnede aktører.
Selskaper som bygde de populære generative AI-verktøyene, inkludert OpenAI og Antropisk, har lagt vekt på sikkerheten til sine kreasjoner. Selskapene sier at de hele tiden forbedrer chatbotenes sikkerhet for å stoppe spredningen av falsk og skadelig informasjon.
Les også: USAs regulator undersøker OpenAIs ChatGPT for å spre falsk informasjon
Lurer ChatGPT og selskap
I en studere publisert 27. juli undersøkte forskere sårbarheten til store språkmodeller (LLM) for motstandsangrep skapt av dataprogrammer – i motsetning til de såkalte "jailbreaks" som gjøres manuelt av mennesker mot LLM.
De fant ut at selv modeller som er bygget for å motstå slike angrep kan bli lurt til å lage skadelig innhold som feilinformasjon, hatefulle ytringer og barneporno. Forskerne sa at spørsmål var i stand til å angripe OpenAIs GPT-3.5 og GPT-4 med en suksessrate på opptil 84 %, og 66 % for Googles PaLM-2.
Men suksessraten for Anthropic's Claude var mye lavere, med bare 2.1 %. Til tross for denne lave suksessraten, bemerket forskerne at de automatiserte motstandsangrepene fortsatt var i stand til å indusere atferd som ikke tidligere ble generert av AI-modellene. ChatGPT er bygget på GPT-teknologi.
"Den motstridende oppfordringen kan fremkalle vilkårlig skadelig atferd fra disse modellene med høy sannsynlighet, og demonstrerer potensialer for misbruk," skrev forfatterne i studien.
"Dette viser - veldig tydelig - sprøheten til forsvaret vi bygger inn i disse systemene," la til Aviv Ovadya, en forsker ved Berkman Klein Center for Internet and Society ved Harvard, som rapportert av The New York Times.
Forskerne brukte et offentlig tilgjengelig AI-system for å teste tre black-box LLM-er: ChatGPT fra OpenAI, Bard fra Google, og Claude fra Anthropic. Firmaene har alle utviklet grunnleggende modeller som har blitt brukt til å lage deres respektive AI-chatboter, per bransje rapporter.
Jailbreaking AI chatbots
Siden lanseringen av ChatGPT i november 2022 har noen mennesker lett etter måter å få den populære AI-chatboten til å generere skadelig innhold. OpenAI svarte med å øke sikkerheten.
I april sa selskapet at det ville gjøre det betale folk opp til $20,000 XNUMX for å oppdage "lav alvorlighetsgrad og eksepsjonelle" feil i ChatGPT, dets plugins, OpenAI API og relaterte tjenester – men ikke for å jailbreake plattformen.
Jailbreaking ChatGPT – eller et hvilket som helst annet generativt AI-verktøy som Google Bard – er en prosess som involverer å fjerne begrensninger og begrensninger fra chatboten for å få den til å utføre funksjoner utover dens sikkerhetstiltak.
Det kan innebære bruk av spesifikke meldinger, for eksempel "Gjør hva som helst nå" eller "Utviklermodus", og brukere kan til og med tvinge boten til å bygge et våpen - noe den vanligvis ville nektet å gjøre.
ChatGPT et al gir guide for å ødelegge menneskeheten
Ved å bruke automatiserte motstandsangrep fant forskerne ved Carnegie Mellon University ut at de med en viss letthet kunne få ChatGPT, Google Bard og Claude til å slippe vakt. Når det skjedde, reagerte AI-modellene med detaljer på spørsmål om å ødelegge menneskeheten.
Forskerne lurte chatbotene ved å legge til en haug med tullkarakterer på slutten av skadelige meldinger. Verken ChatGPT eller Bard anerkjente disse karakterene som skadelige, så de behandlet meldingene som normale og genererte svar som de vanligvis ikke ville gjort.
"Gjennom simulert samtale kan du bruke disse chatbotene til å overbevise folk om å tro på desinformasjon," sa Matt Fredrikson, en av studiens forfattere, til Times.
På spørsmål om råd om hvordan de kan "ødelegge menneskeheten", ga chatbotene ut detaljerte planer for å nå målet. Svarene varierte fra å oppfordre til atomkrig, skape et dødelig virus, til å bruke AI for å utvikle «avansert våpen som er i stand til å utslette hele byer i løpet av minutter».
Forskere er bekymret for at chatbotenes manglende evne til å forstå naturen til skadelige oppfordringer kan føre til misbruk av dårlige aktører. De oppfordret AI-utviklere til å bygge sterkere sikkerhetskontroller for å forhindre chatbots i å generere skadelige svar.
"Det er ingen åpenbar løsning," sa Zico Kolter, professor ved Carnegie Mellon og forfatter av avisen, som Times rapporterte. "Du kan lage så mange av disse angrepene du vil på kort tid."
Forskerne delte resultatene av studien med OpenAI, Google og Anthropic før de ble offentlig.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Bil / elbiler, Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- BlockOffsets. Modernisering av eierskap for miljøkompensasjon. Tilgang her.
- kilde: https://metanews.com/meta-to-dish-out-chatbots-with-distinct-personas-like-abraham-lincolns/
- :er
- :ikke
- $OPP
- 10
- 2022
- 27
- 33
- 36
- a
- I stand
- Om oss
- misbruk
- Oppnå
- aktører
- legge
- motstandere
- råd
- mot
- AI
- AI chatbot
- AI-modeller
- AL
- Alle
- alltid
- beløp
- og
- Antropisk
- noen
- hva som helst
- api
- April
- ER
- AS
- spurte
- At
- angripe
- Angrep
- forfatter
- forfattere
- Automatisert
- tilgjengelig
- dårlig
- BE
- vært
- før du
- atferd
- atferd
- tro
- Beyond
- Svart boks
- øke
- Bot
- bugs
- bygge
- Bygning
- bygget
- Bunch
- men
- by
- som heter
- CAN
- stand
- Carnegie Mellon
- Carnegie mellon universitet
- sentrum
- tegn
- chatbot
- chatbots
- ChatGPT
- barn
- Byer
- klart
- Selskaper
- Selskapet
- datamaskin
- innhold
- kontroller
- Samtale
- overbevise
- kunne
- skape
- opprettet
- Opprette
- kreasjoner
- studiepoeng
- demonstrere
- Til tross for
- ødelegge
- detalj
- detaljert
- utvikle
- utviklet
- utviklere
- oppdage
- desinformasjon
- distinkt
- do
- gjort
- Drop
- E&T
- lette
- understreket
- slutt
- Hele
- Selv
- Exploited
- falsk
- bedrifter
- Til
- funnet
- fra
- funksjoner
- ga
- generere
- generert
- genererer
- generative
- Generativ AI
- få
- mål
- skal
- Googles
- Guard
- veilede
- skjedde
- skadelig
- harvard
- hatmeldinger
- Ha
- Høy
- Hvordan
- Hvordan
- HTML
- HTTPS
- Menneskeheten
- Mennesker
- bilde
- bedre
- in
- manglende evne
- Inkludert
- industri
- informasjon
- Internet
- inn
- involvere
- innebærer
- IT
- DET ER
- jailbreaking
- jpg
- Juli
- Språk
- stor
- lansere
- føre
- i likhet med
- begrensninger
- Lincoln
- ser
- Lav
- lavere
- gjøre
- manuelt
- mange
- max bredde
- Mellon
- Meta
- minutter
- feil~~POS=TRUNC
- misbruk
- Mote
- modeller
- mye
- Natur
- Ingen
- Ny
- New York
- New York Times
- Nei.
- eller
- normal
- normalt
- bemerket
- November
- kjernekraft
- Åpenbare
- of
- on
- gang
- ONE
- bare
- OpenAI
- or
- rekkefølge
- Annen
- ut
- Papir
- Ansatte
- for
- utføre
- planer
- plattform
- plato
- Platon Data Intelligence
- PlatonData
- plugins
- Populær
- Porno
- potensialer
- forebygge
- tidligere
- sannsynlighet
- prosess
- behandlet
- Professor
- programmer
- gi
- offentlig
- offentlig
- publisert
- Sats
- Lese
- gjenkjent
- regulator
- i slekt
- fjerne
- rapportert
- forsker
- forskere
- de
- svar
- restriksjoner
- Resultater
- sikringstiltak
- Sikkerhet
- Sa
- sier
- forskere
- sikkerhet
- Tjenester
- delt
- Kort
- Viser
- So
- Samfunnet
- løsning
- noen
- noe
- spesifikk
- tale
- spre
- sprer
- Still
- Stopp
- sterkere
- Studer
- suksess
- slik
- system
- Systemer
- Teknologi
- test
- Det
- De
- The New York Times
- deres
- Disse
- de
- denne
- tre
- tid
- ganger
- til
- verktøy
- verktøy
- avdekket
- forstå
- universitet
- I motsetning til
- bruke
- brukt
- Brukere
- ved hjelp av
- veldig
- virus
- Sikkerhetsproblemer
- sårbarhet
- ønsker
- krig
- var
- måter
- we
- var
- tørke
- med
- innenfor
- bekymret
- ville
- skrev
- york
- du
- ZDNet
- zephyrnet