Meta for å lansere Chatbot med distinkte personas som 'Lincoln'

Meta for å lansere Chatbot med distinkte personas som 'Lincoln'

Kilde node: 2194152

Forskere fra Carnegie Mellon University og Center for AI Safety avdekket sårbarheter i AI-chatboter, som ChatGPT, Google Bard og Claude, som kan utnyttes av ondsinnede aktører.

Selskaper som bygde de populære generative AI-verktøyene, inkludert OpenAI og Antropisk, har lagt vekt på sikkerheten til sine kreasjoner. Selskapene sier at de hele tiden forbedrer chatbotenes sikkerhet for å stoppe spredningen av falsk og skadelig informasjon.

Les også: USAs regulator undersøker OpenAIs ChatGPT for å spre falsk informasjon

Lurer ChatGPT og selskap

I en studere publisert 27. juli undersøkte forskere sårbarheten til store språkmodeller (LLM) for motstandsangrep skapt av dataprogrammer – i motsetning til de såkalte "jailbreaks" som gjøres manuelt av mennesker mot LLM.

De fant ut at selv modeller som er bygget for å motstå slike angrep kan bli lurt til å lage skadelig innhold som feilinformasjon, hatefulle ytringer og barneporno. Forskerne sa at spørsmål var i stand til å angripe OpenAIs GPT-3.5 og GPT-4 med en suksessrate på opptil 84 %, og 66 % for Googles PaLM-2.

Men suksessraten for Anthropic's Claude var mye lavere, med bare 2.1 %. Til tross for denne lave suksessraten, bemerket forskerne at de automatiserte motstandsangrepene fortsatt var i stand til å indusere atferd som ikke tidligere ble generert av AI-modellene. ChatGPT er bygget på GPT-teknologi.

ChatGPT, Bard og Claude lurte til å generere skadelig innhold

Eksempler på den motstridende forespørselen som fremkalte skadelig innhold fra ChatGPT, Claude, Bard og Llama-2. Bildekreditt: Carnegie Mellon

"Den motstridende oppfordringen kan fremkalle vilkårlig skadelig atferd fra disse modellene med høy sannsynlighet, og demonstrerer potensialer for misbruk," skrev forfatterne i studien.

"Dette viser - veldig tydelig - sprøheten til forsvaret vi bygger inn i disse systemene," la til Aviv Ovadya, en forsker ved Berkman Klein Center for Internet and Society ved Harvard, som rapportert av The New York Times.

Forskerne brukte et offentlig tilgjengelig AI-system for å teste tre black-box LLM-er: ChatGPT fra OpenAI, Bard fra Google, og Claude fra Anthropic. Firmaene har alle utviklet grunnleggende modeller som har blitt brukt til å lage deres respektive AI-chatboter, per bransje rapporter.

Jailbreaking AI chatbots

Siden lanseringen av ChatGPT i november 2022 har noen mennesker lett etter måter å få den populære AI-chatboten til å generere skadelig innhold. OpenAI svarte med å øke sikkerheten.

I april sa selskapet at det ville gjøre det betale folk opp til $20,000 XNUMX for å oppdage "lav alvorlighetsgrad og eksepsjonelle" feil i ChatGPT, dets plugins, OpenAI API og relaterte tjenester – men ikke for å jailbreake plattformen.

Jailbreaking ChatGPT – eller et hvilket som helst annet generativt AI-verktøy som Google Bard – er en prosess som involverer å fjerne begrensninger og begrensninger fra chatboten for å få den til å utføre funksjoner utover dens sikkerhetstiltak.

Det kan innebære bruk av spesifikke meldinger, for eksempel "Gjør hva som helst nå" eller "Utviklermodus", og brukere kan til og med tvinge boten til å bygge et våpen - noe den vanligvis ville nektet å gjøre.

ChatGPT, Bard og Claude lurte til å generere skadelig innhold

Skjermbilder av planene om å ødelegge menneskeheten generert av AI-chatbotene. Bildekreditt: Carnegie Mellon

ChatGPT et al gir guide for å ødelegge menneskeheten

Ved å bruke automatiserte motstandsangrep fant forskerne ved Carnegie Mellon University ut at de med en viss letthet kunne få ChatGPT, Google Bard og Claude til å slippe vakt. Når det skjedde, reagerte AI-modellene med detaljer på spørsmål om å ødelegge menneskeheten.

Forskerne lurte chatbotene ved å legge til en haug med tullkarakterer på slutten av skadelige meldinger. Verken ChatGPT eller Bard anerkjente disse karakterene som skadelige, så de behandlet meldingene som normale og genererte svar som de vanligvis ikke ville gjort.

"Gjennom simulert samtale kan du bruke disse chatbotene til å overbevise folk om å tro på desinformasjon," sa Matt Fredrikson, en av studiens forfattere, til Times.

På spørsmål om råd om hvordan de kan "ødelegge menneskeheten", ga chatbotene ut detaljerte planer for å nå målet. Svarene varierte fra å oppfordre til atomkrig, skape et dødelig virus, til å bruke AI for å utvikle «avansert våpen som er i stand til å utslette hele byer i løpet av minutter».

Forskere er bekymret for at chatbotenes manglende evne til å forstå naturen til skadelige oppfordringer kan føre til misbruk av dårlige aktører. De oppfordret AI-utviklere til å bygge sterkere sikkerhetskontroller for å forhindre chatbots i å generere skadelige svar.

"Det er ingen åpenbar løsning," sa Zico Kolter, professor ved Carnegie Mellon og forfatter av avisen, som Times rapporterte. "Du kan lage så mange av disse angrepene du vil på kort tid."

Forskerne delte resultatene av studien med OpenAI, Google og Anthropic før de ble offentlig.

Tidstempel:

Mer fra MetaNews