Alle heier Cicero, Erobreren – AI slår mennesker i diplomati

Kilde node: 1763695

Meta Platforms Inc, morselskapet til Facebook, sa at det har skapt en AI som kan overliste mennesker i en nettversjon av det populære strategispillet, Diplomacy, der syv spillere konkurrerer om geografisk kontroll over Europa ved å flytte brikker rundt på et kart.

I en artikkel publisert på Science.com sa Meta Cicero, var den første AI-agenten som oppnådde ytelse på menneskelig nivå i Diplomacy, et spill som involverer både samarbeid og konkurranse som legger vekt på naturlig språkforhandling og taktisk koordinering mellom syv spillere.

I totalt 40 anonyme spill av online Diplomacy, sa Meta at Cicero hadde oppnådd mer enn dobbelt så høy gjennomsnittsscore som menneskelige spillere og rangert blant de 10 % beste deltakerne som spilte mer enn ett spill.

Den ledende teknologigruppen sa at dette var en del av deres strategiske og langsiktige mål innen kunstig intelligens for å bygge agenter som kan planlegge, koordinere og forhandle med mennesker på naturlig språk.

Hvor viktig er Cicero?

Meta sier at Cicero er ganske betydelig fordi AI er avhengig av ikke-motstridende miljøer.

I motsetning til tidligere, hvor tidligere store suksesser for multi-agent AI har vært i rent motstridende miljøer, som Chess (2), Go (3) og Poker (4), hvor kommunikasjon ikke har noen verdi, bruker Cicero en strategisk resonneringsmotor og kontrollerbar dialogmodul.

Av disse grunnene sier meta at diplomati har fungert som en utfordrende målestokk for læring med flere agenter.

"Cicero kobler en kontrollerbar dialogmodul med en strategisk resonneringsmotor. På hvert punkt i spillet modellerer Cicero hvordan de andre spillerne sannsynligvis vil handle basert på spillets tilstand og samtalene deres, sier Meta.

AI planlegger deretter hvordan spillerne kan koordinere til deres gjensidige fordel og kartlegger disse planene til meldinger på naturlig språk.

Sunn mistillit

Cicero unngår å stole blindt på forslag fra andre spillere og avviser planer som har lav "forutsagt verdi" og som går parallelt med dens egne interesser.

På grunn av det faktum at dialog i Diplomacy foregår privat mellom spillerpar, begrunner og analyserer Cicero informasjonen spillerne har tilgang til når de lager spådommer.

"For eksempel, hvis Cicero koordinerer et angrep med en alliert mot en motstander, må Ciceros spådom om motstanderens politikk ta hensyn til det faktum at motstanderen ikke er klar over den tiltenkte koordineringen," sa Meta.

Meta sier at det gikk anonymt inn i Cicero i 40 kamper med Diplomacy i en online liga av menneskelige spillere mellom 19. august og 13. oktober 2022.

I løpet av 72 timers spill som innebar å sende 5,277 10 meldinger, rangerte Cicero blant de XNUMX % beste deltakerne som spilte mer enn ett spill, heter det.

Meta sier at de har samlet inn data fra 125,261 40,408 spill med Diplomacy spilt online på webDiplomacy.net. Av disse spillene inneholdt totalt 12,901,662 XNUMX spill dialog, med totalt XNUMX XNUMX XNUMX meldinger utvekslet mellom spillere.

Spørsmål: "Robot slår alle andre i et spill med diplomati" (AI-generert).

Meta-notater, den nye AI er langt fra perfekt

Cicero sendte meldinger som inneholdt feil, noen ganger motsier sine egne planer og gjorde strategiske tabber.

Men Meta insisterer på at mennesker likevel valgte å samarbeide med AI fremfor andre spillere uten å innse at det var en bot.

"Nesten alle tidligere AI-gjennombrudd i spill har vært i to-spillers nullsum (2p0s) innstillinger, inkludert sjakk, Go, heads-up poker og StarCraft. I finite 2p0s-spill vil visse forsterkningslæringsalgoritmer (RL) som lærer ved å spille mot seg selv – en prosess kjent som selvspill – konvergere til en politikk som er uslåelig i forventninger i balanserte spill,” la Meta til i avisen. "Med andre ord, ethvert endelig 2p0s-spill kan løses via selvspill med tilstrekkelig data- og modellkapasitet."

Imidlertid sa Meta angående spill som involverer samarbeid, at selvspill uten menneskelige data ikke lenger er garantert å finne en policy som fungerer godt med mennesker, selv med uendelig data- og modellkapasitet, fordi selvspillagenten kan konvergere til en policy som er uforenlig med menneskelige normer og forventninger.

Meta la til at Cicero forventer sannsynlige handlinger for hver spiller basert på styrets tilstand og dialog, og bruker det som utgangspunkt for en planleggingsalgoritme som bruker RL-trente modeller.

AI bruker en strategisk resonneringsmodul for intelligent å velge intensjoner og handlinger, sier selskapet.

Denne modulen kjører deretter en planleggingsalgoritme som forutsier retningslinjene til alle andre spillere basert på spilltilstanden og dialogen og tar hensyn til både styrken til forskjellige handlinger og sannsynligheten deres i menneskelige spill. Basert på denne informasjonen og variablene, tas den beste optimale handlingen for Cicero.

Under Metas grunnlegger og administrerende direktør Mark Zuckerberg har selskapet investert tungt i AI og metaverset for å dra nytte av den raskt voksende industrien sett på som teknologiens fremtid.

Til MetaNews.

Tidstempel:

Mer fra MetaNews