Alla hej Cicero, Erövraren – AI slår människor i diplomati

Återutgiven av Platon

anhängare: 0

Meta Platforms Inc, moderbolaget till Facebook, sa att det har skapat en AI som kan överlista människor i en onlineversion av det populära strategispelet Diplomacy, där sju spelare tävlar om geografisk kontroll över Europa genom att flytta runt pjäser på en karta.

I en tidning publicerad på Science.com, sa Meta Cicero, var den första AI-agenten som uppnådde prestanda på mänsklig nivå i Diplomacy, ett spel som involverade både samarbete och konkurrens som betonar naturliga språkförhandlingar och taktisk samordning mellan sju spelare.

I totalt 40 anonyma online-diplomatispel, sa Meta att Cicero hade uppnått mer än dubbelt så mycket medelpoäng som de mänskliga spelarna och rankades bland de 10 % bästa deltagarna som spelade mer än ett spel.

Den ledande teknikgruppen sa att detta var en del av dess strategiska och långsiktiga mål inom området artificiell intelligens att bygga agenter som kan planera, samordna och förhandla med människor på naturligt språk.

Hur viktig är Cicero?

Meta säger att Cicero är ganska betydelsefull eftersom AI förlitar sig på icke-motstridiga miljöer.

Till skillnad från tidigare stora framgångar för multiagent AI har varit i rent kontradiktoriska miljöer, som schack (2), Go (3) och Poker (4), där kommunikation inte har något värde, använder Cicero en strategisk resonemangsmotor och kontrollerbar dialogmodul.

Av dessa skäl säger meta att diplomati har fungerat som ett utmanande riktmärke för lärande med flera agenter.

”Cicero kopplar ihop en kontrollerbar dialogmodul med en strategisk resonemangsmotor. Vid varje punkt i spelet modellerar Cicero hur de andra spelarna sannolikt kommer att agera baserat på speltillståndet och deras konversationer, säger Meta.

AI:n planerar sedan hur spelarna kan samordna sig till ömsesidig nytta och mappar dessa planer till meddelanden på naturliga språk.

Sund misstro

Cicero undviker att blint lita på förslag från andra spelare och avvisar planer som har lågt "förutspått värde" och som löper parallellt med dess egna intressen.

På grund av att dialogen i diplomati sker privat mellan spelare, resonerar och analyserar Cicero den information som spelarna har tillgång till när de gör förutsägelser.

"Till exempel, om Cicero samordnar en attack med en allierad mot en motståndare, måste Ciceros förutsägelse av motståndarens policy ta hänsyn till det faktum att motståndaren inte är medveten om den avsedda samordningen", sa Meta.

Meta säger att det gick in i Cicero anonymt i 40 matcher av Diplomacy i en onlineliga av mänskliga spelare mellan 19 augusti och 13 oktober 2022.

Under 72 timmars spel som involverade att skicka 5,277 10 meddelanden, rankades Cicero bland de XNUMX % bästa deltagarna som spelade mer än ett spel, stod det.

Meta säger att de har samlat in data från 125,261 40,408 spel av Diplomacy spelade online på webDiplomacy.net. Av dessa spel innehöll totalt 12,901,662 XNUMX spel dialog, med totalt XNUMX XNUMX XNUMX meddelanden utbytta mellan spelare.

Uppmaning: "Robot slår alla andra i en omgång diplomati" (AI-genererad).

Meta noterar, dess nya AI är långt ifrån perfekt

Cicero skickade meddelanden som innehöll fel, ibland motsatte sig sina egna planer och gjorde strategiska misstag.

Men Meta insisterar på att människor ändå valde att samarbeta med AI framför andra spelare utan att inse att det var en bot.

"Nästan alla tidigare AI-genombrott i spel har varit i nollsummeinställningar för två spelare (2p0s), inklusive schack, Go, heads-up poker och StarCraft. I ändliga 2p0s-spel kommer vissa förstärkningsinlärningsalgoritmer (RL) som lär sig genom att spela mot sig själva – en process som kallas självspel – att konvergera till en policy som är oslagbar i förväntan i balanserade spel,” tillade Meta i tidningen. "Med andra ord kan alla ändliga 2p0s-spel lösas via självspel med tillräcklig beräknings- och modellkapacitet."

Men Meta sa angående spel som involverar samarbete, att självspel utan mänskliga data inte längre garanterat att hitta en policy som fungerar bra med människor, även med oändlig beräknings- och modellkapacitet, eftersom självspelsagenten kan konvergera till en policy som är oförenlig med mänskliga normer och förväntningar.

Meta tillade att Cicero förutser sannolika åtgärder för varje spelare baserat på styrelsens tillstånd och dialog, och använder det som utgångspunkt för en planeringsalgoritm som använder RL-tränade modeller.

AI använder en strategisk resonemangsmodul för att intelligent välja avsikter och handlingar, säger företaget.

Den här modulen kör sedan en planeringsalgoritm som förutsäger alla andra spelares policy baserat på speltillståndet och dialogen och redogör för både styrkan hos olika handlingar och deras sannolikhet i mänskliga spel. Baserat på denna information och variabler vidtas den bästa optimala åtgärden för Cicero.

Under Metas grundare och vd Mark Zuckerberg har företaget satsat hårt på AI och metaversen för att dra fördel av den snabbt växande industrin som ses som teknikens framtid.

För MetaNews.

Tidsstämpel: November 28, 2022November 29, 2022