Pozdravljeni Ciceron, osvajalec – AI premaga ljudi v diplomaciji

Izvorno vozlišče: 1763695

Meta Platforms Inc, matična družba Facebooka, je dejala, da je ustvarila AI, ki lahko prelisiči ljudi v spletni različici priljubljene strateške igre Diplomacy, kjer se sedem igralcev tekmuje za geografski nadzor nad Evropo s premikanjem kosov po zemljevidu.

V članku, objavljenem na Science.com, je dejala Meta Cicero je bil prvi agent umetne inteligence, ki je dosegel zmogljivost na človeški ravni v diplomaciji, igri, ki vključuje sodelovanje in tekmovanje, ki poudarja pogajanja v naravnem jeziku in taktično koordinacijo med sedmimi igralci.

V skupno 40 anonimnih igrah spletne diplomacije je Meta dejala, da je Cicero dosegel več kot dvojno povprečno oceno človeških igralcev in se uvrstil med 10 % najboljših udeležencev, ki so igrali več kot eno igro.

Vodilna tehnološka skupina je dejala, da je to del njenega strateškega in dolgoročnega cilja na področju umetne inteligence za izgradnjo agentov, ki lahko načrtujejo, usklajujejo in se pogajajo z ljudmi v naravnem jeziku.

Kako pomemben je Cicero?

Meta pravi, da je Cicero precej pomemben, ker se umetna inteligenca opira na okolja, ki niso nasprotna.

Za razliko od preteklosti, kjer so bili predhodni veliki uspehi večagentne umetne inteligence doseženi v povsem tekmovalnih okoljih, kot so šah (2), go (3) in poker (4), kjer komunikacija nima nobene vrednosti, Cicero uporablja mehanizem strateškega sklepanja. in nadzorovan dialog modul.

Iz teh razlogov meta pravi, da je diplomacija služila kot zahtevno merilo za učenje z več agenti.

»Cicero združuje modul za dialog, ki ga je mogoče nadzorovati, z mehanizmom za strateško razmišljanje. Na vsaki točki igre Cicero modelira, kako bodo drugi igralci verjetno ravnali glede na stanje igre in njihove pogovore,« pravi Meta.

Umetna inteligenca nato načrtuje, kako se lahko igralci uskladijo v skupno korist, in preslika te načrte v sporočila naravnega jezika.

Zdravo nezaupanje

Cicero se izogiba slepemu zaupanju predlogom drugih igralcev in zavrača načrte, ki imajo nizko "predvideno vrednost" in ki tečejo vzporedno z njegovimi lastnimi interesi.

Zaradi dejstva, da dialog v diplomaciji poteka zasebno med pari igralcev, Cicero razmišlja in analizira informacije, do katerih imajo igralci dostop, ko napovedujejo.

»Na primer, če Ciceron usklajuje napad z zaveznikom proti nasprotniku, mora Ciceronova napoved nasprotnikove politike upoštevati dejstvo, da se nasprotnik ne zaveda nameravane koordinacije,« je dejal Meta.

Meta pravi, da je anonimno prijavila Cicero v 40 igrah Diplomacy v spletni ligi človeških igralcev med 19. avgustom in 13. oktobrom 2022.

V 72 urah igranja, ki je vključevalo pošiljanje 5,277 sporočil, se je Cicero uvrstil med 10 % najboljših udeležencev, ki so igrali več kot eno igro, so zapisali.

Meta pravi, da je zbrala podatke iz 125,261 iger Diplomacy, igranih na spletu na webDiplomacy.net. Od teh iger je skupno 40,408 iger vsebovalo dialog, s skupno 12,901,662 izmenjanimi sporočili med igralci.

Poziv: "Robot premaga vse druge v igri diplomacije" (ustvarjeno z umetno inteligenco).

Meta ugotavlja, da njegov novi AI še zdaleč ni popoln

Cicero je pošiljal sporočila, ki so vsebovala napake, včasih so bila v nasprotju z njegovimi načrti in delala strateške napake.

Toda Meta vztraja, da so se ljudje kljub temu odločili sodelovati z AI namesto z drugimi igralci, ne da bi se zavedali, da je to bot.

»Skoraj vsi predhodni preboji umetne inteligence v igrah so bili v nastavitvah z ničelno vsoto (2p0s) za dva igralca, vključno s šahom, Go, heads-up pokrom in StarCraftom. V igrah s končnimi 2p0s se bodo določeni algoritmi učenja z okrepitvijo (RL), ki se učijo z igranjem sami proti sebi – proces, znan kot igranje samega sebe – zbližali v politiko, ki je nepremagljiva v pričakovanjih v uravnoteženih igrah,« je dodal Meta v prispevku. "Z drugimi besedami, vsako končno igro 2p0s je mogoče rešiti s samoigranjem z zadostno zmogljivostjo računanja in modela."

Vendar je Meta glede iger, ki vključujejo sodelovanje, dejala, da samoigranje brez človeških podatkov ni več zagotovljeno, da bo našlo politiko, ki dobro deluje z ljudmi, tudi z neskončno zmogljivostjo računanja in modela, ker lahko agent za samoigranje konvergira k politiki, ki je nezdružljivo s človeškimi normami in pričakovanji.

Meta je dodal, da Cicero predvideva verjetna dejanja za vsakega igralca na podlagi stanja plošče in dialoga, pri čemer to uporabi kot izhodišče za algoritem načrtovanja z uporabo modelov, usposobljenih za RL.

AI uporablja modul strateškega razmišljanja za inteligentno izbiro namenov in dejanj, pravijo v podjetju.

Ta modul nato zažene algoritem za načrtovanje, ki na podlagi stanja igre in dialoga napove politike vseh drugih igralcev ter upošteva moč različnih dejanj in njihovo verjetnost v človeških igrah. Na podlagi teh informacij in spremenljivk se sprejme najboljši optimalni ukrep za Cicerona.

Pod ustanoviteljem in izvršnim direktorjem Mete Markom Zuckerbergom je podjetje veliko vlagalo v umetno inteligenco in metaverzum, da bi izkoristilo hitro rastočo industrijo, ki velja za prihodnost tehnologije.

za MetaNovice.

Časovni žig:

Več od MetaNovice