Salutăm Cicero, Cuceritorul – AI-ul învinge pe oameni în Diplomație

Nodul sursă: 1763695

Meta Platforms Inc, compania-mamă a Facebook, a declarat că a creat o IA care poate depăși oamenii într-o versiune online a popularului joc de strategie, Diplomacy, în care șapte jucători concurează pentru controlul geografic al Europei mutând piesele pe o hartă.

Într-o lucrare publicată pe Science.com, a spus Meta Cicero, a fost primul agent AI care a obținut performanțe la nivel uman în Diplomație, un joc care implică atât cooperare, cât și competiție, care pune accent pe negocierea în limbaj natural și coordonarea tactică între șapte jucători.

Într-un total de 40 de jocuri anonime de diplomație online, Meta a spus că Cicero a obținut mai mult de două ori scorul mediu al jucătorilor umani și s-a clasat în top 10% dintre participanții care au jucat mai mult de un joc.

Grupul tehnologic principal a spus că aceasta face parte din obiectivul său strategic și pe termen lung în domeniul inteligenței artificiale de a construi agenți care pot planifica, coordona și negocia cu oamenii în limbaj natural.

Cât de important este Cicero?

Meta spune că Cicero este destul de important, deoarece AI se bazează pe medii non-adversariale.

Spre deosebire de trecut, în care succesele majore anterioare pentru AI multi-agent au fost în medii pur adversare, cum ar fi șah (2), Go (3) și Poker (4), unde comunicarea nu are valoare, Cicero folosește un motor de raționament strategic și modul de dialog controlabil.

Din aceste motive, meta spune că Diplomația a servit ca un punct de referință provocator pentru învățarea multi-agenți.

„Cicero cuplează un modul de dialog controlabil cu un motor de raționament strategic. În fiecare moment al jocului, Cicero modelează modul în care este probabil să acționeze ceilalți jucători în funcție de starea jocului și de conversațiile lor”, spune Meta.

AI planifică apoi modul în care jucătorii se pot coordona în beneficiul lor reciproc și mapează aceste planuri în mesaje în limbaj natural.

Neîncredere sănătoasă

Cicero evită să aibă încredere orboasă în propunerile altor jucători și respinge planurile care au „valoare estimată” scăzută și care sunt paralele cu propriile interese.

Datorită faptului că dialogul în Diplomație are loc în mod privat între perechi de jucători, Cicero argumentează și analizează informațiile la care jucătorii au acces atunci când fac predicții.

„De exemplu, dacă Cicero coordonează un atac cu un aliat împotriva unui adversar, predicția lui Cicero cu privire la politica adversarului trebuie să țină cont de faptul că adversarul nu este conștient de coordonarea intenționată”, a spus Meta.

Meta spune că a intrat pe Cicero anonim în 40 de jocuri de Diplomație într-o ligă online de jucători umani între 19 august și 13 octombrie 2022.

Pe parcursul a 72 de ore de joc care au implicat trimiterea a 5,277 de mesaje, Cicero s-a clasat în top 10% dintre participanții care au jucat mai mult de un joc, se spune.

Meta spune că a colectat date din 125,261 de jocuri de Diplomacy jucate online pe webDiplomacy.net. Dintre aceste jocuri, un total de 40,408 jocuri conţineau dialog, cu un total de 12,901,662 de mesaje schimbate între jucători.

Solicitare: „Robot îi învinge pe toți ceilalți într-un joc de diplomație” (generat de AI).

Meta notează, noul său AI este departe de a fi perfect

Cicero a trimis mesaje care conțineau erori, uneori își contraziceau propriile planuri și făcea gafe strategice.

Dar Meta insistă că oamenii au ales totuși să colaboreze cu AI în detrimentul altor jucători fără să-și dea seama că este un Bot.

„Aproape toate progresele anterioare ale AI în jocuri au fost în setări cu sumă zero (2p0s) pentru doi jucători, inclusiv șah, Go, poker heads-up și StarCraft. În jocurile 2p0s finite, anumiți algoritmi de învățare prin întărire (RL) care învață jucând împotriva lor înșiși – un proces cunoscut sub numele de joc propriu – vor converge către o politică care este imbatabilă în așteptări în jocurile echilibrate”, a adăugat Meta în lucrare. „Cu alte cuvinte, orice joc finit 2p0s poate fi rezolvat prin joc propriu, cu o capacitate suficientă de calcul și model.”

Cu toate acestea, Meta a spus în ceea ce privește jocurile care implică cooperare, auto-play-ul fără date umane nu mai este garantat pentru a găsi o politică care să funcționeze bine cu oamenii, chiar și cu capacitate infinită de calcul și model, deoarece agentul de auto-play poate converge către o politică care este incompatibil cu normele și așteptările umane.

Meta a adăugat că Cicero anticipează acțiunile probabile pentru fiecare jucător pe baza stării tablei și a dialogului, folosindu-l ca punct de plecare pentru un algoritm de planificare folosind modele antrenate de RL.

AI folosește un modul de raționament strategic pentru a selecta inteligent intențiile și acțiunile, spune compania.

Acest modul rulează apoi un algoritm de planificare care prezice politicile tuturor celorlalți jucători pe baza stării jocului și a dialogului și ține cont atât de puterea diferitelor acțiuni, cât și de probabilitatea lor în jocurile umane. Pe baza acestor informații și variabile, se ia cea mai bună acțiune optimă pentru Cicero.

Sub fondatorul și CEO-ul Meta Mark Zuckerberg, compania a investit masiv în AI și metavers pentru a profita de industria în creștere rapidă văzută ca viitorul tehnologiei.

Pentru MetaNews.

Timestamp-ul:

Mai mult de la MetaNews