Tutti acclamano Cicerone, il Conquistatore: l'IA batte gli umani in Diplomazia

Nodo di origine: 1763695

Meta Platforms Inc, la società madre di Facebook, ha affermato di aver creato un'intelligenza artificiale in grado di superare in astuzia gli umani in una versione online del popolare gioco di strategia, Diplomacy, in cui sette giocatori competono per il controllo geografico dell'Europa spostando i pezzi su una mappa.

In un articolo pubblicato su Science.com, ha detto Meta Cicero, è stato il primo agente di intelligenza artificiale a raggiungere prestazioni a livello umano in Diplomacy, un gioco che coinvolge sia la cooperazione che la competizione che enfatizza la negoziazione del linguaggio naturale e il coordinamento tattico tra sette giocatori.

In un totale di 40 partite anonime di Diplomacy online, Meta ha affermato che Cicerone ha ottenuto più del doppio del punteggio medio dei giocatori umani e si è classificato nel 10% dei partecipanti che hanno giocato più di una partita.

Il gruppo tecnologico leader ha affermato che questo faceva parte del suo obiettivo strategico ea lungo termine nel campo dell'intelligenza artificiale per costruire agenti in grado di pianificare, coordinare e negoziare con gli umani in linguaggio naturale.

Quanto è importante Cicerone?

Meta afferma che Cicerone è piuttosto significativo perché l'intelligenza artificiale si basa su ambienti non contraddittori.

A differenza del passato, dove i maggiori successi precedenti per l'IA multi-agente sono stati in ambienti puramente contraddittori, come Scacchi (2), Go (3) e Poker (4), dove la comunicazione non ha valore, Cicerone impiega un motore di ragionamento strategico e modulo di dialogo controllabile.

Per questi motivi, meta afferma che Diplomacy è stata un punto di riferimento stimolante per l'apprendimento multi-agente.

“Cicerone accoppia un modulo di dialogo controllabile con un motore di ragionamento strategico. In ogni momento del gioco, Cicerone modella il modo in cui gli altri giocatori probabilmente agiranno in base allo stato del gioco e alle loro conversazioni", afferma Meta.

L'intelligenza artificiale quindi pianifica come i giocatori possono coordinarsi a reciproco vantaggio e mappa questi piani in messaggi in linguaggio naturale.

Sana diffidenza

Cicerone evita di fidarsi ciecamente delle proposte di altri giocatori e rifiuta i piani che hanno un basso "valore previsto" e che corrono paralleli ai propri interessi.

Poiché il dialogo in Diplomacy avviene privatamente tra coppie di giocatori, Cicerone ragiona e analizza le informazioni a cui i giocatori hanno accesso quando fanno previsioni.

"Ad esempio, se Cicerone sta coordinando un attacco con un alleato contro un avversario, la previsione di Cicerone della politica dell'avversario deve tenere conto del fatto che l'avversario non è a conoscenza del coordinamento previsto", ha affermato Meta.

Meta afferma di aver inserito Cicerone in modo anonimo in 40 partite di Diplomazia in un campionato online di giocatori umani tra il 19 agosto e il 13 ottobre 2022.

Nel corso di 72 ore di gioco che hanno comportato l'invio di 5,277 messaggi, Cicerone si è classificato nel 10% dei migliori partecipanti che hanno giocato più di un gioco, ha affermato.

Meta afferma di aver raccolto dati da 125,261 partite di Diplomacy giocate online su webDiplomacy.net. Di questi giochi, un totale di 40,408 giochi contenevano dialoghi, con un totale di 12,901,662 messaggi scambiati tra i giocatori.

Prompt: "Robot che batte tutti gli altri in un gioco di diplomazia" (generato dall'IA).

Meta osserva, la sua nuova IA è tutt'altro che perfetta

Cicerone inviava messaggi che contenevano errori, a volte contraddicevano i propri piani e commettevano errori strategici.

Ma Meta insiste sul fatto che gli umani hanno comunque scelto di collaborare con l'IA rispetto ad altri giocatori senza rendersi conto che si trattava di un robot.

“Quasi tutte le precedenti scoperte dell'IA nei giochi sono avvenute in impostazioni a somma zero (2p0) per due giocatori, inclusi scacchi, Go, poker heads-up e StarCraft. Nei giochi 2p0 finiti, alcuni algoritmi di apprendimento per rinforzo (RL) che apprendono giocando contro se stessi, un processo noto come self-play, convergeranno verso una politica che è imbattibile nelle aspettative nei giochi equilibrati ", ha aggiunto Meta nel documento. "In altre parole, qualsiasi gioco 2p0 finito può essere risolto tramite self-play con capacità di calcolo e modello sufficienti."

Tuttavia, Meta ha affermato che per quanto riguarda i giochi che implicano la cooperazione, il gioco autonomo senza dati umani non è più garantito per trovare una politica che funzioni bene con gli umani, anche con capacità di calcolo e modello infinite, perché l'agente di gioco autonomo può convergere verso una politica che è incompatibile con le norme e le aspettative umane.

Meta ha aggiunto che Cicerone anticipa le azioni probabili per ciascun giocatore in base allo stato del tabellone e al dialogo, utilizzandolo come punto di partenza per un algoritmo di pianificazione che utilizza modelli addestrati da RL.

L'intelligenza artificiale utilizza un modulo di ragionamento strategico per selezionare in modo intelligente intenti e azioni, afferma l'azienda.

Questo modulo esegue quindi un algoritmo di pianificazione che prevede le politiche di tutti gli altri giocatori in base allo stato del gioco e al dialogo e tiene conto sia della forza delle diverse azioni sia della loro probabilità nei giochi umani. Sulla base di queste informazioni e variabili, viene intrapresa la migliore azione ottimale per Cicerone.

Sotto il fondatore e CEO di Meta, Mark Zuckerberg, l'azienda ha investito molto nell'intelligenza artificiale e nel metaverso per trarre vantaggio dal settore in rapida crescita visto come il futuro della tecnologia.

Nel MetaNotizie.

Timestamp:

Di più da MetaNotizie