Salut à tous Cicéron, le Conquérant - L'IA bat les humains dans la diplomatie

Nœud source: 1763695

Meta Platforms Inc, la société mère de Facebook, a déclaré avoir créé une IA capable de déjouer les humains dans une version en ligne du jeu de stratégie populaire Diplomacy, où sept joueurs s'affrontent pour le contrôle géographique de l'Europe en déplaçant des pièces sur une carte.

Dans un article publié sur Science.com, Meta a déclaré Cicero a été le premier agent d'intelligence artificielle à atteindre des performances de niveau humain dans Diplomacy, un jeu impliquant à la fois la coopération et la compétition qui met l'accent sur la négociation en langage naturel et la coordination tactique entre sept joueurs.

Sur un total de 40 jeux anonymes de diplomatie en ligne, Meta a déclaré que Cicéron avait obtenu plus du double du score moyen des joueurs humains et s'était classé parmi les 10 % des meilleurs participants ayant joué plus d'un match.

Le groupe technologique leader a déclaré que cela faisait partie de son objectif stratégique et à long terme dans le domaine de l'intelligence artificielle pour créer des agents capables de planifier, de coordonner et de négocier avec les humains en langage naturel.

Quelle est l'importance de Cicéron ?

Meta dit que Cicero est assez important car l'IA repose sur des environnements non contradictoires.

Contrairement au passé où les succès majeurs antérieurs de l'IA multi-agents se sont produits dans des environnements purement contradictoires, tels que les échecs (2), le go (3) et le poker (4), où la communication n'a aucune valeur, Cicero utilise un moteur de raisonnement stratégique. et module de dialogue contrôlable.

Pour ces raisons, la méta dit que la diplomatie a servi de référence difficile pour l'apprentissage multi-agents.

« Cicero couple un module de dialogue pilotable avec un moteur de raisonnement stratégique. À chaque étape du jeu, Cicero modélise la manière dont les autres joueurs sont susceptibles d'agir en fonction de l'état du jeu et de leurs conversations », explique Meta.

L'IA planifie ensuite comment les joueurs peuvent se coordonner dans leur intérêt mutuel et mappe ces plans en messages en langage naturel.

Méfiance saine

Cicéron évite de faire aveuglément confiance aux propositions des autres joueurs et rejette les plans qui ont une faible « valeur prévue » et qui vont de pair avec ses propres intérêts.

Étant donné que le dialogue dans Diplomatie se produit en privé entre des paires de joueurs, Cicéron raisonne et analyse les informations auxquelles les joueurs ont accès lorsqu'ils font des prédictions.

"Par exemple, si Cicéron coordonne une attaque avec un allié contre un adversaire, la prédiction de Cicéron sur la politique de l'adversaire doit tenir compte du fait que l'adversaire n'est pas conscient de la coordination prévue", a déclaré Meta.

Meta dit qu'il est entré anonymement dans Cicero dans 40 matchs de Diplomacy dans une ligue en ligne de joueurs humains entre le 19 août et le 13 octobre 2022.

Au cours de 72 heures de jeu qui ont nécessité l'envoi de 5,277 10 messages, Cicero s'est classé parmi les XNUMX% des meilleurs participants qui ont joué à plus d'un jeu, a-t-il déclaré.

Meta dit avoir collecté des données sur 125,261 40,408 parties de Diplomacy jouées en ligne sur webDiplomacy.net. Parmi ces jeux, un total de 12,901,662 XNUMX jeux contenaient des dialogues, avec un total de XNUMX XNUMX XNUMX messages échangés entre les joueurs.

Invite : "Robot battant tout le monde dans un jeu de diplomatie" (généré par l'IA).

Meta notes, sa nouvelle IA est loin d'être parfaite

Cicéron a envoyé des messages contenant des erreurs, contredisant parfois ses propres plans et commis des erreurs stratégiques.

Mais Meta insiste sur le fait que les humains ont néanmoins choisi de collaborer avec l'IA plutôt qu'avec d'autres joueurs sans se rendre compte qu'il s'agissait d'un bot.

"Presque toutes les percées antérieures de l'IA dans les jeux ont eu lieu dans des paramètres à somme nulle (2p0s) à deux joueurs, y compris les échecs, le Go, le poker tête-à-tête et StarCraft. Dans les jeux finis 2p0s, certains algorithmes d'apprentissage par renforcement (RL) qui apprennent en jouant contre eux-mêmes – un processus connu sous le nom de jeu autonome – convergeront vers une politique imbattable en termes d'attentes dans les jeux équilibrés », a ajouté Meta dans l'article. "En d'autres termes, n'importe quel jeu 2p0 fini peut être résolu via l'auto-jeu avec une capacité de calcul et de modélisation suffisante."

Cependant, Meta a déclaré en ce qui concerne les jeux impliquant la coopération, l'auto-jeu sans données humaines n'est plus garanti pour trouver une politique qui fonctionne bien avec les humains, même avec une capacité de calcul et de modèle infinie, car l'agent d'auto-jeu peut converger vers une politique qui est incompatible avec les normes et les attentes humaines.

Meta a ajouté que Cicero anticipe les actions probables de chaque joueur en fonction de l'état du plateau et du dialogue, en utilisant cela comme point de départ pour un algorithme de planification utilisant des modèles formés par RL.

L'IA utilise un module de raisonnement stratégique pour sélectionner intelligemment les intentions et les actions, explique la société.

Ce module exécute ensuite un algorithme de planification qui prédit les politiques de tous les autres joueurs en fonction de l'état du jeu et du dialogue et tient compte à la fois de la force des différentes actions et de leur probabilité dans les jeux humains. Sur la base de ces informations et variables, la meilleure action optimale pour Cicero est prise.

Sous la direction du fondateur et PDG de Meta, Mark Zuckerberg, la société a investi massivement dans l'IA et le métaverse pour tirer parti de l'industrie à croissance rapide considérée comme l'avenir de la technologie.

Pour MétaActualités.

Horodatage:

Plus de MétaActualités