L'IA bat les humains dans Stratego - Rencontrez DeepNash

Nœud source: 1767483

Un autre jeu longtemps considéré comme très difficile à conquérir pour l'intelligence artificielle (IA) est tombé aux mains des bots : Stratego.

DeepNash, une IA créée par une société basée à Londres DeepMind, correspond désormais aux humains experts de Stratego, un jeu de société nécessitant une réflexion stratégique à long terme contre des informations imparfaites.

Ce dernier exploit fait suite à une autre victoire majeure pour les IA dans des jeux que l'on croyait auparavant être le point fort des humains.

La semaine dernière, Cicero de Meta, une IA qui peut déjouer les joueurs humains au jeu de la diplomatie, est entré dans l'histoire en déjouant les adversaires en ligne.

"La vitesse à laquelle des fonctionnalités de jeu qualitativement différentes ont été conquises - ou maîtrisées à de nouveaux niveaux - par l'IA ces dernières années est assez remarquable", déclare Michael Wellman de l'Université du Michigan à Ann Arbor, un informaticien qui étudie le raisonnement stratégique et le jeu. la théorie.

"Stratego et Diplomacy sont assez différents l'un de l'autre et possèdent également des caractéristiques stimulantes particulièrement différentes des jeux pour lesquels des jalons analogues ont été atteints", a déclaré Wellman.

Informations imparfaites

Le jeu a des caractéristiques généralement beaucoup plus compliquées que les échecs, le Go ou le poker. Les échecs, le go et le poker ont tous été maîtrisés par des IA.

Dans le jeu de Stratego, deux joueurs placent 40 pièces chacun sur un plateau, mais ne doivent pas voir quelles sont les pièces de leur adversaire.

L'objectif du jeu est de déplacer des pièces à tour de rôle pour éliminer celles de l'adversaire et s'emparer d'un drapeau. 

L'arbre de jeu de Stratego - un graphique de toutes les façons possibles dont le jeu pourrait se dérouler - a 10535 états contre 10360 pour Go. 

En ce qui concerne les informations imparfaites au début d'un jeu, Stratego a 1066 positions privées possibles, un chiffre qui éclipse seulement 106 de ces situations de départ au poker Texas Hold'em à deux joueurs.

"La simple complexité du nombre de résultats possibles dans Stratego signifie que les algorithmes qui fonctionnent bien sur les jeux à information parfaite, et même ceux qui fonctionnent pour le poker, ne fonctionnent pas", explique Julien Perolat, chercheur de DeepMind basé à Paris.

DeepNash a été développé par Perolat et ses collègues.

Robot inspiré de Nash

Le nom du bot est un hommage au célèbre mathématicien américain John Nash, qui a proposé la théorie de l'équilibre de Nash qui suppose qu'il existe un "ensemble stable de stratégies" qui peut être suivi par les joueurs d'une manière dont aucun joueur ne profite en changeant de stratégie. par eux-même. En tant que tels, les jeux ont tendance à avoir zéro, un ou plusieurs équilibres de Nash.

DeepNash combine un algorithme d'apprentissage par renforcement et un réseau neuronal profond pour trouver un équilibre de Nash. 

Généralement, l'apprentissage par renforcement est l'endroit où un agent intelligent (programme informatique) interagit avec l'environnement et apprend la meilleure politique pour dicter l'action pour chaque état d'un jeu. 

Afin d'avoir une politique optimale, DeepNash a joué un total de 5.5 milliards de jeux contre lui-même. 

Essentiellement, si un côté est pénalisé, l'autre est récompensé et les variables du réseau de neurones - qui représentent la politique - sont modifiées en conséquence.

L'IA bat les humains dans Stratego - Découvrez DeepMash

L'IA bat les humains dans Stratego - Découvrez DeepMash

À un moment donné, DeepNash converge vers un équilibre de Nash approximatif. Contrairement aux autres robots, DeepNash s'optimise sans sen parcourant l'arbre du jeu.

Pendant une durée de deux semaines, DeepNash a joué contre des joueurs humains de Stratego sur la plateforme de jeux en ligne, Gravon.

Après avoir disputé 50 matchs, l'Ai a été classé troisième parmi tous les joueurs de Gravon Stratego depuis 2002. 

"Notre travail montre qu'un jeu aussi complexe que Stratego, impliquant des informations imparfaites, ne nécessite pas de techniques de recherche pour le résoudre", explique Karl Tuyls, membre de l'équipe et chercheur de DeepMind basé à Paris. "C'est un très grand pas en avant dans l'IA."

D'autres chercheurs sont également impressionnés par cet exploit.

Des résultats impressionnants

"Les résultats sont impressionnants", reconnaît Noam Brown, chercheur à Meta AI, dont le siège est à New York, et membre de l'équipe qui a rapporté en 2019 le jeu de poker AI Pluribus4.

Chez Meta, la société mère de Facebook, Brown et ses collègues ont construit une IA capable de jouer à Diplomacy, un jeu où sept joueurs s'affrontent pour le contrôle géographique de l'Europe en déplaçant des pièces sur une carte.

En diplomatie, le but est de prendre le contrôle des centres de ravitaillement en déplaçant des unités (flottes et armées). 

Meta dit que Cicero est assez important car l'IA repose sur des environnements non contradictoires.

Contrairement au passé où les succès majeurs de l'IA multi-agents se sont produits dans des environnements purement contradictoires, tels que les échecs, le go et le poker, où la communication n'a aucune valeur, Cicero utilise un moteur de raisonnement stratégique et un module de dialogue contrôlable.

"Lorsque vous allez au-delà des jeux à somme nulle à deux joueurs, l'idée de l'équilibre de Nash n'est plus aussi utile pour bien jouer avec les humains", déclare Brown.

Brown et son équipe ont formé Cicero en utilisant les données de 125,261 XNUMX parties d'une version en ligne de Diplomacy impliquant des joueurs humains. 

En utilisant des données d'auto-jeu et un module de raisonnement stratégique (SRM), Cicero a appris à prédire le judgubg par l'état du jeu et les messages accumulés, les mouvements probables et les politiques des autres joueurs. 

L'IA bat les humains dans Stratego - Découvrez DeepMash

L'IA bat les humains dans Stratego - Découvrez DeepMash

Meta dit avoir collecté des données sur 125,261 40,408 parties de Diplomacy jouées en ligne sur webDiplomacy.net. Parmi ces jeux, un total de 12,901,662 XNUMX jeux contenaient des dialogues, avec un total de XNUMX XNUMX XNUMX messages échangés entre les joueurs.

Comportement dans le monde réel

Brown pense que les bots de jeu comme Cicero peuvent interagir avec les humains et expliquer "des actions humaines sous-optimales ou même irrationnelles pourraient ouvrir la voie à des applications dans le monde réel".

"Si vous fabriquez une voiture autonome, vous ne voulez pas supposer que tous les autres conducteurs sur la route sont parfaitement rationnels et vont se comporter de manière optimale", dit-il.

Cicéron, ajoute-t-il, est un grand pas dans cette direction. "Nous avons toujours un pied dans le monde du jeu, mais maintenant nous avons aussi un pied dans le monde réel."

D'autres, comme Wellman, sont d'accord, mais insistent sur le fait qu'il reste encore du travail à faire. "Beaucoup de ces techniques sont en effet pertinentes au-delà des jeux récréatifs" pour les applications du monde réel, dit-il. "Néanmoins, à un moment donné, les principaux laboratoires de recherche sur l'IA doivent aller au-delà des paramètres récréatifs et trouver comment mesurer les progrès scientifiques sur les" jeux "du monde réel les plus spongieux qui nous intéressent réellement."

/MétaActualités.

Horodatage:

Plus de MétaActualités