La IA vence a los humanos en Stratego: conoce a DeepNash

Nodo de origen: 1767483

Otro juego que durante mucho tiempo se creía que era muy difícil de conquistar para la inteligencia artificial (IA) ha caído en manos de los bots: Stratego.

DeepNash, una IA creada por una empresa con sede en Londres Mente profunda, ahora se une a humanos expertos en Stratego, un juego de mesa que requiere pensamiento estratégico a largo plazo contra información imperfecta.

Esta última hazaña se produce a raíz de otra gran victoria para las IA en juegos que antes se pensaba que eran el fuerte de los humanos.

La semana pasada, Cicero de Meta, una IA que puede burlar a los jugadores humanos en el juego de la Diplomacia, hizo historia por burlar a los oponentes en línea.

“La velocidad a la que la IA ha conquistado características de juegos cualitativamente diferentes, o las ha dominado a nuevos niveles, en los últimos años es bastante notable”, dice Michael Wellman de la Universidad de Michigan en Ann Arbor, un científico informático que estudia el razonamiento estratégico y los juegos. teoría.

“Stratego y Diplomacy son bastante diferentes entre sí y también poseen características desafiantes notablemente diferentes de los juegos para los que se han alcanzado hitos análogos”, dijo Wellman.

información imperfecta

El juego tiene características que generalmente son mucho más complicadas que el ajedrez, el Go o el póquer. El ajedrez, el go y el póquer han sido dominados por IA.

En el juego de Stratego, dos jugadores colocan 40 piezas cada uno en un tablero, pero no deben ver cuáles son las piezas de su oponente.

El objetivo del juego es mover piezas por turnos para eliminar las del oponente y capturar una bandera. 

El árbol de juegos de Stratego, un gráfico de todas las formas posibles en las que podría desarrollarse el juego, tiene 10535 estados frente a los 10360 de Go. 

Cuando se trata de información imperfecta al comienzo de un juego, Stratego tiene 1066 posiciones privadas posibles, una cifra que eclipsa solo 106 situaciones iniciales de este tipo en el póquer Texas Hold'em de dos jugadores.

“La gran complejidad de la cantidad de resultados posibles en Stratego significa que los algoritmos que funcionan bien en juegos de información perfecta, e incluso aquellos que funcionan para el póquer, no funcionan”, dice Julien Perolat, investigador de DeepMind con sede en París.

DeepNash fue desarrollado por Perolat y sus colegas.

Robot inspirado en Nash

El nombre del bot es un tributo al famoso matemático estadounidense John Nash, quien ideó la teoría del equilibrio de Nash que supone que hay un "conjunto estable de estrategias" que los jugadores pueden seguir de manera que ningún jugador se beneficia al cambiar de estrategia. en su propia. Como tal, los juegos tienden a tener cero, uno o muchos equilibrios de Nash.

DeepNash combina un algoritmo de aprendizaje por refuerzo y una red neuronal profunda para encontrar un equilibrio de Nash. 

Generalmente, el aprendizaje por refuerzo es donde un agente inteligente (programa de computadora) interactúa con el entorno y aprende la mejor política para dictar la acción para cada estado de un juego. 

Para tener una política óptima, DeepNash jugó un total de 5.5 millones de juegos contra sí mismo. 

En esencia, si un lado es penalizado, el otro es recompensado y las variables de la red neuronal, que representan la política, se modifican en consecuencia.

La IA vence a los humanos en Stratego: conoce a DeepMash

La IA vence a los humanos en Stratego: conoce a DeepMash

En algún momento, DeepNash converge en un equilibrio de Nash aproximado. A diferencia de otros Bots, DeepNash se optimiza a sí mismo sin sbuscando a través del árbol del juego.

Durante dos semanas, DeepNash jugó contra jugadores humanos de Stratego en la plataforma de juegos en línea Gravon.

Después de competir en 50 partidos, Ai ocupó el tercer lugar entre todos los jugadores de Gravon Stratego desde 2002. 

“Nuestro trabajo muestra que un juego tan complejo como Stratego, que involucra información imperfecta, no requiere técnicas de búsqueda para resolverlo”, dice el miembro del equipo Karl Tuyls, investigador de DeepMind con sede en París. "Este es un gran paso adelante en IA".

Otros investigadores también están impresionados por esta hazaña.

Resultados impresionantes

“Los resultados son impresionantes”, coincide Noam Brown, investigador de Meta AI, con sede en la ciudad de Nueva York, y miembro del equipo que en 2019 informó sobre la IA Pluribus4 para jugar al póquer.

En Meta, la empresa matriz de Facebook, Brown y sus colegas crearon una IA que puede jugar Diplomacia, un juego en el que siete jugadores compiten por el control geográfico de Europa moviendo piezas en un mapa.

En Diplomacia, el objetivo es tomar el control de los centros de suministro moviendo unidades (flotas y ejércitos). 

Meta dice que Cicero es bastante importante porque la IA se basa en entornos no adversos.

A diferencia del pasado, donde los grandes éxitos previos de la IA multiagente han sido en entornos puramente conflictivos, como el ajedrez, el go y el póquer, donde la comunicación no tiene valor, Cicero emplea un motor de razonamiento estratégico y un módulo de diálogo controlable.

“Cuando vas más allá de los juegos de suma cero de dos jugadores, la idea del equilibrio de Nash ya no es tan útil para jugar bien con los humanos”, dice Brown.

Brown y su equipo entrenaron a Cicero usando datos de 125,261 juegos de una versión en línea de Diplomacy con jugadores humanos. 

Usando datos de juego propio y un módulo de razonamiento estratégico (SRM), Cicero aprendió a predecir judgubg por el estado del juego y los mensajes acumulados, los movimientos probables y las políticas de los otros jugadores. 

La IA vence a los humanos en Stratego: conoce a DeepMash

La IA vence a los humanos en Stratego: conoce a DeepMash

Meta dice que recolectó datos de 125,261 juegos de Diplomacy jugados en línea en webDiplomacy.net. De estos juegos, un total de 40,408 juegos contenían diálogo, con un total de 12,901,662 mensajes intercambiados entre jugadores.

Comportamiento en el mundo real

Brown cree que los bots que juegan juegos como Cicero pueden interactuar con los humanos y dar cuenta de que "las acciones humanas subóptimas o incluso irracionales podrían allanar el camino para las aplicaciones del mundo real".

“Si está fabricando un automóvil autónomo, no quiere asumir que todos los demás conductores en la carretera son perfectamente racionales y se comportarán de manera óptima”, dice.

Cicerón, agrega, es un gran paso en esa dirección. “Todavía tenemos un pie en el mundo del juego, pero ahora también tenemos un pie en el mundo real”.

Otros, como Wellman, están de acuerdo, pero insisten en que aún queda mucho por hacer. “Muchas de estas técnicas son de hecho relevantes más allá de los juegos recreativos” para las aplicaciones del mundo real, dice. "Sin embargo, en algún momento, los principales laboratorios de investigación de IA deben ir más allá de los entornos recreativos y descubrir cómo medir el progreso científico en los 'juegos' más blandos del mundo real que realmente nos importan".

/MetaNoticias.

Sello de tiempo:

Mas de MetaNoticias