Saluden a Cicero, el Conquistador: la IA vence a los humanos en Diplomacia

Nodo de origen: 1763695

Meta Platforms Inc, la empresa matriz de Facebook, dijo que ha creado una IA que puede ser más astuta que los humanos en una versión en línea del popular juego de estrategia Diplomacy, donde siete jugadores compiten por el control geográfico de Europa moviendo piezas en un mapa.

En un artículo publicado en Science.com, Meta dijo Cicero, fue el primer agente de IA en lograr un desempeño a nivel humano en Diplomacia, un juego que involucra tanto la cooperación como la competencia que enfatiza la negociación del lenguaje natural y la coordinación táctica entre siete jugadores.

En un total de 40 juegos anónimos de Diplomacia en línea, Meta dijo que Cicero había logrado más del doble del puntaje promedio de los jugadores humanos y se ubicó en el 10% superior de los participantes que jugaron más de un juego.

El grupo tecnológico líder dijo que esto era parte de su objetivo estratégico y a largo plazo en el campo de la inteligencia artificial para construir agentes que puedan planificar, coordinar y negociar con humanos en lenguaje natural.

¿Qué tan importante es Cicerón?

Meta dice que Cicero es bastante importante porque la IA se basa en entornos no adversos.

A diferencia del pasado, donde los grandes éxitos previos de la IA multiagente han sido en entornos puramente contradictorios, como el ajedrez (2), el go (3) y el póquer (4), donde la comunicación no tiene valor, Cicero emplea un motor de razonamiento estratégico. y módulo de diálogo controlable.

Por estas razones, meta dice que Diplomacy ha servido como un punto de referencia desafiante para el aprendizaje de múltiples agentes.

“Cicero combina un módulo de diálogo controlable con un motor de razonamiento estratégico. En cada punto del juego, Cicero modela cómo es probable que actúen los otros jugadores según el estado del juego y sus conversaciones”, dice Meta.

Luego, la IA planifica cómo los jugadores pueden coordinarse para su beneficio mutuo y mapea estos planes en mensajes de lenguaje natural.

Saludable desconfianza

Cicero evita confiar ciegamente en las propuestas de otros jugadores y rechaza los planes que tienen un bajo "valor previsto" y que corren paralelos a sus propios intereses.

Debido al hecho de que el diálogo en Diplomacia ocurre en privado entre parejas de jugadores, Cicerón razona y analiza la información a la que los jugadores tienen acceso cuando hacen predicciones.

“Por ejemplo, si Cicero está coordinando un ataque con un aliado contra un adversario, la predicción de Cicero sobre la política del adversario debe tener en cuenta el hecho de que el adversario no es consciente de la coordinación prevista”, dijo Meta.

Meta dice que ingresó a Cicero de forma anónima en 40 juegos de Diplomacia en una liga en línea de jugadores humanos entre el 19 de agosto y el 13 de octubre de 2022.

En el transcurso de 72 horas de juego que implicó el envío de 5,277 mensajes, Cicero se ubicó en el 10% superior de los participantes que jugaron más de un juego, dijo.

Meta dice que recolectó datos de 125,261 juegos de Diplomacy jugados en línea en webDiplomacy.net. De estos juegos, un total de 40,408 juegos contenían diálogo, con un total de 12,901,662 mensajes intercambiados entre jugadores.

Aviso: "Robot venciendo a todos los demás en un juego de diplomacia" (generado por IA).

Metanotas, su nueva IA está lejos de ser perfecta

Cicerón envió mensajes que contenían errores, a veces contradecían sus propios planes y cometían errores estratégicos.

Pero Meta insiste en que, no obstante, los humanos eligieron colaborar con la IA sobre otros jugadores sin darse cuenta de que era un Bot.

“Casi todos los avances previos de la IA en los juegos han sido en configuraciones de dos jugadores de suma cero (2p0s), incluidos el ajedrez, el Go, el póquer mano a mano y StarCraft. En juegos finitos de 2p0s, ciertos algoritmos de aprendizaje por refuerzo (RL) que aprenden jugando contra sí mismos, un proceso conocido como auto-juego, convergerán en una política que es imbatible en expectativa en juegos equilibrados”, agregó Meta en el documento. “En otras palabras, cualquier juego finito de 2p0s se puede resolver a través del juego automático con suficiente capacidad de cómputo y modelo”.

Sin embargo, Meta dijo que con respecto a los juegos que implican cooperación, ya no se garantiza que el juego automático sin datos humanos encuentre una política que funcione bien con los humanos, incluso con una capacidad infinita de cómputo y modelo, porque el agente de juego automático puede converger en una política que es incompatible con las normas y expectativas humanas.

Meta agregó que Cicero anticipa acciones probables para cada jugador en función del estado del tablero y el diálogo, usándolo como punto de partida para un algoritmo de planificación que utiliza modelos entrenados en RL.

La IA utiliza un módulo de razonamiento estratégico para seleccionar intenciones y acciones de manera inteligente, dice la compañía.

Luego, este módulo ejecuta un algoritmo de planificación que predice las políticas de todos los demás jugadores según el estado del juego y el diálogo, y da cuenta tanto de la fuerza de las diferentes acciones como de su probabilidad en los juegos humanos. Con base en esta información y variables, se toma la mejor acción óptima para Cicero.

Bajo la dirección del fundador y CEO de Meta, Mark Zuckerberg, la compañía ha estado invirtiendo fuertemente en IA y el metaverso para aprovechar la industria de rápido crecimiento que se considera el futuro de la tecnología.

MetaNoticias.

Sello de tiempo:

Mas de MetaNoticias