Todos saúdam Cícero, o Conquistador – IA supera humanos em Diplomacia

Nó Fonte: 1763695

A Meta Platforms Inc, empresa controladora do Facebook, disse que criou uma IA que pode ser mais esperta que os humanos em uma versão online do popular jogo de estratégia Diplomacy, onde sete jogadores competem pelo controle geográfico da Europa movendo peças em um mapa.

Em um artigo publicado no Science.com, Meta disse Cicero foi o primeiro agente de IA a atingir desempenho de nível humano em Diplomacy, um jogo que envolve cooperação e competição que enfatiza a negociação em linguagem natural e a coordenação tática entre sete jogadores.

Em um total de 40 partidas anônimas de Diplomacia online, Meta disse que Cícero alcançou mais que o dobro da pontuação média dos jogadores humanos e ficou entre os 10% melhores participantes que jogaram mais de uma partida.

O grupo líder em tecnologia disse que isso faz parte de seu objetivo estratégico e de longo prazo no campo da inteligência artificial para construir agentes que possam planejar, coordenar e negociar com humanos em linguagem natural.

Qual a importância de Cícero?

Meta diz que Cicero é bastante significativo porque a IA depende de ambientes não adversários.

Ao contrário do passado, onde os principais sucessos anteriores da IA ​​multiagente ocorreram em ambientes puramente adversários, como Xadrez (2), Go (3) e Pôquer (4), onde a comunicação não tem valor, Cícero emprega um mecanismo de raciocínio estratégico e módulo de diálogo controlável.

Por esses motivos, a meta diz que a Diplomacia serviu como uma referência desafiadora para o aprendizado de vários agentes.

“Cícero combina um módulo de diálogo controlável com um mecanismo de raciocínio estratégico. Em cada ponto do jogo, Cícero modela como os outros jogadores provavelmente agirão com base no estado do jogo e em suas conversas”, diz Meta.

A IA então planeja como os jogadores podem se coordenar para benefício mútuo e mapeia esses planos em mensagens de linguagem natural.

Desconfiança saudável

Cícero evita confiar cegamente nas propostas de outros jogadores e rejeita planos que tenham baixo “valor previsto” e que corram paralelamente aos seus próprios interesses.

Devido ao fato de que o diálogo na Diplomacia ocorre em particular entre pares de jogadores, Cícero raciocina e analisa as informações às quais os jogadores têm acesso ao fazer previsões.

“Por exemplo, se Cícero está a coordenar um ataque com um aliado contra um adversário, a previsão de Cícero sobre a política do adversário deve ter em conta o facto de o adversário não estar ciente da coordenação pretendida”, disse Meta.

Meta diz que inscreveu Cícero anonimamente em 40 partidas de Diplomacia em uma liga online de jogadores humanos entre 19 de agosto e 13 de outubro de 2022.

Ao longo de 72 horas de jogo, que envolveram o envio de 5,277 mensagens, Cícero ficou entre os 10% melhores participantes que jogaram mais de uma partida, disse.

Meta diz que coletou dados de 125,261 jogos de Diplomacy jogados online em webDiplomacy.net. Desses jogos, um total de 40,408 jogos continham diálogos, com um total de 12,901,662 mensagens trocadas entre os jogadores.

Prompt: “Robô derrotando todos os outros em um jogo de Diplomacia” (gerado por IA).

Meta observa, sua nova IA está longe de ser perfeita

Cícero enviava mensagens que continham erros, às vezes contradiziam seus próprios planos e cometiam erros estratégicos.

Mas Meta insiste que os humanos, no entanto, optaram por colaborar com a IA em vez de outros jogadores, sem perceber que era um bot.

“Quase todos os avanços anteriores da IA ​​em jogos foram em configurações de soma zero (2p0s) para dois jogadores, incluindo xadrez, Go, pôquer heads-up e StarCraft. Em jogos 2p0s finitos, certos algoritmos de aprendizado por reforço (RL) que aprendem jogando contra si mesmos – um processo conhecido como autojogo – convergirão para uma política imbatível em expectativa em jogos equilibrados”, acrescentou Meta no artigo. “Em outras palavras, qualquer jogo 2p0s finito pode ser resolvido por meio de autojogo com computação e capacidade de modelo suficientes.”

No entanto, Meta disse que em relação aos jogos que envolvem cooperação, o autojogo sem dados humanos não é mais garantia de encontrar uma política que funcione bem com humanos, mesmo com capacidade infinita de computação e modelo, porque o agente de autojogo pode convergir para uma política que é incompatível com as normas e expectativas humanas.

Meta acrescentou que Cicero antecipa ações prováveis ​​para cada jogador com base no estado do tabuleiro e do diálogo, usando isso como ponto de partida para um algoritmo de planejamento usando modelos treinados em RL.

A IA usa um módulo de raciocínio estratégico para selecionar intenções e ações de forma inteligente, diz a empresa.

Este módulo então executa um algoritmo de planejamento que prevê as políticas de todos os outros jogadores com base no estado do jogo e no diálogo e considera tanto a força de diferentes ações quanto sua probabilidade em jogos humanos. Com base nessas informações e variáveis, é tomada a melhor ação ideal para Cícero.

Sob o comando do fundador e CEO da Meta, Mark Zuckerberg, a empresa tem investido pesadamente em IA e no metaverso para aproveitar a indústria de rápido crescimento vista como o futuro da tecnologia.

Escolha MetaNotícias.

Carimbo de hora:

Mais de MetaNotícias