Слава Цицерону, Завойовнику – ШІ перемагає людей у дипломатії

Перевидано Платоном

читають: 0

Meta Platforms Inc, материнська компанія Facebook, заявила, що створила штучний інтелект, який може перехитрити людей в онлайн-версії популярної стратегічної гри Diplomacy, де сім гравців змагаються за географічний контроль над Європою, пересуваючи фігури на карті.

У статті, опублікованій на Science.com, сказав Мета Цицерон був першим агентом зі штучним інтелектом, якому вдалося досягти продуктивності на рівні людини в Дипломатії, грі, що передбачає співпрацю та конкуренцію, у якій наголошується на переговорах природної мови та тактичній координації між сімома гравцями.

Загалом у 40 анонімних іграх онлайн-дипломатії, Мета сказав, що Цицерон отримав більш ніж удвічі більше середніх балів серед гравців-людей і потрапив до 10% найкращих учасників, які грали більше однієї гри.

Провідна технологічна група заявила, що це є частиною її стратегічної та довгострокової мети у сфері штучного інтелекту – створити агентів, які можуть планувати, координувати та вести переговори з людьми природною мовою.

Наскільки важливий Цицерон?

Мета каже, що «Цицерон» є досить важливим, оскільки ШІ покладається на неконкурентне середовище.

На відміну від минулого, коли багатоагентний штучний інтелект досягав великих успіхів у суто змагальних середовищах, таких як шахи (2), го (3) і покер (4), де комунікація не має значення, Цицерон використовує механізм стратегічного мислення. і керований діалоговий модуль.

З цих причин meta каже, що Diplomacy послужила складним еталоном для багатоагентного навчання.

«Cicero поєднує контрольований модуль діалогу з механізмом стратегічного мислення. У кожній точці гри Цицерон моделює те, як інші гравці ймовірно будуть діяти на основі стану гри та їхніх розмов», — каже Мета.

Потім штучний інтелект планує, як гравці можуть координувати дії для взаємної вигоди, і відображає ці плани в повідомленнях природною мовою.

Здорова недовіра

Cicero уникає сліпо довіряти пропозиціям інших гравців і відкидає плани, які мають низьку «прогнозовану цінність» і діють паралельно його власним інтересам.

Завдяки тому факту, що діалог у дипломатії відбувається приватно між парами гравців, Цицерон міркує та аналізує інформацію, до якої гравці мають доступ, коли роблять прогнози.

«Наприклад, якщо Ціцерон координує атаку з союзником проти супротивника, прогноз Цицерона щодо політики супротивника повинен враховувати той факт, що супротивник не знає про заплановану координацію», — сказав Мета.

Meta каже, що анонімно включила Цицерона в 40 ігор дипломатії в онлайн-лізі гравців-людей з 19 серпня по 13 жовтня 2022 року.

Протягом 72 годин гри, які включали відправку 5,277 повідомлень, Цицерон увійшов до 10% найкращих учасників, які грали більше однієї гри.

Meta стверджує, що зібрала дані про 125,261 40,408 гру дипломатії, зіграну онлайн на webDiplomacy.net. З цих ігор загалом 12,901,662 XNUMX ігор містили діалоги із загалом XNUMX XNUMX XNUMX повідомленнями, якими обмінювалися гравці.

Підказка: «Робот перемагає всіх у грі в дипломатію» (створено ШІ).

Meta зазначає, що його новий ШІ далекий від досконалості

Цицерон надсилав повідомлення, які містили помилки, іноді суперечили його власним планам і допускали стратегічні помилки.

Але Meta наполягає на тому, що люди все ж вирішили співпрацювати з ШІ замість інших гравців, не усвідомлюючи, що це бот.

«Майже всі попередні прориви штучного інтелекту в іграх стосувалися налаштувань для двох гравців з нульовою сумою (2p0s), включаючи шахи, го, покер хедз-ап і StarCraft. В іграх зі скінченними 2p0s певні алгоритми навчання з підкріпленням (RL), які навчаються, граючи проти самих себе — процес, відомий як самогра, — зближаться до політики, яка є неперевершеною за очікуваннями в збалансованих іграх», — додав Мета в статті. «Іншими словами, будь-яку кінцеву гру 2p0s можна вирішити за допомогою самостійної гри з достатньою обчислювальною потужністю та моделлю».

Однак Meta сказав щодо ігор, які передбачають співпрацю, більше не гарантується, що самоігра без даних людини знайде політику, яка добре працює з людьми, навіть із нескінченною обчислювальною потужністю та моделлю, тому що агент самостійної гри може сходитися до політики, яка несумісні з людськими нормами та очікуваннями.

Мета додав, що Цицерон передбачає ймовірні дії для кожного гравця на основі стану дошки та діалогу, використовуючи це як відправну точку для алгоритму планування з використанням моделей, навчених RL.

За словами компанії, ШІ використовує модуль стратегічного мислення для розумного вибору намірів і дій.

Потім цей модуль запускає алгоритм планування, який передбачає політику всіх інших гравців на основі стану гри та діалогу та враховує як силу різних дій, так і їхню ймовірність у іграх людей. На основі цієї інформації та змінних вживаються найкращі оптимальні дії для Цицерона.

Під керівництвом засновника та генерального директора Meta Марка Цукерберга компанія інвестувала значні кошти в ШІ та метавсесвіт, щоб скористатися перевагами швидкозростаючої індустрії, яка розглядається як майбутнє технологій.

для МетаНовини.

Часова мітка: Листопад 28, 2022Листопад 29, 2022