Alle grüßen Cicero, den Eroberer – KI schlägt Menschen in Diplomatie

Quellknoten: 1763695

Meta Platforms Inc, die Muttergesellschaft von Facebook, sagte, sie habe eine KI entwickelt, die Menschen in einer Online-Version des beliebten Strategiespiels Diplomacy überlisten kann, bei dem sieben Spieler um die geografische Kontrolle über Europa kämpfen, indem sie Teile auf einer Karte bewegen.

In einem auf Science.com veröffentlichten Artikel sagte Meta Cicero war der erste KI-Agent, der in Diplomacy, einem Spiel, das sowohl Kooperation als auch Wettbewerb beinhaltet und die Verhandlung in natürlicher Sprache und taktische Koordination zwischen sieben Spielern betont, eine Leistung auf menschlichem Niveau erzielte.

In insgesamt 40 anonymen Online-Diplomatie-Spielen hatte Cicero laut Meta mehr als das Doppelte der durchschnittlichen Punktzahl der menschlichen Spieler erreicht und gehörte zu den besten 10 % der Teilnehmer, die mehr als ein Spiel spielten.

Der führende Technologiekonzern sagte, dies sei Teil seines strategischen und langfristigen Ziels im Bereich der künstlichen Intelligenz, Agenten zu bauen, die mit Menschen in natürlicher Sprache planen, koordinieren und verhandeln können.

Wie wichtig ist Cicero?

Meta sagt, dass Cicero ziemlich bedeutend ist, weil die KI auf nicht gegnerische Umgebungen angewiesen ist.

Anders als in der Vergangenheit, wo frühere große Erfolge für Multiagenten-KI in rein gegnerischen Umgebungen wie Schach (2), Go (3) und Poker (4) erzielt wurden, wo Kommunikation keinen Wert hat, verwendet Cicero eine strategische Argumentationsmaschine und steuerbares Dialogmodul.

Aus diesen Gründen hat Meta Diplomacy als herausfordernden Maßstab für das Lernen mit mehreren Agenten gedient.

„Cicero koppelt ein steuerbares Dialogmodul mit einer strategischen Argumentationsmaschine. An jedem Punkt im Spiel modelliert Cicero, wie sich die anderen Spieler wahrscheinlich verhalten werden, basierend auf dem Spielstatus und ihren Gesprächen“, sagt Meta.

Die KI plant dann, wie sich die Spieler zum gegenseitigen Nutzen koordinieren können, und bildet diese Pläne in Nachrichten in natürlicher Sprache ab.

Gesundes Misstrauen

Cicero vermeidet es, Vorschlägen anderer Spieler blind zu vertrauen, und lehnt Pläne ab, die einen geringen „vorhergesagten Wert“ haben und parallel zu seinen eigenen Interessen verlaufen.

Aufgrund der Tatsache, dass der Dialog in Diplomacy privat zwischen Spielerpaaren stattfindet, begründet und analysiert Cicero die Informationen, auf die die Spieler Zugriff haben, wenn sie Vorhersagen treffen.

„Wenn Cicero zum Beispiel einen Angriff mit einem Verbündeten gegen einen Gegner koordiniert, muss Ciceros Vorhersage der Politik des Gegners die Tatsache berücksichtigen, dass der Gegner sich der beabsichtigten Koordination nicht bewusst ist“, sagte Meta.

Meta sagt, dass es Cicero zwischen dem 40. August und dem 19. Oktober 13 anonym in 2022 Diplomacy-Spielen in einer Online-Liga menschlicher Spieler aufgenommen hat.

Im Laufe von 72 Spielstunden, bei denen 5,277 Nachrichten gesendet wurden, rangierte Cicero unter den besten 10 % der Teilnehmer, die mehr als ein Spiel spielten, hieß es.

Meta sagt, es habe Daten von 125,261 Diplomacy-Spielen gesammelt, die online auf webDiplomacy.net gespielt wurden. Von diesen Spielen enthielten insgesamt 40,408 Spiele Dialoge, wobei insgesamt 12,901,662 Nachrichten zwischen den Spielern ausgetauscht wurden.

Aufforderung: „Roboter schlägt alle anderen in einem Diplomatiespiel“ (KI-generiert).

Meta stellt fest, dass seine neue KI alles andere als perfekt ist

Cicero verschickte Nachrichten, die Fehler enthielten, widersprach manchmal seinen eigenen Plänen und machte strategische Fehler.

Aber Meta besteht darauf, dass Menschen sich dennoch entschieden haben, mit der KI gegenüber anderen Spielern zusammenzuarbeiten, ohne zu erkennen, dass es sich um einen Bot handelt.

„Fast alle früheren KI-Durchbrüche in Spielen waren in Zwei-Spieler-Nullsummeneinstellungen (2p0s), einschließlich Schach, Go, Heads-up-Poker und StarCraft. In endlichen 2p0s-Spielen werden bestimmte Reinforcement Learning (RL)-Algorithmen, die lernen, indem sie gegen sich selbst spielen – ein Prozess, der als Selbstspiel bekannt ist – zu einer Richtlinie konvergieren, die in ausgewogenen Spielen unschlagbar ist“, fügte Meta in dem Papier hinzu. „Mit anderen Worten, jedes endliche 2p0s-Spiel kann per Selbstspiel mit ausreichender Rechen- und Modellkapazität gelöst werden.“

Meta sagte jedoch in Bezug auf Spiele, die eine Zusammenarbeit beinhalten, dass das Selbstspiel ohne menschliche Daten nicht mehr garantiert eine Richtlinie findet, die mit Menschen gut funktioniert, selbst mit unendlicher Rechen- und Modellkapazität, da der Selbstspielagent zu einer Richtlinie konvergieren kann, die ist unvereinbar mit menschlichen Normen und Erwartungen.

Meta fügte hinzu, dass Cicero wahrscheinliche Aktionen für jeden Spieler basierend auf dem Zustand des Bretts und des Dialogs voraussieht und dies als Ausgangspunkt für einen Planungsalgorithmus mit RL-trainierten Modellen verwendet.

Die KI verwendet ein strategisches Argumentationsmodul, um Absichten und Aktionen intelligent auszuwählen, so das Unternehmen.

Dieses Modul führt dann einen Planungsalgorithmus aus, der die Richtlinien aller anderen Spieler auf der Grundlage des Spielstatus und des Dialogs vorhersagt und sowohl die Stärke verschiedener Aktionen als auch ihre Wahrscheinlichkeit in menschlichen Spielen berücksichtigt. Basierend auf diesen Informationen und Variablen wird die beste optimale Maßnahme für Cicero ergriffen.

Unter dem Gründer und CEO von Meta, Mark Zuckerberg, hat das Unternehmen stark in KI und das Metaversum investiert, um von der schnell wachsenden Branche zu profitieren, die als die Zukunft der Technologie gilt.

Aussichten für MetaNews.

Zeitstempel:

Mehr von MetaNews