KI schlägt Menschen in Stratego – Lernen Sie DeepNash kennen

Quellknoten: 1767483

Ein weiteres Spiel, von dem lange angenommen wurde, dass es für künstliche Intelligenz (KI) sehr schwierig zu erobern ist, ist Bots zum Opfer gefallen: Stratego.

DeepNash, eine KI des in London ansässigen Unternehmens DeepMind, passt jetzt zu erfahrenen Menschen bei Stratego, einem Brettspiel, das langfristiges strategisches Denken gegen unvollkommene Informationen erfordert.

Diese neueste Leistung folgt auf einen weiteren großen Sieg für die KIs in Spielen, die zuvor als die Stärke der Menschen galten.

Erst letzte Woche, Metas Cicero, eine KI, die kann menschliche Spieler überlisten beim Spiel Diplomatie, schrieb Geschichte für das Überlisten von Gegnern online.

„Die Geschwindigkeit, mit der qualitativ unterschiedliche Spielfunktionen in den letzten Jahren von der KI erobert oder auf ein neues Niveau gebracht wurden, ist ziemlich bemerkenswert“, sagt Michael Wellman von der University of Michigan in Ann Arbor, ein Informatiker, der sich mit strategischem Denken und Spielen beschäftigt Theorie.

„Stratego und Diplomacy unterscheiden sich stark voneinander und besitzen auch herausfordernde Funktionen, die sich deutlich von Spielen unterscheiden, für die ähnliche Meilensteine ​​erreicht wurden“, sagte Wellman.

Unvollständige Informationen

Das Spiel hat Eigenschaften, die im Allgemeinen viel komplizierter sind als Schach, Go oder Poker. Schach, Go und Poker wurden alle von KIs gemeistert.

Beim Stratego-Spiel legen zwei Spieler jeweils 40 Steine ​​auf ein Brett, dürfen aber nicht sehen, was die Steine ​​ihres Gegners sind.

Das Ziel des Spiels ist es, Figuren abwechselnd zu bewegen, um die des Gegners zu eliminieren und eine Flagge zu erobern. 

Der Spielbaum von Stratego – ein Diagramm aller möglichen Wege, die das Spiel möglicherweise haben könnte – hat 10535 Zustände gegenüber 10360 von Go. 

Wenn es um unvollständige Informationen zu Beginn eines Spiels geht, hat Stratego 1066 mögliche private Positionen, eine Zahl, die nur 106 solcher Startsituationen beim Texas Hold'em-Poker für zwei Spieler in den Schatten stellt.

„Die schiere Komplexität der Anzahl möglicher Ergebnisse in Stratego bedeutet, dass Algorithmen, die bei Spielen mit perfekter Information gut abschneiden, und sogar solche, die für Poker funktionieren, nicht funktionieren“, sagt Julien Perolat, ein DeepMind-Forscher mit Sitz in Paris.

DeepNash wurde von Perolat und seinen Kollegen entwickelt.

Von Nash inspirierter Bot

Der Name des Bots ist eine Hommage an den berühmten US-Mathematiker John Nash, der die Nash-Gleichgewichtstheorie entwickelte, die davon ausgeht, dass es einen „stabilen Satz von Strategien“ gibt, die von Spielern so befolgt werden können, dass kein Spieler von einem Strategiewechsel profitiert alleine. Daher haben Spiele in der Regel kein, ein oder viele Nash-Gleichgewichte.

DeepNash kombiniert Reinforcement-Learning-Algorithmus und ein tiefes neuronales Netzwerk, um ein Nash-Gleichgewicht zu finden. 

Im Allgemeinen handelt es sich beim Reinforcement Learning darum, dass ein intelligenter Agent (Computerprogramm) mit der Umgebung interagiert und die beste Strategie lernt, um Maßnahmen für jeden Zustand eines Spiels zu diktieren. 

Um eine optimale Strategie zu haben, spielte DeepNash insgesamt 5.5 Milliarden Spiele gegen sich selbst. 

Wenn eine Seite bestraft wird, wird die andere im Wesentlichen belohnt, und die Variablen des neuronalen Netzwerks – die die Richtlinie darstellen – werden entsprechend angepasst.

KI schlägt Menschen in Stratego – Lernen Sie DeepMash kennen

KI schlägt Menschen in Stratego – Lernen Sie DeepMash kennen

Irgendwann nähert sich DeepNash einem ungefähren Nash-Gleichgewicht an. Im Gegensatz zu anderen Bots optimiert sich DeepNash selbst ohne sDurchsuchen des Spielbaums.

Zwei Wochen lang spielte DeepNash auf der Online-Spieleplattform Gravon gegen menschliche Stratego-Spieler.

Nach 50 Spielen belegte der Ai seit 2002 den dritten Platz unter allen Gravon Stratego-Spielern. 

„Unsere Arbeit zeigt, dass ein so komplexes Spiel wie Stratego, das unvollständige Informationen beinhaltet, keine Suchtechniken erfordert, um es zu lösen“, sagt Teammitglied Karl Tuyls, ein DeepMind-Forscher mit Sitz in Paris. „Dies ist ein wirklich großer Fortschritt in der KI.“

Auch andere Forscher sind von dieser Leistung beeindruckt.

Beeindruckende Ergebnisse

„Die Ergebnisse sind beeindruckend“, stimmt Noam Brown zu, Forscher bei Meta AI mit Hauptsitz in New York City und Mitglied des Teams, das 2019 über die pokerspielende KI Pluribus4 berichtete.

Bei Meta, der Muttergesellschaft von Facebook, haben Brown und ihre Kollegen eine KI entwickelt, die Diplomatie spielen kann, ein Spiel, bei dem sieben Spieler um die geografische Kontrolle über Europa kämpfen, indem sie Teile auf einer Karte bewegen.

In Diplomatie besteht das Ziel darin, die Kontrolle über Versorgungszentren zu übernehmen, indem Einheiten (Flotten und Armeen) bewegt werden. 

Meta sagt, dass Cicero ziemlich bedeutend ist, weil die KI auf nicht gegnerische Umgebungen angewiesen ist.

Anders als in der Vergangenheit, wo frühere große Erfolge für Multiagenten-KI in rein gegnerischen Umgebungen wie Schach, Go und Poker erzielt wurden, wo Kommunikation keinen Wert hat, verwendet Cicero eine strategische Argumentationsmaschine und ein steuerbares Dialogmodul.

„Wenn man über Nullsummenspiele für zwei Spieler hinausgeht, ist die Idee des Nash-Gleichgewichts nicht mehr so ​​nützlich, um gut mit Menschen zu spielen“, sagt Brown.

Brown und ihr Team trainierten Cicero mit Daten aus 125,261 Spielen einer Online-Version von Diplomacy mit menschlichen Spielern. 

Anhand von Selbstspieldaten und einem Strategic-Reasoning-Modul (SRM) lernte Cicero, anhand des Stands des Spiels und der gesammelten Nachrichten die wahrscheinlichen Züge und Strategien der anderen Spieler zu beurteilen. 

KI schlägt Menschen in Stratego – Lernen Sie DeepMash kennen

KI schlägt Menschen in Stratego – Lernen Sie DeepMash kennen

Meta sagt, es habe Daten von 125,261 Diplomacy-Spielen gesammelt, die online auf webDiplomacy.net gespielt wurden. Von diesen Spielen enthielten insgesamt 40,408 Spiele Dialoge, wobei insgesamt 12,901,662 Nachrichten zwischen den Spielern ausgetauscht wurden.

Verhalten in der realen Welt

Brown glaubt, dass spielerische Bots wie Cicero mit Menschen interagieren und für „suboptimale oder sogar irrationale menschliche Handlungen verantwortlich sein könnten, die den Weg für Anwendungen in der realen Welt ebnen könnten“.

„Wenn Sie ein selbstfahrendes Auto bauen, möchten Sie nicht davon ausgehen, dass alle anderen Fahrer auf der Straße vollkommen rational sind und sich optimal verhalten“, sagt er.

Cicero, fügt er hinzu, ist ein großer Schritt in diese Richtung. „Wir haben immer noch einen Fuß in der Spielwelt, aber jetzt haben wir auch einen Fuß in der realen Welt.“

Andere wie Wellman stimmen zu, bestehen aber darauf, dass noch mehr getan werden muss. „Viele dieser Techniken sind tatsächlich über Freizeitspiele hinaus relevant“, sagt er. „Trotzdem müssen die führenden KI-Forschungslabore irgendwann über die Freizeitumgebung hinausgehen und herausfinden, wie der wissenschaftliche Fortschritt bei den matschigeren realen ‚Spielen‘ gemessen werden kann, die uns eigentlich wichtig sind.“

/MetaNews.

Zeitstempel:

Mehr von MetaNews