Το AI Beats Humans in Stratego – Γνωρίστε τον DeepNash

Κόμβος πηγής: 1767483

Ένα άλλο παιχνίδι που από καιρό πιστεύεται ότι είναι πολύ δύσκολο να κατακτήσει η τεχνητή νοημοσύνη (AI) έχει πέσει στα bots: το Stratego.

DeepNash, ένα AI κατασκευασμένο από εταιρεία με έδρα το Λονδίνο Deepmind, τώρα ταιριάζει με ειδικούς ανθρώπους στο Stratego, ένα επιτραπέζιο παιχνίδι που απαιτεί μακροπρόθεσμη στρατηγική σκέψη έναντι ατελών πληροφοριών.

Αυτό το τελευταίο κατόρθωμα έρχεται στον απόηχο μιας ακόμη σημαντικής νίκης για τα AI σε παιχνίδια που προηγουμένως θεωρούνταν το πλεονέκτημα των ανθρώπων.

Μόλις την περασμένη εβδομάδα, ο Κικέρων του Μέτα, μια τεχνητή νοημοσύνη που μπορεί να ξεπεράσει τους ανθρώπινους παίκτες στο παιχνίδι της Διπλωματίας, έγραψε ιστορία για να ξεπεράσει τους αντιπάλους στο διαδίκτυο.

«Ο ρυθμός με τον οποίο τα ποιοτικά διαφορετικά χαρακτηριστικά του παιχνιδιού έχουν κατακτηθεί —ή κυριαρχεί σε νέα επίπεδα— από την τεχνητή νοημοσύνη τα τελευταία χρόνια είναι πολύ αξιοσημείωτος», λέει ο Michael Wellman στο Πανεπιστήμιο του Michigan στο Ann Arbor, ένας επιστήμονας υπολογιστών που μελετά τη στρατηγική λογική και το παιχνίδι. θεωρία.

«Το Stratego και το Diplomacy είναι αρκετά διαφορετικά μεταξύ τους και διαθέτουν επίσης προκλητικά χαρακτηριστικά, ιδιαίτερα διαφορετικά από παιχνίδια για τα οποία έχουν επιτευχθεί ανάλογα ορόσημα», δήλωσε ο Wellman.

Ατελείς πληροφορίες

Το παιχνίδι έχει χαρακτηριστικά που είναι γενικά πολύ πιο περίπλοκα από το σκάκι, το Go ή το πόκερ. Το σκάκι, το Go και το πόκερ έχουν κατακτηθεί από AI.

Στο παιχνίδι Stratego, δύο παίκτες βάζουν από 40 κομμάτια ο καθένας σε ένα ταμπλό, αλλά δεν πρέπει να δουν ποια είναι τα κομμάτια του αντιπάλου τους.

Ο στόχος του παιχνιδιού είναι να μετακινήσετε κομμάτια με τις στροφές για να εξαλείψετε αυτά του αντιπάλου και να πιάσετε μια σημαία. 

Το δέντρο παιχνιδιών του Stratego - ένα γράφημα με όλους τους πιθανούς τρόπους με τους οποίους θα μπορούσε να πάει το παιχνίδι - έχει 10535 καταστάσεις έναντι του 10360 του Go. 

Όταν πρόκειται για ατελείς πληροφορίες στην αρχή ενός παιχνιδιού, το Stratego έχει 1066 πιθανές ιδιωτικές θέσεις, αριθμός που ξεπερνά μόνο 106 τέτοιες αρχικές καταστάσεις στο πόκερ Texas hold'em δύο παικτών.

«Η απόλυτη πολυπλοκότητα του αριθμού των πιθανών αποτελεσμάτων στο Stratego σημαίνει ότι οι αλγόριθμοι που αποδίδουν καλά σε παιχνίδια με τέλεια πληροφόρηση, ακόμα και σε αυτούς που λειτουργούν για το πόκερ, δεν λειτουργούν», λέει ο Julien Perolat, ερευνητής της DeepMind με έδρα το Παρίσι.

Το DeepNash αναπτύχθηκε από τον Perolat και τους συνεργάτες του.

Εμπνευσμένο από τον Nash bot

Το όνομα του ρομπότ είναι ένας φόρος τιμής στον διάσημο Αμερικανό μαθηματικό John Nash, ο οποίος βρήκε τη θεωρία της ισορροπίας Nash που υποθέτει ότι υπάρχει ένα «σταθερό σύνολο στρατηγικών» που μπορούν να ακολουθηθούν από τους παίκτες με τρόπο που κανένας παίκτης δεν επωφελείται από την αλλαγή στρατηγικής. μόνοι τους. Ως εκ τούτου, τα παιχνίδια τείνουν να έχουν μηδέν, μία ή πολλές ισορροπίες Nash.

Το DeepNash συνδυάζει αλγόριθμο ενίσχυσης-μάθησης και ένα βαθύ νευρωνικό δίκτυο για να βρει μια ισορροπία Nash. 

Γενικά, η ενισχυτική μάθηση είναι όπου ένας ευφυής πράκτορας (πρόγραμμα υπολογιστή) αλληλεπιδρά με το περιβάλλον και μαθαίνει την καλύτερη πολιτική για να υπαγορεύει δράση για κάθε κατάσταση ενός παιχνιδιού. 

Για να έχει μια βέλτιστη πολιτική, ο DeepNash έπαιξε συνολικά 5.5 δισεκατομμύρια παιχνίδια εναντίον του. 

Ουσιαστικά, εάν η μία πλευρά τιμωρηθεί, η άλλη ανταμείβεται και οι μεταβλητές του νευρωνικού δικτύου - που αντιπροσωπεύουν την πολιτική - τροποποιούνται ανάλογα.

Το AI Beats Humans in Stratego – Γνωρίστε το DeepMash

Το AI Beats Humans in Stratego – Γνωρίστε το DeepMash

Σε κάποιο στάδιο, το DeepNash συγκλίνει σε μια κατά προσέγγιση ισορροπία Nash. Σε αντίθεση με άλλα Bots, το DeepNash βελτιστοποιείται χωρίς sβυθίζοντας μέσα από το δέντρο του παιχνιδιού.

Για δύο εβδομάδες, ο DeepNash έπαιξε ενάντια σε ανθρώπινους παίκτες Stratego στην πλατφόρμα διαδικτυακών παιχνιδιών Gravon.

Μετά από 50 αγώνες, ο Ai κατατάχθηκε τρίτος μεταξύ όλων των παικτών του Gravon Stratego από το 2002. 

«Η δουλειά μας δείχνει ότι ένα τόσο περίπλοκο παιχνίδι όπως το Stratego, που περιλαμβάνει ατελείς πληροφορίες, δεν απαιτεί τεχνικές αναζήτησης για την επίλυσή του», λέει το μέλος της ομάδας Karl Tuyls, ερευνητής της DeepMind με έδρα το Παρίσι. "Αυτό είναι ένα πραγματικά μεγάλο βήμα προς τα εμπρός στην τεχνητή νοημοσύνη."

Άλλοι ερευνητές εντυπωσιάζονται επίσης από αυτό το κατόρθωμα.

Εντυπωσιακά αποτελέσματα

«Τα αποτελέσματα είναι εντυπωσιακά», συμφωνεί ο Noam Brown, ερευνητής της Meta AI, με έδρα τη Νέα Υόρκη, και μέλος της ομάδας που το 2019 ανέφερε το AI Pluribus4 που παίζει πόκερ.

Στη Meta, τη μητρική εταιρεία του Facebook, η Brown και οι συνεργάτες της κατασκεύασαν ένα AI που μπορεί να παίξει το Diplomacy, ένα παιχνίδι όπου επτά παίκτες ανταγωνίζονται για τον γεωγραφικό έλεγχο της Ευρώπης μετακινώντας κομμάτια σε έναν χάρτη.

Στη Διπλωματία, ο στόχος είναι να πάρει τον έλεγχο των κέντρων ανεφοδιασμού με κινούμενες μονάδες (στόλοι και στρατούς). 

Ο Meta λέει ότι ο Cicero είναι πολύ σημαντικός επειδή η τεχνητή νοημοσύνη βασίζεται σε περιβάλλοντα που δεν είναι αντίθετα.

Σε αντίθεση με το παρελθόν όπου οι προηγούμενες σημαντικές επιτυχίες για την τεχνητή νοημοσύνη πολλαπλών πρακτόρων ήταν σε αμιγώς αντίπαλα περιβάλλοντα, όπως το Chess, το Go και το Πόκερ, όπου η επικοινωνία δεν έχει καμία αξία, το Cicero χρησιμοποιεί μια μηχανή στρατηγικής συλλογιστικής και ελεγχόμενη ενότητα διαλόγου.

«Όταν πηγαίνετε πέρα ​​από τα παιχνίδια μηδενικού αθροίσματος δύο παικτών, η ιδέα της ισορροπίας Nash δεν είναι πλέον τόσο χρήσιμη για να παίζετε καλά με τους ανθρώπους», λέει ο Brown.

Η Μπράουν και η ομάδα της εκπαίδευσαν τον Κικέρωνα χρησιμοποιώντας δεδομένα από 125,261 παιχνίδια μιας διαδικτυακής έκδοσης του Diplomacy που περιλαμβάνει ανθρώπους παίκτες. 

Χρησιμοποιώντας δεδομένα αυτο-παιχνιδιού και μια μονάδα στρατηγικής συλλογιστικής (SRM), ο Cicero έμαθε να προβλέπει την κρίση με βάση την κατάσταση του παιχνιδιού και τα συσσωρευμένα μηνύματα, τις πιθανές κινήσεις και τις πολιτικές των άλλων παικτών. 

Το AI Beats Humans in Stratego – Γνωρίστε το DeepMash

Το AI Beats Humans in Stratego – Γνωρίστε το DeepMash

Η Meta λέει ότι συνέλεξε δεδομένα από 125,261 παιχνίδια Διπλωματίας που παίχτηκαν online στο webDiplomacy.net. Από αυτά τα παιχνίδια, συνολικά 40,408 παιχνίδια περιείχαν διάλογο, με συνολικά 12,901,662 μηνύματα να ανταλλάσσονται μεταξύ των παικτών.

Συμπεριφορά στον πραγματικό κόσμο

Ο Brown πιστεύει ότι τα ρομπότ που παίζουν παιχνίδια όπως ο Cicero μπορούν να αλληλεπιδράσουν με τους ανθρώπους και να εξηγήσουν "υπό βέλτιστες ή ακόμα και παράλογες ανθρώπινες ενέργειες θα μπορούσαν να ανοίξουν το δρόμο για εφαρμογές στον πραγματικό κόσμο".

«Εάν φτιάχνετε ένα αυτοοδηγούμενο αυτοκίνητο, δεν θέλετε να υποθέσετε ότι όλοι οι άλλοι οδηγοί στο δρόμο είναι απόλυτα λογικοί και ότι θα συμπεριφέρονται βέλτιστα», λέει.

Ο Κικέρων, προσθέτει, είναι ένα μεγάλο βήμα προς αυτή την κατεύθυνση. «Έχουμε ακόμα ένα πόδι στον κόσμο του παιχνιδιού, αλλά τώρα έχουμε ένα πόδι και στον πραγματικό κόσμο».

Άλλοι, όπως ο Wellman, συμφωνούν, αλλά επιμένουν ότι χρειάζεται ακόμη περισσότερη δουλειά. «Πολλές από αυτές τις τεχνικές είναι πράγματι σχετικές πέρα ​​από τα ψυχαγωγικά παιχνίδια» σε πραγματικές εφαρμογές, λέει. «Παρόλα αυτά, κάποια στιγμή, τα κορυφαία ερευνητικά εργαστήρια τεχνητής νοημοσύνης πρέπει να ξεπεράσουν τις ψυχαγωγικές ρυθμίσεις και να καταλάβουν πώς να μετρήσουν την επιστημονική πρόοδο στα πιο περίεργα «παιχνίδια» του πραγματικού κόσμου που πραγματικά μας ενδιαφέρουν».

/MetaNews.

Σφραγίδα ώρας:

Περισσότερα από MetaNews