Χαίρε Κικέρωνα, ο κατακτητής – Η τεχνητή νοημοσύνη νικάει τους ανθρώπους στη διπλωματία

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Η Meta Platforms Inc, η μητρική εταιρεία του Facebook, δήλωσε ότι δημιούργησε ένα AI που μπορεί να ξεπεράσει τους ανθρώπους σε μια διαδικτυακή έκδοση του δημοφιλούς παιχνιδιού στρατηγικής, Diplomacy, όπου επτά παίκτες ανταγωνίζονται για τον γεωγραφικό έλεγχο της Ευρώπης μετακινώντας κομμάτια σε έναν χάρτη.

Σε άρθρο που δημοσιεύτηκε στο Science.com, ο Meta είπε Ο Cicero, ήταν ο πρώτος πράκτορας τεχνητής νοημοσύνης που πέτυχε απόδοση σε ανθρώπινο επίπεδο στη Διπλωματία, ένα παιχνίδι που περιλαμβάνει συνεργασία και ανταγωνισμό που δίνει έμφαση στη διαπραγμάτευση φυσικής γλώσσας και στον τακτικό συντονισμό μεταξύ επτά παικτών.

Σε ένα σύνολο 40 ανώνυμων παιχνιδιών διαδικτυακής Διπλωματίας, ο Μέτα είπε ότι ο Κικέρων είχε πετύχει περισσότερο από το διπλάσιο από τον μέσο όρο βαθμολογίας των ανθρώπινων παικτών και κατατάχθηκε στο κορυφαίο 10% των συμμετεχόντων που έπαιξαν περισσότερα από ένα παιχνίδια.

Η κορυφαία ομάδα τεχνολογίας είπε ότι αυτό ήταν μέρος του στρατηγικού και μακροπρόθεσμου στόχου της στον τομέα της τεχνητής νοημοσύνης να δημιουργήσει πράκτορες που θα μπορούν να σχεδιάζουν, να συντονίζουν και να διαπραγματεύονται με τους ανθρώπους σε φυσική γλώσσα.

Πόσο σημαντικός είναι ο Κικέρων;

Ο Meta λέει ότι ο Cicero είναι πολύ σημαντικός επειδή η τεχνητή νοημοσύνη βασίζεται σε περιβάλλοντα που δεν είναι αντίθετα.

Σε αντίθεση με το παρελθόν, όπου οι προηγούμενες σημαντικές επιτυχίες για την τεχνητή νοημοσύνη πολλαπλών πρακτόρων ήταν σε αμιγώς αντίπαλα περιβάλλοντα, όπως το Chess (2), το Go (3) και το Poker (4), όπου η επικοινωνία δεν έχει αξία, το Cicero χρησιμοποιεί μια μηχανή στρατηγικής λογικής και ελεγχόμενη μονάδα διαλόγου.

Για αυτούς τους λόγους, η meta λέει ότι η Διπλωματία έχει χρησιμεύσει ως προκλητικό σημείο αναφοράς για τη μάθηση πολλαπλών πρακτόρων.

«Ο Κικέρων συνδυάζει μια ελεγχόμενη ενότητα διαλόγου με μια μηχανή στρατηγικής συλλογιστικής. Σε κάθε σημείο του παιχνιδιού, ο Cicero μοντελοποιεί τον τρόπο με τον οποίο οι άλλοι παίκτες είναι πιθανό να ενεργήσουν με βάση την κατάσταση του παιχνιδιού και τις συνομιλίες τους», λέει ο Meta.

Το AI στη συνέχεια σχεδιάζει πώς οι παίκτες μπορούν να συντονιστούν προς αμοιβαίο όφελος και χαρτογραφεί αυτά τα σχέδια σε μηνύματα φυσικής γλώσσας.

Υγιής δυσπιστία

Ο Κικέρων αποφεύγει να εμπιστεύεται τυφλά τις προτάσεις άλλων παικτών και απορρίπτει σχέδια που έχουν χαμηλή «προβλεπόμενη αξία» και που εκτείνονται παράλληλα με τα δικά του συμφέροντα.

Λόγω του γεγονότος ότι ο διάλογος στη Διπλωματία λαμβάνει χώρα ιδιωτικά μεταξύ ζευγαριών παικτών, ο Κικέρων αιτιολογεί και αναλύει τις πληροφορίες στις οποίες έχουν πρόσβαση οι παίκτες όταν κάνουν προβλέψεις.

«Για παράδειγμα, εάν ο Κικέρων συντονίζει μια επίθεση με έναν σύμμαχο εναντίον ενός αντιπάλου, η πρόβλεψη του Κικέρωνα για την πολιτική του αντιπάλου πρέπει να εξηγεί το γεγονός ότι ο αντίπαλος δεν γνωρίζει τον επιδιωκόμενο συντονισμό», είπε ο Μέτα.

Η Meta λέει ότι εισήλθε ανώνυμα στον Κικέρωνα σε 40 παιχνίδια της Διπλωματίας σε ένα διαδικτυακό πρωτάθλημα ανθρώπινων παικτών μεταξύ 19 Αυγούστου και 13 Οκτωβρίου 2022.

Κατά τη διάρκεια 72 ωρών παιχνιδιού που περιλάμβαναν την αποστολή 5,277 μηνυμάτων, ο Κικέρων κατατάχθηκε στο κορυφαίο 10% των συμμετεχόντων που έπαιξαν περισσότερα από ένα παιχνίδια, ανέφερε.

Η Meta λέει ότι συνέλεξε δεδομένα από 125,261 παιχνίδια Διπλωματίας που παίχτηκαν online στο webDiplomacy.net. Από αυτά τα παιχνίδια, συνολικά 40,408 παιχνίδια περιείχαν διάλογο, με συνολικά 12,901,662 μηνύματα να ανταλλάσσονται μεταξύ των παικτών.

Προτροπή: "Ρομπότ που κερδίζει όλους τους άλλους σε ένα παιχνίδι διπλωματίας" (δημιουργήθηκε από AI).

Σημειώνει η Meta, το νέο της AI απέχει πολύ από το τέλειο

Ο Κικέρων έστελνε μηνύματα που περιείχαν λάθη, μερικές φορές έρχονταν σε αντίθεση με τα δικά του σχέδια και έκανε στρατηγικές γκάφες.

Αλλά ο Meta επιμένει ότι οι άνθρωποι επέλεξαν ωστόσο να συνεργαστούν με την τεχνητή νοημοσύνη έναντι άλλων παικτών χωρίς να συνειδητοποιήσουν ότι ήταν Bot.

«Σχεδόν όλες οι προηγούμενες ανακαλύψεις της τεχνητής νοημοσύνης σε παιχνίδια ήταν σε ρυθμίσεις μηδενικού αθροίσματος δύο παικτών (2p0s), συμπεριλαμβανομένων του σκακιού, του Go, του heads-up poker και του StarCraft. Σε πεπερασμένα παιχνίδια 2p0, ορισμένοι αλγόριθμοι ενίσχυσης μάθησης (RL) που μαθαίνουν παίζοντας ενάντια στον εαυτό τους - μια διαδικασία γνωστή ως αυτο-παιχνίδι - θα συγκλίνουν σε μια πολιτική που είναι ασυναγώνιστη σε προσδοκίες σε ισορροπημένα παιχνίδια», πρόσθεσε ο Meta στην εφημερίδα. «Με άλλα λόγια, κάθε παιχνίδι πεπερασμένου 2p0 μπορεί να λυθεί μέσω αυτο-παιχνιδιού με επαρκή υπολογιστική ικανότητα και χωρητικότητα μοντέλου».

Ωστόσο, ο Meta είπε σχετικά με τα παιχνίδια που περιλαμβάνουν συνεργασία, το αυτο-παιχνίδι χωρίς ανθρώπινα δεδομένα δεν είναι πλέον εγγυημένο ότι θα βρει μια πολιτική που έχει καλή απόδοση με τους ανθρώπους, ακόμη και με άπειρη χωρητικότητα υπολογισμού και μοντέλου, επειδή ο πράκτορας αυτο-παιχνιδιών μπορεί να συγκλίνει σε μια πολιτική που είναι ασυμβίβαστο με τα ανθρώπινα πρότυπα και προσδοκίες.

Ο Meta πρόσθεσε ότι ο Cicero προβλέπει πιθανές ενέργειες για κάθε παίκτη με βάση την κατάσταση του ταμπλό και του διαλόγου, χρησιμοποιώντας αυτό ως το σημείο εκκίνησης για έναν αλγόριθμο σχεδιασμού που χρησιμοποιεί μοντέλα εκπαιδευμένα σε RL.

Η τεχνητή νοημοσύνη χρησιμοποιεί μια μονάδα στρατηγικής συλλογιστικής για να επιλέγει έξυπνα προθέσεις και ενέργειες, λέει η εταιρεία.

Στη συνέχεια, αυτή η ενότητα εκτελεί έναν αλγόριθμο σχεδιασμού που προβλέπει τις πολιτικές όλων των άλλων παικτών με βάση την κατάσταση του παιχνιδιού και τον διάλογο και λαμβάνει υπόψη τόσο τη δύναμη των διαφορετικών ενεργειών όσο και την πιθανότητα τους σε ανθρώπινα παιχνίδια. Με βάση αυτές τις πληροφορίες και τις μεταβλητές, γίνεται η καλύτερη βέλτιστη ενέργεια για τον Κικέρωνα.

Υπό τον ιδρυτή και διευθύνοντα σύμβουλο της Meta, Mark Zuckerberg, η εταιρεία έχει επενδύσει σε μεγάλο βαθμό στην τεχνητή νοημοσύνη και το metaverse για να επωφεληθεί από την ταχέως αναπτυσσόμενη βιομηχανία που θεωρείται το μέλλον της τεχνολογίας.

Για MetaNews.

Σφραγίδα ώρας: Νοέμβριος 28, 2022Νοέμβριος 29, 2022