Pozdrowienia dla Cycerona, Zdobywcy — sztuczna inteligencja pokonuje ludzi w dyplomacji

Węzeł źródłowy: 1763695

Meta Platforms Inc, firma macierzysta Facebooka, powiedziała, że ​​stworzyła sztuczną inteligencję, która może przechytrzyć ludzi w internetowej wersji popularnej gry strategicznej Dyplomacja, w której siedmiu graczy rywalizuje o kontrolę nad Europą, przesuwając elementy po mapie.

W artykule opublikowanym na Science.com, Meta powiedział Cicero był pierwszym agentem AI, który osiągnął wydajność na poziomie człowieka w Dyplomacji, grze obejmującej zarówno współpracę, jak i rywalizację, która kładzie nacisk na negocjacje w języku naturalnym i koordynację taktyczną między siedmioma graczami.

W sumie w 40 anonimowych grach Dyplomacji online Meta powiedział, że Cicero osiągnął ponad dwukrotnie wyższy średni wynik niż ludzie i znalazł się w pierwszej 10% uczestników, którzy rozegrali więcej niż jedną grę.

Wiodąca grupa technologiczna stwierdziła, że ​​jest to część jej strategicznego i długoterminowego celu w dziedzinie sztucznej inteligencji, polegającego na zbudowaniu agentów, którzy potrafią planować, koordynować i negocjować z ludźmi w języku naturalnym.

Jak ważny jest Cyceron?

Meta mówi, że Cicero jest dość znaczący, ponieważ sztuczna inteligencja opiera się na środowiskach niebędących przeciwnikami.

W przeciwieństwie do przeszłości, w której wcześniejsze największe sukcesy wieloagentowej sztucznej inteligencji odnosiły się do środowisk czysto rywalizacyjnych, takich jak szachy (2), go (3) i poker (4), gdzie komunikacja nie ma żadnej wartości, Cicero wykorzystuje silnik strategicznego rozumowania i sterowany moduł dialogowy.

Z tych powodów meta mówi, że Dyplomacja służyła jako trudny punkt odniesienia dla uczenia się wieloagentowego.

„Cicero łączy kontrolowany moduł dialogowy z silnikiem strategicznego rozumowania. W każdym momencie gry Cicero modeluje prawdopodobne zachowanie innych graczy na podstawie stanu gry i ich rozmów” — mówi Meta.

Sztuczna inteligencja planuje następnie, w jaki sposób gracze mogą koordynować działania z obopólną korzyścią, i odwzorowuje te plany na komunikaty w języku naturalnym.

Zdrowa nieufność

Cyceron unika ślepego ufania propozycjom innych graczy i odrzuca plany, które mają niską „przewidywaną wartość” i które są zgodne z jego własnymi interesami.

Ze względu na fakt, że dialog w Dyplomacji odbywa się prywatnie pomiędzy parami graczy, Cyceron rozumuje i analizuje informacje, do których gracze mają dostęp podczas przewidywania.

„Na przykład, jeśli Cyceron koordynuje atak ze sprzymierzeńcem na przeciwnika, przewidywania Cycerona dotyczące polityki przeciwnika muszą uwzględniać fakt, że przeciwnik nie jest świadomy zamierzonej koordynacji” — powiedział Meta.

Meta twierdzi, że zgłosiła się do Cicero anonimowo w 40 grach Dyplomacji w internetowej lidze ludzkich graczy między 19 sierpnia a 13 października 2022 r.

W ciągu 72 godzin gry, które obejmowały wysłanie 5,277 wiadomości, Cicero znalazł się w pierwszej 10% uczestników, którzy grali w więcej niż jedną grę.

Meta twierdzi, że zebrała dane z 125,261 40,408 gier Dyplomacji rozgrywanych online na webDiplomacy.net. Spośród tych gier łącznie 12,901,662 XNUMX gier zawierało dialogi, a łącznie między graczami wymieniono XNUMX XNUMX XNUMX wiadomości.

Podpowiedź: „Robot pokonuje wszystkich innych w grze dyplomacji” (wygenerowane przez sztuczną inteligencję).

Meta zauważa, że ​​​​jego nowa sztuczna inteligencja jest daleka od doskonałości

Cyceron wysyłał wiadomości, które zawierały błędy, czasami zaprzeczały własnym planom i popełniały strategiczne gafy.

Ale Meta upiera się, że mimo wszystko ludzie wybrali współpracę z AI zamiast innych graczy, nie zdając sobie sprawy, że to Bot.

„Prawie wszystkie wcześniejsze przełomy w zakresie sztucznej inteligencji w grach dotyczyły ustawień dla dwóch graczy o sumie zerowej (2p0s), w tym szachów, Go, pokera heads-up i StarCraft. W skończonych grach 2p0s pewne algorytmy uczenia się przez wzmacnianie (RL), które uczą się grając przeciwko sobie – proces znany jako gra własna – zbiegają się w politykę, która jest nie do pobicia w grach zrównoważonych” – dodał Meta w artykule. „Innymi słowy, każdą skończoną grę 2p0s można rozwiązać poprzez samodzielną grę z wystarczającą mocą obliczeniową i modelową”.

Jednak Meta powiedział, że jeśli chodzi o gry wymagające współpracy, samodzielna gra bez danych ludzkich nie gwarantuje już znalezienia polityki, która będzie dobrze działać z ludźmi, nawet przy nieskończonych możliwościach obliczeniowych i modelowych, ponieważ agent gry samodzielnej może zbiegać się z polityką, która jest niezgodne z ludzkimi normami i oczekiwaniami.

Meta dodał, że Cicero przewiduje prawdopodobne działania każdego gracza na podstawie stanu planszy i dialogów, wykorzystując to jako punkt wyjścia dla algorytmu planowania z wykorzystaniem modeli wyszkolonych przez RL.

Sztuczna inteligencja wykorzystuje moduł rozumowania strategicznego do inteligentnego wybierania intencji i działań, mówi firma.

Moduł ten następnie uruchamia algorytm planowania, który przewiduje politykę wszystkich innych graczy na podstawie stanu gry i dialogów oraz uwzględnia zarówno siłę różnych działań, jak i ich prawdopodobieństwo w grach ludzkich. W oparciu o te informacje i zmienne podejmowane jest najlepsze optymalne działanie dla Cycerona.

Pod kierownictwem założyciela i dyrektora generalnego Meta, Marka Zuckerberga, firma intensywnie inwestuje w sztuczną inteligencję i metaverse, aby skorzystać z szybko rozwijającej się branży postrzeganej jako przyszłość technologii.

W razie zamówieenia projektu MetaWiadomości.

Znak czasu:

Więcej z MetaWiadomości