Salam Cicero, Sang Penakluk – AI mengalahkan manusia dalam Diplomasi

Node Sumber: 1763695

Meta Platforms Inc, perusahaan induk Facebook, mengatakan telah menciptakan AI yang dapat mengakali manusia dalam versi online dari permainan strategi populer, Diplomacy, di mana tujuh pemain bersaing untuk menguasai geografis Eropa dengan memindahkan potongan-potongan di peta.

Dalam sebuah makalah yang diterbitkan di Science.com, kata Meta Cicero, adalah agen AI pertama yang mencapai kinerja tingkat manusia dalam Diplomasi, sebuah permainan yang melibatkan kerja sama dan kompetisi yang menekankan negosiasi bahasa alami dan koordinasi taktis antara tujuh pemain.

Dalam total 40 game Diplomasi online anonim, Meta mengatakan Cicero telah mencapai lebih dari dua kali lipat skor rata-rata pemain manusia dan menempati peringkat 10% teratas dari peserta yang memainkan lebih dari satu game.

Grup teknologi terkemuka mengatakan ini adalah bagian dari tujuan strategis dan jangka panjangnya di bidang kecerdasan buatan untuk membangun agen yang dapat merencanakan, berkoordinasi, dan bernegosiasi dengan manusia dalam bahasa alami.

Seberapa penting Cicero?

Meta mengatakan Cicero cukup signifikan karena AI bergantung pada lingkungan non-permusuhan.

Tidak seperti di masa lalu di mana kesuksesan besar sebelumnya untuk AI multi-agen berada di lingkungan yang murni bermusuhan, seperti Catur (2), Go (3), dan Poker (4), di mana komunikasi tidak memiliki nilai, Cicero menggunakan mesin penalaran strategis. dan modul dialog yang dapat dikontrol.

Untuk alasan ini, kata meta Diplomasi telah berfungsi sebagai tolok ukur yang menantang untuk pembelajaran multi-agen.

“Cicero memasangkan modul dialog yang dapat dikontrol dengan mesin penalaran strategis. Di setiap titik dalam game, Cicero memodelkan bagaimana pemain lain cenderung bertindak berdasarkan status game dan percakapan mereka, ”kata Meta.

AI kemudian merencanakan bagaimana para pemain dapat berkoordinasi untuk saling menguntungkan dan memetakan rencana ini ke dalam pesan bahasa alami.

Ketidakpercayaan yang sehat

Cicero menghindari proposal yang membabi buta dari pemain lain dan menolak rencana yang memiliki "nilai prediksi" rendah dan yang sejalan dengan kepentingannya sendiri.

Karena fakta bahwa dialog dalam Diplomasi terjadi secara pribadi antara pasangan pemain, Cicero bernalar dan menganalisis informasi yang dapat diakses pemain saat membuat prediksi.

"Misalnya, jika Cicero mengoordinasikan serangan dengan sekutu melawan musuh, prediksi Cicero tentang kebijakan musuh harus memperhitungkan fakta bahwa musuh tidak mengetahui koordinasi yang dimaksud," kata Meta.

Meta mengatakan itu memasuki Cicero secara anonim dalam 40 pertandingan Diplomasi di liga online pemain manusia antara 19 Agustus dan 13 Oktober 2022.

Selama 72 jam permainan yang melibatkan pengiriman 5,277 pesan, Cicero menempati peringkat 10% teratas dari peserta yang memainkan lebih dari satu permainan, katanya.

Meta mengatakan mengumpulkan data dari 125,261 game Diplomasi yang dimainkan online di webDiplomacy.net. Dari game tersebut, total 40,408 game berisi dialog, dengan total 12,901,662 pesan yang dipertukarkan antar pemain.

Prompt: "Robot mengalahkan orang lain dalam permainan Diplomasi" (dihasilkan oleh AI).

Meta mencatat, AI barunya jauh dari sempurna

Cicero mengirim pesan yang mengandung kesalahan, terkadang bertentangan dengan rencananya sendiri dan membuat kesalahan strategis.

Tetapi Meta bersikeras bahwa manusia tetap memilih untuk berkolaborasi dengan AI daripada pemain lain tanpa menyadari bahwa itu adalah Bot.

“Hampir semua terobosan AI sebelumnya dalam game adalah pengaturan dua pemain zero-sum (2p0s), termasuk catur, Go, head-up poker, dan StarCraft. Dalam game 2p0s terbatas, algoritme pembelajaran penguatan (RL) tertentu yang belajar dengan bermain melawan diri mereka sendiri — sebuah proses yang dikenal sebagai permainan mandiri — akan menyatu dengan kebijakan yang tidak terkalahkan dalam ekspektasi dalam permainan seimbang, ”tambah Meta di makalah. “Dengan kata lain, setiap game 2p0 yang terbatas dapat diselesaikan melalui permainan mandiri dengan komputasi dan kapasitas model yang memadai.”

Namun, Meta mengatakan mengenai game yang melibatkan kerja sama, permainan mandiri tanpa data manusia tidak lagi dijamin untuk menemukan kebijakan yang bekerja dengan baik dengan manusia, bahkan dengan kapasitas komputasi dan model yang tak terbatas, karena agen permainan mandiri dapat menyatu dengan kebijakan yang tidak sesuai dengan norma dan harapan manusia.

Meta menambahkan bahwa Cicero mengantisipasi kemungkinan tindakan untuk setiap pemain berdasarkan keadaan papan dan dialog, menggunakannya sebagai titik awal untuk algoritme perencanaan menggunakan model yang dilatih RL.

AI menggunakan modul penalaran strategis untuk secara cerdas memilih niat dan tindakan, kata perusahaan itu.

Modul ini kemudian menjalankan algoritme perencanaan yang memprediksi kebijakan semua pemain lain berdasarkan status game dan dialog serta memperhitungkan kekuatan tindakan yang berbeda dan kemungkinannya dalam game manusia. Berdasarkan informasi dan variabel ini, diambil tindakan optimal terbaik untuk Cicero.

Di bawah pendiri dan CEO Meta Mark Zuckerberg, perusahaan telah banyak berinvestasi di AI dan metaverse untuk memanfaatkan industri yang berkembang pesat yang dipandang sebagai masa depan teknologi.

Untuk Berita Meta.

Stempel Waktu:

Lebih dari Berita Meta