Fatih Cicero'ya selam olsun – AI Diplomaside insanları yener

Kaynak Düğüm: 1763695

Facebook'un ana şirketi Meta Platforms Inc, yedi oyuncunun bir harita üzerinde parçaları hareket ettirerek Avrupa'nın coğrafi kontrolü için rekabet ettiği popüler strateji oyunu Diplomacy'nin çevrimiçi bir versiyonunda insanları zekasıyla alt edebilecek bir yapay zeka yarattığını söyledi.

Science.com'da yayınlanan bir makalede Meta, şunları söyledi: Cicero, yedi oyuncu arasında doğal dil müzakeresini ve taktiksel koordinasyonu vurgulayan hem işbirliği hem de rekabeti içeren bir oyun olan Diplomacy'de insan düzeyinde performans elde eden ilk yapay zeka ajanıydı.

Toplam 40 anonim çevrimiçi Diplomasi oyununda Meta, Cicero'nun insan oyuncuların ortalama puanının iki katından fazlasını elde ettiğini ve birden fazla oyun oynayan katılımcıların ilk %10'u arasında yer aldığını söyledi.

Önde gelen teknoloji grubu, bunun, insanlarla doğal dilde plan yapabilen, koordine edebilen ve müzakere edebilen aracılar oluşturmak için yapay zeka alanındaki stratejik ve uzun vadeli hedefinin bir parçası olduğunu söyledi.

Cicero ne kadar önemli?

Meta, Cicero'nun oldukça önemli olduğunu çünkü yapay zekanın düşmanca olmayan ortamlara dayandığını söylüyor.

İletişimin hiçbir değerinin olmadığı Satranç (2), Go (3) ve Poker (4) gibi tamamen çekişmeli ortamlarda çok aracılı yapay zeka için önceki büyük başarıların olduğu geçmişten farklı olarak, Cicero stratejik bir muhakeme motoru kullanır. ve kontrol edilebilir diyalog modülü.

Bu nedenlerden dolayı meta, Diplomasinin çok aracılı öğrenme için zorlu bir ölçüt işlevi gördüğünü söylüyor.

"Cicero, kontrol edilebilir bir diyalog modülünü stratejik bir muhakeme motoruyla birleştiriyor. Oyunun her noktasında Cicero, diğer oyuncuların oyun durumuna ve konuşmalarına göre nasıl davranacaklarını modelliyor,” diyor Meta.

Yapay zeka daha sonra oyuncuların karşılıklı çıkarları doğrultusunda nasıl koordine edebileceklerini planlar ve bu planları doğal dil mesajlarına dönüştürür.

sağlıklı güvensizlik

Cicero, diğer oyuncuların tekliflerine körü körüne güvenmekten kaçınır ve “öngörülen değeri” düşük olan ve kendi çıkarlarıyla paralel giden planları reddeder.

Diplomaside diyaloğun oyuncu çiftleri arasında özel olarak gerçekleşmesi nedeniyle, Cicero oyuncuların tahminlerde bulunurken erişebildiği bilgileri akıl yürütür ve analiz eder.

Meta, "Örneğin, Cicero bir düşmana karşı bir müttefikle bir saldırıyı koordine ediyorsa, Cicero'nun hasmın politikasına ilişkin tahmini, hasmın amaçlanan koordinasyondan haberdar olmadığı gerçeğini açıklamalıdır" dedi.

Meta, 40 Ağustos - 19 Ekim 13 tarihleri ​​arasında çevrimiçi bir insan oyuncular liginde 2022 Diplomasi maçında Cicero'ya isimsiz olarak girdiğini söylüyor.

72 mesaj göndermeyi içeren 5,277 saatlik oyun boyunca Cicero, birden fazla oyun oynayan katılımcıların ilk %10'u arasında yer aldı.

Meta, webDiplomacy.net'te çevrimiçi oynanan 125,261 Diplomasi oyunundan veri topladığını söylüyor. Bu oyunların toplam 40,408'i diyalog içeriyordu ve oyuncular arasında toplam 12,901,662 mesaj değiş tokuşu yapıldı.

Komut istemi: "Bir Diplomasi oyununda robot herkesi yeniyor" (Yapay zeka tarafından üretilmiştir).

Meta notlar, yeni yapay zekası mükemmel olmaktan uzak

Cicero hata içeren, bazen kendi planlarıyla çelişen ve stratejik hatalar yapan mesajlar gönderdi.

Ancak Meta, insanların yine de onun bir Bot olduğunun farkına varmadan diğer oyuncular yerine yapay zeka ile işbirliği yapmayı seçtiklerinde ısrar ediyor.

"Satranç, Go, teke tek poker ve StarCraft dahil olmak üzere, oyunlardaki önceki tüm AI atılımlarının neredeyse tamamı iki oyunculu sıfır toplamlı (2p0s) ayarlarda olmuştur. Sonlu 2p0s oyunlarında, kendilerine karşı oynayarak öğrenen belirli takviyeli öğrenme (RL) algoritmaları - kendi kendine oynama olarak bilinen bir süreç - dengeli oyunlarda beklenti açısından yenilmez bir politikaya yakınlaşacaktır." "Başka bir deyişle, herhangi bir sonlu 2p0s oyunu, yeterli bilgi işlem ve model kapasitesi ile kendi kendine oynama yoluyla çözülebilir."

Bununla birlikte Meta, işbirliği içeren oyunlarla ilgili olarak, insan verileri olmadan kendi kendine oynamanın, sonsuz hesaplama ve model kapasitesiyle bile insanlarla iyi performans gösteren bir politika bulmanın artık garanti edilmediğini çünkü kendi kendine oynama aracısının bir politikaya yakınsayabileceğini söyledi. insan normları ve beklentileri ile bağdaşmaz.

Meta, Cicero'nun tahtanın durumuna ve diyaloğa dayalı olarak her oyuncu için olası eylemleri tahmin ettiğini ve bunu RL ile eğitilmiş modeller kullanan bir planlama algoritması için başlangıç ​​noktası olarak kullandığını ekledi.

Şirket, AI'nın niyetleri ve eylemleri akıllıca seçmek için stratejik bir muhakeme modülü kullandığını söylüyor.

Bu modül daha sonra oyun durumuna ve diyaloğa dayalı olarak diğer tüm oyuncuların politikalarını tahmin eden ve hem farklı eylemlerin gücünü hem de insan oyunlarındaki olasılıklarını açıklayan bir planlama algoritması çalıştırır. Bu bilgi ve değişkenlere dayanarak, Cicero için en uygun eylem gerçekleştirilir.

Meta'nın kurucusu ve CEO'su Mark Zuckerberg yönetimindeki şirket, teknolojinin geleceği olarak görülen hızla büyüyen sektörden yararlanmak için yapay zekaya ve metaverse'ye büyük yatırımlar yapıyor.

İçin MetaHaberler.

Zaman Damgası:

Den fazla MetaHaberler