AI เอาชนะมนุษย์ใน Stratego

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

อีกเกมหนึ่งที่เชื่อกันมานานว่าเป็นความท้าทายอย่างมากสำหรับปัญญาประดิษฐ์ (AI) ในการเอาชนะได้ตกเป็นของบอท: Stratego

DeepNash ซึ่งเป็น AI ที่ผลิตโดยบริษัทในลอนดอน Deepmindตอนนี้จับคู่ผู้เชี่ยวชาญที่ Stratego ซึ่งเป็นเกมกระดานที่ต้องใช้ความคิดเชิงกลยุทธ์ระยะยาวกับข้อมูลที่ไม่สมบูรณ์

ความสำเร็จครั้งล่าสุดนี้เกิดขึ้นจากชัยชนะครั้งสำคัญอีกครั้งสำหรับ AI ในเกมที่ก่อนหน้านี้คิดว่าเป็นมือขวาของมนุษย์

เมื่อสัปดาห์ที่แล้ว Cicero ของ Meta ซึ่งเป็นเอไอนั้น สามารถเอาชนะผู้เล่นที่เป็นมนุษย์ได้ ในเกมการทูตสร้างประวัติศาสตร์ด้วยการชิงไหวชิงพริบฝ่ายตรงข้ามทางออนไลน์

“อัตราที่คุณสมบัติเกมที่แตกต่างกันเชิงคุณภาพถูกพิชิต – หรือเชี่ยวชาญไปสู่ระดับใหม่ – โดย AI ในช่วงไม่กี่ปีที่ผ่านมานั้นค่อนข้างน่าทึ่ง” Michael Wellman จาก University of Michigan ใน Ann Arbor นักวิทยาศาสตร์คอมพิวเตอร์ผู้ศึกษาการใช้เหตุผลเชิงกลยุทธ์และเกมกล่าว ทฤษฎี.

Wellman กล่าวว่า “กลยุทธ์และการทูตค่อนข้างแตกต่างกัน และยังมีฟีเจอร์ที่ท้าทายซึ่งแตกต่างอย่างมากจากเกมที่บรรลุเป้าหมายที่คล้ายคลึงกัน” Wellman กล่าว

ข้อมูลไม่สมบูรณ์

เกมมีลักษณะที่โดยทั่วไปซับซ้อนกว่าหมากรุก โกะ หรือโป๊กเกอร์ Chess, Go และ Poker ได้รับการควบคุมโดย AIs

ในเกม Stratego ผู้เล่นสองคนวางหมาก 40 ชิ้นไว้บนกระดาน แต่ต้องไม่ดูว่าฝ่ายตรงข้ามเป็นหมากอะไร

วัตถุประสงค์ของเกมคือย้ายชิ้นส่วนเพื่อกำจัดฝ่ายตรงข้ามและยึดธง

โครงสร้างเกมของ Stratego ซึ่งเป็นกราฟของแนวทางที่เป็นไปได้ทั้งหมดที่เกมอาจดำเนินไปได้ มีสถานะ 10535 เทียบกับ Go's 10360

เมื่อพูดถึงข้อมูลที่ไม่สมบูรณ์ในตอนเริ่มเกม Stratego มีตำแหน่งส่วนตัวที่เป็นไปได้ 1066 ตำแหน่ง ซึ่งเป็นตัวเลขที่แคระเพียง 106 สถานการณ์เริ่มต้นในโป๊กเกอร์ Texas Hold'em ที่มีผู้เล่นสองคน

“ความซับซ้อนที่แท้จริงของจำนวนผลลัพธ์ที่เป็นไปได้ใน Stratego หมายถึงอัลกอริธึมที่ทำงานได้ดีกับเกมที่มีข้อมูลสมบูรณ์แบบ และแม้แต่เกมที่ใช้กับโป๊กเกอร์ก็ไม่ได้ผล” Julien Perolat นักวิจัย DeepMind จากปารีสกล่าว

DeepNash ได้รับการพัฒนาโดย Perolat และเพื่อนร่วมงานของเขา

บอตแรงบันดาลใจแนช

ชื่อของบอทเป็นการยกย่องให้กับจอห์น แนช นักคณิตศาสตร์ชื่อดังของสหรัฐฯ ผู้ซึ่งเป็นผู้คิดค้นทฤษฎีสมดุลของแนช ซึ่งคิดว่ามี "ชุดกลยุทธ์ที่เสถียร" ที่ผู้เล่นสามารถติดตามในลักษณะที่ไม่มีผู้เล่นคนใดได้ประโยชน์จากการเปลี่ยนกลยุทธ์ ได้ด้วยตัวเอง. ด้วยเหตุนี้ เกมจึงมีแนวโน้มที่จะไม่มีดุลยภาพของแนชเป็นศูนย์ หนึ่งหรือหลายจุด

DeepNash รวมอัลกอริทึมการเรียนรู้เสริมและโครงข่ายประสาทเทียมเชิงลึกเพื่อค้นหาสมดุลของแนช

โดยทั่วไป การเรียนรู้แบบเสริมกำลังคือการที่ตัวแทนอัจฉริยะ (โปรแกรมคอมพิวเตอร์) โต้ตอบกับสภาพแวดล้อมและเรียนรู้นโยบายที่ดีที่สุดในการกำหนดการกระทำสำหรับทุกสถานะของเกม

เพื่อให้มีนโยบายที่ดีที่สุด DeepNash เล่นเกมทั้งหมด 5.5 พันล้านเกมกับตัวเอง

โดยพื้นฐานแล้ว หากฝ่ายหนึ่งถูกลงโทษ อีกฝ่ายหนึ่งจะได้รับรางวัล และตัวแปรของโครงข่ายประสาทเทียมซึ่งเป็นตัวแทนของนโยบายจะได้รับการปรับแต่งตามนั้น

AI เอาชนะมนุษย์ใน Stratego – พบกับ DeepMash

ในบางช่วง DeepNash จะบรรจบกับสมดุลแนชโดยประมาณ DeepNash ไม่เหมือนกับบอทอื่น ๆ เพิ่มประสิทธิภาพตัวเองโดยไม่ต้องใช้ sล้วงผ่านต้นไม้ของเกม

ตลอดระยะเวลาสองสัปดาห์ DeepNash เล่นกับผู้เล่น Stratego ที่เป็นมนุษย์บนแพลตฟอร์มเกมออนไลน์ Gravon

หลังจากแข่งขัน 50 นัด Ai อยู่ในอันดับที่สามจากผู้เล่น Gravon Stratego ทั้งหมดตั้งแต่ปี 2002

“ผลงานของเราแสดงให้เห็นว่าเกมที่ซับซ้อนอย่างเช่น Stratego ซึ่งเกี่ยวข้องกับข้อมูลที่ไม่สมบูรณ์ ไม่ต้องใช้เทคนิคการค้นหาเพื่อแก้ปัญหา” Karl Tuyls สมาชิกในทีม นักวิจัย DeepMind จากปารีสกล่าว “นี่เป็นก้าวสำคัญของ AI”

นักวิจัยคนอื่น ๆ ก็ประทับใจกับความสำเร็จนี้เช่นกัน

ผลลัพธ์ที่น่าประทับใจ

“ผลลัพธ์นั้นน่าประทับใจ” โนม บราวน์ นักวิจัยของ Meta AI ซึ่งมีสำนักงานใหญ่ในนิวยอร์กซิตี้ และสมาชิกในทีมเห็นด้วย ซึ่งในปี 2019 ได้รายงานถึง Pluribus4 ของ AI ที่เล่นโป๊กเกอร์

ที่ Meta บริษัทแม่ของ Facebook บราวน์และเพื่อนร่วมงานของเธอได้สร้าง AI ที่สามารถเล่น Diplomacy ซึ่งเป็นเกมที่ผู้เล่น XNUMX คนแข่งขันกันเพื่อควบคุมพื้นที่ทางภูมิศาสตร์ของยุโรปด้วยการย้ายส่วนต่างๆ บนแผนที่

ในทางการทูต เป้าหมายคือการควบคุมศูนย์จัดหาโดยหน่วยเคลื่อนที่ (กองเรือและกองทัพ)

Meta กล่าวว่า Cicero มีความสำคัญมากเนื่องจาก AI อาศัยสภาพแวดล้อมที่ไม่ใช่ศัตรู

ซึ่งแตกต่างจากในอดีตที่ความสำเร็จครั้งสำคัญก่อนหน้านี้สำหรับ AI แบบหลายตัวแทนอยู่ในสภาพแวดล้อมที่เป็นปฏิปักษ์อย่างแท้จริง เช่น Chess, Go และ Poker ซึ่งการสื่อสารไม่มีค่า Cicero ใช้กลไกการให้เหตุผลเชิงกลยุทธ์และโมดูลการสนทนาที่ควบคุมได้

“เมื่อคุณไปไกลกว่าเกมผลรวมศูนย์สำหรับผู้เล่นสองคน แนวคิดเรื่องสมดุลของแนชก็ไม่มีประโยชน์สำหรับการเล่นร่วมกับมนุษย์อีกต่อไป” บราวน์กล่าว

บราวน์และทีมของเธอฝึกฝน Cicero โดยใช้ข้อมูลจากเกม 125,261 เกมของ Diplomacy เวอร์ชันออนไลน์ที่เกี่ยวข้องกับผู้เล่นที่เป็นมนุษย์

การใช้ข้อมูลการเล่นด้วยตนเองและโมดูลการให้เหตุผลเชิงกลยุทธ์ (SRM) ซิเซโรเรียนรู้ที่จะทำนายการตัดสินโดยสถานะของเกมและข้อความที่สะสม การเคลื่อนไหวและนโยบายที่น่าจะเป็นของผู้เล่นคนอื่น

AI เอาชนะมนุษย์ใน Stratego – พบกับ DeepMash

Meta กล่าวว่ารวบรวมข้อมูลจากเกม Diplomacy 125,261 เกมที่เล่นออนไลน์ที่ webDiplomacy.net ในบรรดาเกมเหล่านี้ เกมทั้งหมด 40,408 เกมมีบทสนทนา โดยมีทั้งหมด 12,901,662 ข้อความที่แลกเปลี่ยนระหว่างผู้เล่น

พฤติกรรมในโลกแห่งความเป็นจริง

บราวน์เชื่อว่าบอทที่เล่นเกมอย่างซิเซโรสามารถโต้ตอบกับมนุษย์และอธิบายถึง "การกระทำของมนุษย์ที่ไม่เหมาะสมหรือแม้แต่ไร้เหตุผลสามารถปูทางสำหรับการใช้งานในโลกแห่งความเป็นจริง"

“หากคุณกำลังสร้างรถยนต์ไร้คนขับ คุณคงไม่อยากคิดว่าคนขับรถคนอื่นๆ บนท้องถนนนั้นมีเหตุผลอย่างสมบูรณ์แบบ และจะประพฤติตัวอย่างเหมาะสม” เขากล่าว

เขากล่าวเสริมว่าซิเซโรเป็นก้าวสำคัญในทิศทางนี้ “เรายังมีขาเดียวในโลกของเกม แต่ตอนนี้เราก็มีขาเดียวในโลกแห่งความจริงเช่นกัน”

คนอื่น ๆ เช่น Wellman เห็นด้วย แต่ยืนยันว่ายังมีงานต้องทำอีกมาก “เทคนิคหลายอย่างเหล่านี้มีความเกี่ยวข้องมากกว่าเกมสันทนาการ” กับการใช้งานในโลกแห่งความเป็นจริง เขากล่าว “อย่างไรก็ตาม ในบางจุด ห้องปฏิบัติการวิจัย AI ชั้นนำจำเป็นต้องไปให้ไกลกว่าสถานที่พักผ่อนหย่อนใจ และค้นหาวิธีการวัดความก้าวหน้าทางวิทยาศาสตร์เกี่ยวกับ 'เกม' ในโลกแห่งความจริงที่เราสนใจจริงๆ”

/เมตานิวส์.

ประทับเวลา: December 6, 2022December 6, 2022