อีกเกมหนึ่งที่เชื่อกันมานานว่าเป็นความท้าทายอย่างมากสำหรับปัญญาประดิษฐ์ (AI) ในการเอาชนะได้ตกเป็นของบอท: Stratego
DeepNash ซึ่งเป็น AI ที่ผลิตโดยบริษัทในลอนดอน Deepmindตอนนี้จับคู่ผู้เชี่ยวชาญที่ Stratego ซึ่งเป็นเกมกระดานที่ต้องใช้ความคิดเชิงกลยุทธ์ระยะยาวกับข้อมูลที่ไม่สมบูรณ์
ความสำเร็จครั้งล่าสุดนี้เกิดขึ้นจากชัยชนะครั้งสำคัญอีกครั้งสำหรับ AI ในเกมที่ก่อนหน้านี้คิดว่าเป็นมือขวาของมนุษย์
เมื่อสัปดาห์ที่แล้ว Cicero ของ Meta ซึ่งเป็นเอไอนั้น สามารถเอาชนะผู้เล่นที่เป็นมนุษย์ได้ ในเกมการทูตสร้างประวัติศาสตร์ด้วยการชิงไหวชิงพริบฝ่ายตรงข้ามทางออนไลน์
“อัตราที่คุณสมบัติเกมที่แตกต่างกันเชิงคุณภาพถูกพิชิต – หรือเชี่ยวชาญไปสู่ระดับใหม่ – โดย AI ในช่วงไม่กี่ปีที่ผ่านมานั้นค่อนข้างน่าทึ่ง” Michael Wellman จาก University of Michigan ใน Ann Arbor นักวิทยาศาสตร์คอมพิวเตอร์ผู้ศึกษาการใช้เหตุผลเชิงกลยุทธ์และเกมกล่าว ทฤษฎี.
Wellman กล่าวว่า “กลยุทธ์และการทูตค่อนข้างแตกต่างกัน และยังมีฟีเจอร์ที่ท้าทายซึ่งแตกต่างอย่างมากจากเกมที่บรรลุเป้าหมายที่คล้ายคลึงกัน” Wellman กล่าว
ข้อมูลไม่สมบูรณ์
เกมมีลักษณะที่โดยทั่วไปซับซ้อนกว่าหมากรุก โกะ หรือโป๊กเกอร์ Chess, Go และ Poker ได้รับการควบคุมโดย AIs
วัตถุประสงค์ของเกมคือย้ายชิ้นส่วนเพื่อกำจัดฝ่ายตรงข้ามและยึดธง
โครงสร้างเกมของ Stratego ซึ่งเป็นกราฟของแนวทางที่เป็นไปได้ทั้งหมดที่เกมอาจดำเนินไปได้ มีสถานะ 10535 เทียบกับ Go's 10360
เมื่อพูดถึงข้อมูลที่ไม่สมบูรณ์ในตอนเริ่มเกม Stratego มีตำแหน่งส่วนตัวที่เป็นไปได้ 1066 ตำแหน่ง ซึ่งเป็นตัวเลขที่แคระเพียง 106 สถานการณ์เริ่มต้นในโป๊กเกอร์ Texas Hold'em ที่มีผู้เล่นสองคน
“ความซับซ้อนที่แท้จริงของจำนวนผลลัพธ์ที่เป็นไปได้ใน Stratego หมายถึงอัลกอริธึมที่ทำงานได้ดีกับเกมที่มีข้อมูลสมบูรณ์แบบ และแม้แต่เกมที่ใช้กับโป๊กเกอร์ก็ไม่ได้ผล” Julien Perolat นักวิจัย DeepMind จากปารีสกล่าว
DeepNash ได้รับการพัฒนาโดย Perolat และเพื่อนร่วมงานของเขา
บอตแรงบันดาลใจแนช
ชื่อของบอทเป็นการยกย่องให้กับจอห์น แนช นักคณิตศาสตร์ชื่อดังของสหรัฐฯ ผู้ซึ่งเป็นผู้คิดค้นทฤษฎีสมดุลของแนช ซึ่งคิดว่ามี "ชุดกลยุทธ์ที่เสถียร" ที่ผู้เล่นสามารถติดตามในลักษณะที่ไม่มีผู้เล่นคนใดได้ประโยชน์จากการเปลี่ยนกลยุทธ์ ได้ด้วยตัวเอง. ด้วยเหตุนี้ เกมจึงมีแนวโน้มที่จะไม่มีดุลยภาพของแนชเป็นศูนย์ หนึ่งหรือหลายจุด
DeepNash รวมอัลกอริทึมการเรียนรู้เสริมและโครงข่ายประสาทเทียมเชิงลึกเพื่อค้นหาสมดุลของแนช
โดยทั่วไป การเรียนรู้แบบเสริมกำลังคือการที่ตัวแทนอัจฉริยะ (โปรแกรมคอมพิวเตอร์) โต้ตอบกับสภาพแวดล้อมและเรียนรู้นโยบายที่ดีที่สุดในการกำหนดการกระทำสำหรับทุกสถานะของเกม
เพื่อให้มีนโยบายที่ดีที่สุด DeepNash เล่นเกมทั้งหมด 5.5 พันล้านเกมกับตัวเอง
โดยพื้นฐานแล้ว หากฝ่ายหนึ่งถูกลงโทษ อีกฝ่ายหนึ่งจะได้รับรางวัล และตัวแปรของโครงข่ายประสาทเทียมซึ่งเป็นตัวแทนของนโยบายจะได้รับการปรับแต่งตามนั้น
ในบางช่วง DeepNash จะบรรจบกับสมดุลแนชโดยประมาณ DeepNash ไม่เหมือนกับบอทอื่น ๆ เพิ่มประสิทธิภาพตัวเองโดยไม่ต้องใช้ sล้วงผ่านต้นไม้ของเกม
ตลอดระยะเวลาสองสัปดาห์ DeepNash เล่นกับผู้เล่น Stratego ที่เป็นมนุษย์บนแพลตฟอร์มเกมออนไลน์ Gravon
หลังจากแข่งขัน 50 นัด Ai อยู่ในอันดับที่สามจากผู้เล่น Gravon Stratego ทั้งหมดตั้งแต่ปี 2002
“ผลงานของเราแสดงให้เห็นว่าเกมที่ซับซ้อนอย่างเช่น Stratego ซึ่งเกี่ยวข้องกับข้อมูลที่ไม่สมบูรณ์ ไม่ต้องใช้เทคนิคการค้นหาเพื่อแก้ปัญหา” Karl Tuyls สมาชิกในทีม นักวิจัย DeepMind จากปารีสกล่าว “นี่เป็นก้าวสำคัญของ AI”
นักวิจัยคนอื่น ๆ ก็ประทับใจกับความสำเร็จนี้เช่นกัน
ผลลัพธ์ที่น่าประทับใจ
“ผลลัพธ์นั้นน่าประทับใจ” โนม บราวน์ นักวิจัยของ Meta AI ซึ่งมีสำนักงานใหญ่ในนิวยอร์กซิตี้ และสมาชิกในทีมเห็นด้วย ซึ่งในปี 2019 ได้รายงานถึง Pluribus4 ของ AI ที่เล่นโป๊กเกอร์
ที่ Meta บริษัทแม่ของ Facebook บราวน์และเพื่อนร่วมงานของเธอได้สร้าง AI ที่สามารถเล่น Diplomacy ซึ่งเป็นเกมที่ผู้เล่น XNUMX คนแข่งขันกันเพื่อควบคุมพื้นที่ทางภูมิศาสตร์ของยุโรปด้วยการย้ายส่วนต่างๆ บนแผนที่
ในทางการทูต เป้าหมายคือการควบคุมศูนย์จัดหาโดยหน่วยเคลื่อนที่ (กองเรือและกองทัพ)
Meta กล่าวว่า Cicero มีความสำคัญมากเนื่องจาก AI อาศัยสภาพแวดล้อมที่ไม่ใช่ศัตรู
ซึ่งแตกต่างจากในอดีตที่ความสำเร็จครั้งสำคัญก่อนหน้านี้สำหรับ AI แบบหลายตัวแทนอยู่ในสภาพแวดล้อมที่เป็นปฏิปักษ์อย่างแท้จริง เช่น Chess, Go และ Poker ซึ่งการสื่อสารไม่มีค่า Cicero ใช้กลไกการให้เหตุผลเชิงกลยุทธ์และโมดูลการสนทนาที่ควบคุมได้
“เมื่อคุณไปไกลกว่าเกมผลรวมศูนย์สำหรับผู้เล่นสองคน แนวคิดเรื่องสมดุลของแนชก็ไม่มีประโยชน์สำหรับการเล่นร่วมกับมนุษย์อีกต่อไป” บราวน์กล่าว
บราวน์และทีมของเธอฝึกฝน Cicero โดยใช้ข้อมูลจากเกม 125,261 เกมของ Diplomacy เวอร์ชันออนไลน์ที่เกี่ยวข้องกับผู้เล่นที่เป็นมนุษย์
การใช้ข้อมูลการเล่นด้วยตนเองและโมดูลการให้เหตุผลเชิงกลยุทธ์ (SRM) ซิเซโรเรียนรู้ที่จะทำนายการตัดสินโดยสถานะของเกมและข้อความที่สะสม การเคลื่อนไหวและนโยบายที่น่าจะเป็นของผู้เล่นคนอื่น
Meta กล่าวว่ารวบรวมข้อมูลจากเกม Diplomacy 125,261 เกมที่เล่นออนไลน์ที่ webDiplomacy.net ในบรรดาเกมเหล่านี้ เกมทั้งหมด 40,408 เกมมีบทสนทนา โดยมีทั้งหมด 12,901,662 ข้อความที่แลกเปลี่ยนระหว่างผู้เล่น
พฤติกรรมในโลกแห่งความเป็นจริง
บราวน์เชื่อว่าบอทที่เล่นเกมอย่างซิเซโรสามารถโต้ตอบกับมนุษย์และอธิบายถึง "การกระทำของมนุษย์ที่ไม่เหมาะสมหรือแม้แต่ไร้เหตุผลสามารถปูทางสำหรับการใช้งานในโลกแห่งความเป็นจริง"
“หากคุณกำลังสร้างรถยนต์ไร้คนขับ คุณคงไม่อยากคิดว่าคนขับรถคนอื่นๆ บนท้องถนนนั้นมีเหตุผลอย่างสมบูรณ์แบบ และจะประพฤติตัวอย่างเหมาะสม” เขากล่าว
เขากล่าวเสริมว่าซิเซโรเป็นก้าวสำคัญในทิศทางนี้ “เรายังมีขาเดียวในโลกของเกม แต่ตอนนี้เราก็มีขาเดียวในโลกแห่งความจริงเช่นกัน”
คนอื่น ๆ เช่น Wellman เห็นด้วย แต่ยืนยันว่ายังมีงานต้องทำอีกมาก “เทคนิคหลายอย่างเหล่านี้มีความเกี่ยวข้องมากกว่าเกมสันทนาการ” กับการใช้งานในโลกแห่งความเป็นจริง เขากล่าว “อย่างไรก็ตาม ในบางจุด ห้องปฏิบัติการวิจัย AI ชั้นนำจำเป็นต้องไปให้ไกลกว่าสถานที่พักผ่อนหย่อนใจ และค้นหาวิธีการวัดความก้าวหน้าทางวิทยาศาสตร์เกี่ยวกับ 'เกม' ในโลกแห่งความจริงที่เราสนใจจริงๆ”
- AI
- ปัญญาประดิษฐ์
- Bitcoin
- blockchain
- การปฏิบัติตามบล็อคเชน
- หมากรุก
- coinbase
- เหรียญอัจฉริยะ
- เอกฉันท์
- การประชุม crypto
- การทำเหมือง crypto
- cryptocurrency
- ซึ่งกระจายอำนาจ
- Deepmind
- ดีพแนช
- Defi
- สินทรัพย์ดิจิทัล
- การทูต
- ethereum
- เกม
- Go
- เรียนรู้เครื่อง
- Meta
- เมตานิวส์
- โทเค็นที่ไม่สามารถทำซ้ำได้
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- เพลโตเกม
- โป๊กเกอร์
- รูปหลายเหลี่ยม
- หลักฐานการเดิมพัน
- กลยุทธ์
- W3
- ลมทะเล