All Hail Cicero ผู้พิชิต – AI เอาชนะมนุษย์ด้วยการทูต

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

Meta Platforms Inc ซึ่งเป็นบริษัทแม่ของ Facebook กล่าวว่าได้สร้าง AI ที่สามารถเอาชนะมนุษย์ในเกมกลยุทธ์ยอดนิยมเวอร์ชันออนไลน์อย่าง Diplomacy ที่ผู้เล่น XNUMX คนแข่งขันกันเพื่อควบคุมพื้นที่ทางภูมิศาสตร์ของยุโรปด้วยการเคลื่อนที่ไปรอบๆ แผนที่

ในบทความที่เผยแพร่บน Science.com Meta กล่าวว่า Cicero เป็นตัวแทน AI คนแรกที่ได้รับประสิทธิภาพระดับมนุษย์ใน Diplomacy ซึ่งเป็นเกมที่มีทั้งความร่วมมือและการแข่งขันที่เน้นการเจรจาด้วยภาษาธรรมชาติและการประสานงานทางยุทธวิธีระหว่างผู้เล่นเจ็ดคน

ในเกม Diplomacy ออนไลน์ที่ไม่ระบุชื่อทั้งหมด 40 เกม Meta กล่าวว่า Cicero ได้รับคะแนนเฉลี่ยมากกว่าสองเท่าของผู้เล่นที่เป็นมนุษย์ และอยู่ใน 10% แรกของผู้เข้าร่วมที่เล่นเกมมากกว่าหนึ่งเกม

กลุ่มเทคโนโลยีชั้นนำกล่าวว่านี่เป็นส่วนหนึ่งของกลยุทธ์และเป้าหมายระยะยาวในด้านปัญญาประดิษฐ์เพื่อสร้างเจ้าหน้าที่ที่สามารถวางแผน ประสานงาน และเจรจากับมนุษย์ด้วยภาษาธรรมชาติ

ซิเซโรมีความสำคัญอย่างไร?

Meta กล่าวว่า Cicero มีความสำคัญมากเนื่องจาก AI อาศัยสภาพแวดล้อมที่ไม่ใช่ศัตรู

แตกต่างจากในอดีตที่ความสำเร็จครั้งสำคัญก่อนหน้านี้สำหรับ AI แบบหลายตัวแทนอยู่ในสภาพแวดล้อมที่เป็นปฏิปักษ์อย่างแท้จริง เช่น Chess (2), Go (3) และ Poker (4) ซึ่งการสื่อสารไม่มีค่า Cicero ใช้เครื่องมือการให้เหตุผลเชิงกลยุทธ์ และโมดูลการสนทนาที่ควบคุมได้

ด้วยเหตุผลเหล่านี้ เมตากล่าวว่าการทูตทำหน้าที่เป็นเกณฑ์มาตรฐานที่ท้าทายสำหรับการเรียนรู้แบบหลายตัวแทน

“ซิเซโรจับคู่โมดูลการสนทนาที่ควบคุมได้กับเครื่องมือให้เหตุผลเชิงกลยุทธ์ ในแต่ละจุดของเกม Cicero จะจำลองพฤติกรรมของผู้เล่นคนอื่นๆ ตามสถานะของเกมและการสนทนาของพวกเขา” Meta กล่าว

จากนั้น AI จะวางแผนว่าผู้เล่นจะประสานงานกันอย่างไรเพื่อผลประโยชน์ร่วมกัน และกำหนดแผนเหล่านี้เป็นข้อความภาษาธรรมชาติ

ความไม่ไว้วางใจต่อสุขภาพ

ซิเซโรหลีกเลี่ยงการเชื่อข้อเสนอจากผู้เล่นคนอื่นอย่างสุ่มสี่สุ่มห้า และปฏิเสธแผนการที่มี "มูลค่าที่คาดการณ์ไว้" ต่ำและดำเนินขนานไปกับผลประโยชน์ของตนเอง

เนื่องจากข้อเท็จจริงที่ว่าบทสนทนาในการทูตเกิดขึ้นเป็นการส่วนตัวระหว่างผู้เล่นคู่หนึ่ง ซิเซโรจึงให้เหตุผลและวิเคราะห์ข้อมูลที่ผู้เล่นสามารถเข้าถึงได้เมื่อทำการทำนาย

“ตัวอย่างเช่น หาก Cicero กำลังประสานการโจมตีกับพันธมิตรเพื่อต่อต้านศัตรู การคาดคะเนของ Cicero เกี่ยวกับนโยบายของศัตรูจะต้องคำนึงถึงข้อเท็จจริงที่ว่าศัตรูไม่ทราบถึงการประสานงานที่ตั้งใจไว้” Meta กล่าว

Meta กล่าวว่าได้เข้าสู่ Cicero โดยไม่ระบุตัวตนในเกม 40 เกมของการทูตในลีกออนไลน์ของผู้เล่นที่เป็นมนุษย์ระหว่างวันที่ 19 สิงหาคมถึง 13 ตุลาคม 2022

ในช่วง 72 ชั่วโมงของการเล่นที่เกี่ยวข้องกับการส่งข้อความ 5,277 ข้อความ Cicero ติดอันดับ 10% แรกของผู้เข้าร่วมที่เล่นมากกว่าหนึ่งเกม

Meta กล่าวว่ารวบรวมข้อมูลจากเกม Diplomacy 125,261 เกมที่เล่นออนไลน์ที่ webDiplomacy.net ในบรรดาเกมเหล่านี้ เกมทั้งหมด 40,408 เกมมีบทสนทนา โดยมีทั้งหมด 12,901,662 ข้อความที่แลกเปลี่ยนระหว่างผู้เล่น

Prompt: “หุ่นยนต์เอาชนะคนอื่นในเกมการทูต” (สร้างโดย AI)

Meta note, AI ใหม่ของมันยังห่างไกลจากความสมบูรณ์แบบ

ซิเซโรส่งข้อความที่มีข้อผิดพลาด บางครั้งก็ขัดแย้งกับแผนของตัวเองและทำผิดพลาดเชิงกลยุทธ์

แต่ Meta ยืนยันว่ามนุษย์ยังคงเลือกที่จะร่วมมือกับ AI เหนือผู้เล่นคนอื่นโดยไม่รู้ว่ามันคือบอท

“ความก้าวหน้าของ AI ในเกมก่อนหน้านี้เกือบทั้งหมดอยู่ในการตั้งค่าศูนย์ผลรวมของผู้เล่นสองคน (2p0s) ซึ่งรวมถึงหมากรุก โกะ โป๊กเกอร์แบบเผชิญหน้า และสตาร์คราฟต์ ในเกม 2p0s ที่จำกัด อัลกอริธึมการเรียนรู้การเสริมแรง (RL) บางอย่างที่เรียนรู้โดยการเล่นกันเอง ซึ่งเป็นกระบวนการที่เรียกว่าการเล่นด้วยตัวเอง จะรวมเข้ากับนโยบายที่เหนือความคาดหมายในเกมที่สมดุล” Meta กล่าวเสริมในเอกสาร “กล่าวอีกนัยหนึ่ง เกม 2p0s ที่จำกัดสามารถแก้ไขได้ผ่านการเล่นด้วยตัวเองด้วยความสามารถในการคำนวณและแบบจำลองที่เพียงพอ”

อย่างไรก็ตาม Meta กล่าวว่าเกี่ยวกับเกมที่เกี่ยวข้องกับความร่วมมือ การเล่นด้วยตนเองโดยไม่มีข้อมูลของมนุษย์ไม่รับประกันอีกต่อไปว่าจะพบนโยบายที่ทำงานได้ดีกับมนุษย์ แม้ว่าจะมีความสามารถด้านการคำนวณและแบบจำลองที่ไม่จำกัดก็ตาม เนื่องจากตัวแทนการเล่นด้วยตนเองอาจรวมเข้ากับนโยบายที่เป็น ไม่เป็นไปตามบรรทัดฐานและความคาดหวังของมนุษย์

Meta เสริมว่า Cicero คาดการณ์การกระทำที่เป็นไปได้สำหรับผู้เล่นแต่ละคนโดยพิจารณาจากสถานะของกระดานและบทสนทนา โดยใช้เป็นจุดเริ่มต้นสำหรับอัลกอริทึมการวางแผนโดยใช้แบบจำลองที่ฝึกโดย RL

AI ใช้โมดูลการให้เหตุผลเชิงกลยุทธ์เพื่อเลือกเจตนาและการกระทำอย่างชาญฉลาด บริษัทกล่าว

จากนั้น โมดูลนี้จะเรียกใช้อัลกอริทึมการวางแผนที่คาดการณ์นโยบายของผู้เล่นอื่นทั้งหมดตามสถานะของเกมและบทสนทนา และพิจารณาถึงความแข็งแกร่งของการกระทำต่างๆ และแนวโน้มของพวกเขาในเกมของมนุษย์ จากข้อมูลและตัวแปรนี้ การดำเนินการที่เหมาะสมที่สุดสำหรับ Cicero จะถูกนำมาใช้

ภายใต้ Mark Zuckerberg ผู้ก่อตั้งและ CEO ของ Meta บริษัทได้ลงทุนอย่างหนักใน AI และ metaverse เพื่อใช้ประโยชน์จากอุตสาหกรรมที่เติบโตอย่างรวดเร็วซึ่งมองว่าเป็นอนาคตของเทคโนโลยี

สำหรับ เมตานิวส์.

ประทับเวลา: November 28, 2022November 29, 2022