เหตุใดเกมจึงอาจไม่ใช่เกณฑ์มาตรฐานที่ดีที่สุดสำหรับ AI

โหนดต้นทาง: 1589930

คุณพลาดเซสชั่นจาก Future of Work Summit หรือไม่? ตรงไปที่ของเรา Future of Work Summit ห้องสมุดออนดีมานด์ สตรีม.


ในปี 2019 ห้องปฏิบัติการวิจัย AI ในซานฟรานซิสโก OpenAI ได้จัดการแข่งขันเพื่ออวดความสามารถของ OpenAI Five ซึ่งเป็นระบบที่ออกแบบมาเพื่อเล่นเกม Dota 2 ในสนามประลองแบบผู้เล่นหลายคน OpenAI Five เอาชนะทีมผู้เล่นมืออาชีพได้สองครั้ง และเมื่อเผยแพร่สู่สาธารณะ OpenAI Five สามารถเอาชนะ 99.4% ของผู้ที่เล่นกับมันทางออนไลน์

OpenAI ทุ่มเงินมหาศาลในเกมเพื่อการวิจัย พัฒนาห้องสมุดอย่าง คอยน์รัน และ MMO ประสาทซึ่งเป็นเครื่องจำลองที่นำ AI มาวางกลางโลกที่เหมือนสวมบทบาท แต่แนวทางนั้นกำลังเปลี่ยนไป โฆษกกล่าวว่า OpenAI ไม่ได้ใช้เกมเป็นเกณฑ์มาตรฐาน “อีกต่อไปแล้ว” เนื่องจากแล็บเปลี่ยนโฟกัสไปที่โดเมนอื่น ซึ่งรวมถึงการประมวลผลภาษาธรรมชาติ

แนวคิดของ OpenAI เกี่ยวกับเกมอย่าง Dota 2 นักเล่นแพลตฟอร์มและ ซ่อนหา สะท้อนความคิดเห็นที่แตกแยกในหมู่ผู้เชี่ยวชาญเกี่ยวกับคุณค่าของเกมในการวิจัย AI ในขณะที่บางคนเชื่อว่าเกมสามารถนำไปสู่ข้อมูลเชิงลึกใหม่ การวางไข่ระบบ AI ด้วยแอปพลิเคชันเชิงพาณิชย์ คนอื่น ๆ คิดว่า AI ที่สร้างขึ้นเพื่อเล่นเกมนั้นได้รับการออกแบบมาโดยเฉพาะ

“ฉันคิดว่าเกมมีแนวโน้มที่จะทำให้ผู้คนตื่นเต้นมาก เพราะพวกเขาสามารถเชื่อมโยงได้ — เพราะผู้คนเล่น [เกมอย่าง Dota 2] และพวกเขารู้ว่ามันยากสำหรับพวกเขา” Richard Socher ผู้ก่อตั้ง You.com และ อดีตหัวหน้านักวิทยาศาสตร์ AI ของ Salesforce กล่าวกับ VentureBeat “แต่มันเหมือนเล็กน้อยเมื่อคุณรู้สึกตื่นเต้นที่คอมพิวเตอร์ของคุณสามารถคูณจำนวนที่มากได้ [ระบบเหล่านี้] ในที่สุดก็ไม่ฉลาดขนาดนั้น … [พวกเขาไม่ได้] สร้างคุณค่าอย่างแท้จริงในโลกภายนอกการเล่นเกมนั้น”

AI ส่วนใหญ่ที่ใช้กับเกมจัดอยู่ในหมวดหมู่ของการเรียนรู้แบบเสริมกำลัง โดยระบบจะได้รับชุดการดำเนินการที่สามารถนำไปใช้กับสภาพแวดล้อมได้ ระบบ — ซึ่งโดยปกติเริ่มไม่รู้อะไรเลยเกี่ยวกับสิ่งแวดล้อม — จะได้รับรางวัลโดยพิจารณาจากการกระทำที่ทำให้มันเข้าใกล้เป้าหมายมากขึ้น เมื่อระบบค่อยๆ ได้รับการตอบรับจากสภาพแวดล้อม ระบบก็จะเรียนรู้ลำดับของการกระทำที่สามารถเพิ่มผลตอบแทนได้สูงสุด

Socher ตั้งข้อสังเกตว่า ไม่เหมือนกับโลกแห่งความจริง เกมให้ข้อมูลจำนวนไม่จำกัดตามหลักวิชาในการฝึกระบบ AI ตัวอย่างเช่น ในการพัฒนา OpenAI Five นั้น OpenAI ให้ระบบเล่นเกมที่มีมูลค่าเท่ากับ 180 ปีทุกวันเป็นเวลาหลายสัปดาห์ AlphaStar ของ DeepMind ซึ่งเป็นระบบที่สามารถเอาชนะผู้เล่นชั้นนำในเกมกลยุทธ์ StarCraft II ได้เรียนรู้จากตัวอย่างการแข่งขันนับแสนรายการที่เผยแพร่โดย Activision Blizzard ผู้จัดจำหน่ายเกม และหนึ่งในเวอร์ชันของระบบเล่นเกม Atari ที่ออกแบบโดย Uber ชื่อ Go-Explore ใช้เวลาเล่นต่อเนื่อง 58 ชั่วโมงเพื่อให้ได้คะแนนสูงสุดในการแก้แค้นของ Montezuma

“[เกม] ได้พัฒนาโลกแห่งการวิจัยด้วย [แนวคิด] ใหม่ที่น่าสนใจ แต่ปัญหาคือ หลายครั้งที่ผู้คนเชื่อว่าสิ่งที่ยากสำหรับมนุษย์นั้นยากสำหรับคอมพิวเตอร์” Socher กล่าว “เมื่อ AI สามารถแก้หมากรุกได้ มันก็ไม่ได้ฉลาดไปกว่าคนจริงๆ – มันแค่เก่งเรื่องหมากรุก นั่นคือความเข้าใจผิดที่เราได้เห็นในตอนนี้ … [ประเภทนี้] อัลกอริธึมโดยทั่วไปไม่ฉลาด พวกเขาสามารถเล่นเกมบางเกมได้เป็นอย่างดี”

ประวัติโดยย่อของเกมในAI

เกมถือเป็นมาตรฐานของ AI มานานหลายทศวรรษ ตามที่ Luke Dormehl แห่ง Digital Trends เขียนไว้ นักคณิตศาสตร์ชาวอเมริกัน คลอดด์แชนนอน โต้เถียงในปี 1949 ว่าเกมอย่างหมากรุกคอมพิวเตอร์นำเสนอความท้าทายที่คู่ควรสำหรับซอฟต์แวร์ "อัจฉริยะ" เกมกลั่นกรองปัญหาเป็นการกระทำ สถานะ และรางวัล แต่ยังต้องใช้เหตุผลเพื่อให้เก่ง แชนนอนโต้เถียง ในขณะที่มีโครงสร้างที่สอดคล้องกับลักษณะที่คอมพิวเตอร์แก้ปัญหา

ในปี 1996 IBM ได้สร้างชื่อเสียงให้กับการเล่นหมากรุก Deep Blue และกลายเป็นโปรแกรมแรกในการเอาชนะแชมป์โลกที่ครองราชย์ Garry Kasparovภายใต้การควบคุมเวลาปกติ ด้วยการใช้ไมโครโปรเซสเซอร์ระดับแนวหน้า 30 ตัว ทำให้ Deep Blue ประเมินตำแหน่งกระดาน 200 ล้านตำแหน่งทุกวินาที และดึงหน่วยความจำจากเกมหมากรุกระดับมาสเตอร์ก่อนหน้านี้หลายแสนเกม

ในปี 2011 Watson AI ของ IBM ได้เผชิญหน้ากับ อดีตแชมป์อันตราย Ken Jennings และ Brad Rutter ในรายการเกมโชว์พิเศษที่มีการถ่ายทอดสดหลายตอน ด้วยการเข้าถึงเนื้อหา 200 ล้านหน้ารวมถึงข้อความเต็มของ Wikipedia ฉบับปี 2011 วัตสันเอาชนะทั้งคู่ได้อย่างคล่องแคล่วและได้รับรางวัล 1 ล้านดอลลาร์

ในปี 2013 DeepMind ได้สาธิตระบบที่สามารถเล่น Pong, Breakout, Space Invaders, Seaquest, Beamrider, Enduro และ Q*bert ได้ในระดับ "ยอดมนุษย์" สามปีต่อมา DeepMind's AlphaGo ชนะการแข่งขัน Go สามเกมกับ Lee Sedol ซึ่งเป็นหนึ่งในผู้เล่นที่มีอันดับสูงที่สุดในโลก ในปี 2017 เวอร์ชันปรับปรุงของระบบ — อัลฟาซีโร — เอาชนะแชมป์มนุษย์ในหมากรุก หมากรุกญี่ปุ่นที่เรียกว่า shogi และ Go และในปี 2020 DeepMind ได้สาธิต มูเซโร่ซึ่งหยิบเอากฎของเกมอย่างหมากรุกมาเล่น

Labs ได้พัฒนา AI ขึ้นมาเมื่อเร็วๆ นี้ ซึ่งสามารถเล่นเกมที่มีข้อมูลไม่สมบูรณ์ เช่น โป๊กเกอร์ที่มีทักษะสูง ตรงกันข้ามกับเกมข้อมูลที่สมบูรณ์แบบ เช่น หมากรุกและโชกิ เกมข้อมูลไม่สมบูรณ์มีข้อมูลที่ซ่อนจากผู้เล่นระหว่างเกม (เช่น มือของผู้เล่นคนอื่นในโป๊กเกอร์) เมื่อสองปีที่แล้ว Pluribus ของ Facebook และ Carnegie Mellon เป็นหนึ่งในกลุ่มแรกๆ ที่เอาชนะมืออาชีพใน Texas Hold'em ผู้เล่นของเกม DeepMind ยังแสดงประสิทธิภาพที่ยอดเยี่ยมในเกมกลยุทธ์ Scotland Yard เช่นเดียวกับเกมข้อมูลที่สมบูรณ์แบบรวมถึงหมากรุก

การวัดที่ไม่สมบูรณ์

นักวิจัยบางคนโต้แย้งว่าระบบเช่น Player of Games ซึ่งสามารถให้เหตุผลเกี่ยวกับเป้าหมายและแรงจูงใจของผู้อื่น สามารถปูทางให้ AI สามารถทำงานร่วมกับผู้อื่นได้สำเร็จ งานต่างๆ เช่น การวางแผนเส้นทางเกี่ยวกับความแออัด การเจรจาสัญญา และแม้แต่การโต้ตอบกับลูกค้า ล้วนเกี่ยวข้องกับการประนีประนอมและการพิจารณาว่าความชอบของผู้คนตรงกันและขัดแย้งกันอย่างไร เช่นเดียวกับในเกม

“ทั่วทั้งสังคมมนุษย์ ผู้คนมีส่วนร่วมในกิจกรรมที่หลากหลายกับผู้คนที่หลากหลาย” นักวิจัยที่อยู่เบื้องหลังการวัดประสิทธิภาพ AI สำหรับ Hanabi เขียน. “ด้วยความซับซ้อนเช่นนี้ … ปฏิสัมพันธ์ที่มีบทบาทสำคัญในชีวิตมนุษย์ จึงจำเป็นสำหรับตัวแทนที่ชาญฉลาดที่ประดิษฐ์ขึ้นเพื่อให้สามารถร่วมมือกับตัวแทนอื่น ๆ ได้อย่างมีประสิทธิภาพโดยเฉพาะมนุษย์”

นอกเหนือจาก Hanabi และเกมกระดานเช่น การทูตMinecraft ของ Microsoft ซึ่งมีเป้าหมายตรงไปตรงมาเช่นการหาอาหารให้เพียงพอที่จะไม่อดอาหาร ได้รับการเสนอให้เป็นพื้นที่ฝึกอบรมสำหรับ AI ที่ทำงานร่วมกันประเภทนี้ นักวิจัยจาก DeepMind และ University of California, Berkeley เพิ่งเปิดตัวการแข่งขันที่เรียกว่า บะซอลต์ ซึ่งเป้าหมายของระบบ AI จะต้องได้รับการสื่อสารผ่านการสาธิต การตั้งค่า หรือรูปแบบอื่น ๆ ของการตอบรับจากมนุษย์

การทูต DeepMind

ด้านบน: กระดานเกมการทูต

เครดิตภาพ: DeepMind

“วิดีโอเกม … ได้จัดเตรียมแซนด์บ็อกซ์ที่มีคุณค่าอย่างยิ่งให้กับนักวิจัยที่ต้องการสอนเจ้าหน้าที่ให้ทำงานที่ซับซ้อนได้สำเร็จ” Luca Weihs นักวิทยาศาสตร์ด้านการวิจัยของ Allen Institute for Artificial Intelligence กล่าวกับ VentureBeat “สาเหตุส่วนใหญ่มาจากความหลากหลายของภาพในเกม กลยุทธ์ที่หลากหลายที่จำเป็นสำหรับความสำเร็จ และความเร็วในการจำลองที่รวดเร็วทำให้สามารถทดลองในวงกว้างได้”

แม้ว่าพวกเขาจะสะดวกจากมุมมองการวิจัยก็ตาม Weihs เชื่อว่าเกมเป็นเกณฑ์มาตรฐาน AI ที่มีข้อบกพร่องเนื่องจากความเป็นนามธรรมและความเรียบง่ายสัมพัทธ์ เขาตั้งข้อสังเกตว่าแม้แต่ระบบการเล่นเกมที่ดีที่สุด เช่น AlphaStar มักจะพยายามหาเหตุผลเกี่ยวกับสถานะของระบบ AI อื่น ๆ ไม่ปรับตัวให้เข้ากับสภาพแวดล้อมใหม่ได้ดี และไม่สามารถแก้ปัญหาที่ไม่เคยเห็นมาก่อนได้อย่างง่ายดาย โดยเฉพาะ ปัญหาที่ต้องแก้ไขในระยะเวลาอันยาวนาน

ตัวอย่างเช่น โมเดลการเรียนรู้การเสริมแรงที่สามารถเล่น StarCraft 2 ในระดับผู้เชี่ยวชาญ จะไม่สามารถเล่นเกมที่มีกลไกคล้ายคลึงกันได้ในทุกระดับความสามารถ การเปลี่ยนแปลงเล็กน้อยในเกมดั้งเดิมจะทำให้ประสิทธิภาพของโมเดลลดลง OpenAI Five ทำได้เพียงควบคุมตัวละครที่เล่นได้ 16 ตัวใน Dota 2 — ไม่ใช่เกมที่มีอักขระมากกว่า 100 ตัว — และผู้เล่นที่ไม่ใช่แชมป์สามารถค้นหากลยุทธ์ที่จะเอาชนะระบบได้อย่างน่าเชื่อถือภายในเวลาไม่กี่วันหลังจากที่เผยแพร่สู่สาธารณะ

Mike Cook นักวิจัย AI และนักออกแบบเกมที่มหาวิทยาลัย Queen Mary แห่งลอนดอน เห็นด้วยว่าเกม “ไม่ได้พิเศษขนาดนั้น” เป็นเกณฑ์มาตรฐานสำหรับ AI สิ่งที่สำคัญจริงๆ เกี่ยวกับเกมคือบทบาทที่พวกเขามีต่อสังคมและวัฒนธรรม แต่เขาเชื่อว่านักวิจัยกำลังหมดทั้งผลไม้ที่แขวนอยู่ต่ำและมาตรฐานทางวัฒนธรรมสำหรับผู้ที่ไม่เล่นเกม

“หมากรุกและไปเป็นเป้าหมายที่ชัดเจน [สำหรับการวัดประสิทธิภาพ AI] เนื่องจากความสำคัญทางประวัติศาสตร์ของพวกเขาทั้งในด้านวิทยาการคอมพิวเตอร์และในวัฒนธรรมมนุษย์ในวงกว้างในฐานะ 'คนฉลาด' ในเกมโปรด” Cook บอกกับ VentureBeat ทางอีเมล “จากนี้ไปจะไปไหน? คุณต้องการเกมที่ (1) มีเกณฑ์มาตรฐานที่ชัดเจนซึ่งคุณสามารถพูดได้ว่าคุณพ่ายแพ้ (2) เป็นที่เข้าใจหรืออย่างน้อยก็รู้จักคนที่ไม่ใช่เกมเมอร์ และ (3) รู้สึกมีความหมายที่จะเอาชนะ … การเล่นหมากรุกคือ เล่นหมากรุก; คอมพิวเตอร์เห็นได้ชัดว่าไม่มี 'ขอบ' อยู่ที่นั่นเพราะเกมเล่นอยู่ในใจ แต่ถ้าเราลองเอา AI มาเล่น Call of Duty [หรือ สนามกีฬา Quake II] — เกมที่ตรงตามเกณฑ์สองข้อแรก — อาจไม่รู้สึกเหมือนเป็นชัยชนะที่มีความหมาย เพราะผู้คนคาดหวังว่าคอมพิวเตอร์จะมีปฏิกิริยาตอบสนองที่รวดเร็ว”

นวัตกรรมผ่านการเล่น

คนอื่นไม่เห็นด้วย Nvidia — ซึ่ง มีส่วนได้เสียในฮาร์ดแวร์เกม — ยืนอยู่เบื้องหลังแนวคิดที่ว่าเกมยังคงเป็นส่วนสำคัญของการวิจัย AI โดยเฉพาะอย่างยิ่งสำหรับการเรียนรู้แบบเสริมกำลัง Bryan Catanzaro รองประธานฝ่ายการวิจัยเชิงลึกเชิงประยุกต์ที่ Nvidia อธิบายว่าเกมเป็น "แซนด์บ็อกซ์ที่กำหนดไว้อย่างชัดเจน" โดยมีกฎและวัตถุประสงค์ที่โลกแห่งความเป็นจริงขาดหายไป

"การสอนตัวแทน AI เพื่อนำทางพวกเขาช่วยให้เราทำงานเพื่อสร้างตัวแทนที่มีประโยชน์โดยทั่วไปซึ่งสามารถช่วยเราแก้ปัญหาในโลกแห่งความเป็นจริงได้" Catanzaro บอกกับ VentureBeat ทางอีเมล “นอกจากนี้ พวกเขายังสนุกมากที่จะทำงานด้วย”

Microsoft ก็เชื่อในพลังของเกมในฐานะแพลตฟอร์มสำหรับการพัฒนา AI โดยชี้ไปที่ความพยายามเช่น Project Paidia ที่กำลังดำเนินอยู่ โครงการ Paida เป็นโครงการริเริ่มร่วมกันระหว่าง Microsoft Research Cambridge และสตูดิโอเกม Ninja Theory ที่ Microsoft เป็นเจ้าของ โดยมีเป้าหมายที่จะขับเคลื่อนการวิจัยในการเรียนรู้แบบเสริมกำลังโดยทำให้ระบบเรียนรู้ที่จะทำงานร่วมกับผู้เล่นวิดีโอเกมได้

ผู้จำหน่ายเอนจิ้นเกม Unity ทำงานในลักษณะเดียวกัน ปลั๊กอิน ML-Agents Toolkit ช่วยให้ AI ได้รับทักษะและพฤติกรรมใหม่ ๆ ผ่านการเรียนรู้แบบเสริมกำลัง โดยที่สิ่งเดียวที่รู้ในสภาพแวดล้อมเสมือนที่กำหนดคือสิ่งที่ถูกต้อง ด้วยความร่วมมือกับ Google นั้น Unity ได้สร้าง Obstacle Tower ซึ่งเป็นวิดีโอเกมที่ออกแบบมาเพื่อท้าทายความสามารถของระบบในการสำรวจสิ่งกีดขวางต่างๆ รวมถึงปริศนา เลย์เอาต์ที่ซับซ้อน และศัตรูที่อันตราย

ระบบการเรียนรู้แบบเสริมกำลังใหม่ของ DeepMind เป็นขั้นตอนสู่ AI ทั่วไปหรือไม่?

ด้านบน: สภาพแวดล้อมการเรียนรู้ XLand ของ DeepMind

เครดิตภาพ: TechTalks

เมื่อเร็ว ๆ นี้ Project Paida ของ Microsoft ได้หันไปใช้การเรียนรู้แบบเสริมกำลังที่ "เน้นนักออกแบบ" โดยมีเป้าหมายในการพัฒนาระบบที่ปรับแต่งได้ (เช่น หุ่นยนต์) ที่เรียนรู้ที่จะประพฤติตนเหมือนจริงโดยที่นักพัฒนาซอฟต์แวร์ไม่ต้องฮาร์ดโค้ดกับพฤติกรรมตามธรรมชาติทุกอย่าง Project Paida ยังเปิดเผยเทคนิคในการช่วยให้ระบบ AI ทำงานร่วมกันในเกมต่อสู้แบบผู้เล่นหลายคน Bleeding Edge

“ด้วยโครงการเช่นนี้ เรากำลังแสดงให้เห็นว่า AI กำลังเปลี่ยนจากแอปพลิเคชันที่แข่งขันกันไปใช้เพื่อช่วยให้ผู้เล่นประสบความสำเร็จมากขึ้น” Sam Devlin นักวิจัยหลักของ Microsoft กล่าวในการให้สัมภาษณ์

หนึ่งในโครงการที่มีแนวโน้มมากขึ้นในปัจจุบัน DeepMind ได้สร้างเอ็นจิ้น XLand ซึ่งสามารถสร้างสภาพแวดล้อมที่นักวิจัยสามารถฝึกอบรมระบบ AI ในงานจำนวนหนึ่งได้ งานใหม่แต่ละงานถูกสร้างขึ้นตามประวัติการฝึกอบรมของระบบ และเพื่อช่วยกระจายทักษะของระบบข้ามความท้าทาย เช่น "จับธง" และ "ซ่อนหา" หลังจากผ่านไปหนึ่งเดือนของการฝึกอบรม DeepMind อ้างว่าระบบใน XL และแสดงพฤติกรรมที่เหมือนมนุษย์ เช่น การทำงานเป็นทีมและ ความคงทนของวัตถุการรับรู้ถึงพื้นฐานของร่างกายและกาลเวลา และความรู้เกี่ยวกับโครงสร้างระดับสูงของเกมที่พวกเขาพบเจอ

ก้าวข้ามเกม

เกมได้แจ้งการพัฒนาของ AI ที่นำไปใช้ในโลกแห่งความเป็นจริง ตัวอย่างเช่น เครื่องมือการเรียนรู้แบบเสริมกำลังไม่เพียงแต่ใช้ใน หุ่นยนต์ ควบคุม, ซอฟต์แวร์ การทดสอบ และ ความปลอดภัย, เครื่องจักรอุตสาหกรรม, การออกแบบชิปเซ็ต, การออกแบบยา, รถตัวเองขับรถและ การบีบอัดวิดีโอแต่ในระบบที่ กำหนดว่าวิดีโอและโฆษณาใดที่จะแสดงต่อผู้ใช้ทางออนไลน์. ในทำนองเดียวกัน อัลกอริธึมการค้นหา ซึ่งช่วยให้ระบบ AI สามารถค้นหาวิธีการในวิดีโอเกมได้ รองรับอัตโนมัติ การวางแผนเส้นทาง ในระบบนำทาง

แสดงให้เห็นถึงประโยชน์ที่เป็นไปได้ของเกม Go-Explore ถูกนำมาใช้เพื่อปรับปรุงการฝึกแขนหุ่นยนต์ในโลกแห่งความเป็นจริง นักวิจัย จาก University of Eastern Finland และ Aalto University ยังอ้างว่าประสบความสำเร็จ “โอน” ทักษะที่ AI ได้เรียนรู้ในวิดีโอเกม — Doom — สู่หุ่นยนต์ในโลกแห่งความเป็นจริง

นักวิทยาศาสตร์ชั้นนำบางคนของ DeepMind ตีพิมพ์บทความเมื่อเร็ว ๆ นี้ โดยพวกเขาตั้งสมมติฐานว่ารางวัลเดียวและการเรียนรู้แบบเสริมกำลังเพียงพอที่จะบรรลุในที่สุด ปัญญาประดิษฐ์ทั่วไป (AGI) หรือระบบ AI ที่สามารถทำได้ทุกงาน "[ระบบเช่น AlphaZero เป็น] ก้าวสำคัญสำหรับเราจนถึง AI ทั่วไป" Demis Hassabis CEO ของ DeepMind กล่าวกับ VentureBeat ในการสัมภาษณ์ปี 2018 “เหตุผลที่เราทดสอบตัวเองและเกมทั้งหมดเหล่านี้คือ … ว่า [พวกเขา] เป็นพื้นที่พิสูจน์ที่สะดวกมากสำหรับเราในการพัฒนาอัลกอริทึมของเรา … ในที่สุด [เรากำลังพัฒนาอัลกอริธึมที่สามารถ] แปล[ed] สู่โลกแห่งความเป็นจริงเพื่อแก้ไขปัญหาที่ท้าทายจริงๆ … และช่วยเหลือผู้เชี่ยวชาญในพื้นที่เหล่านั้น”

นอกเหนือจากข้อเท็จจริงที่ว่าไม่ใช่ผู้เชี่ยวชาญทุกคนที่เชื่อว่า AGI จะทำได้ นักวิจัย — ในขณะที่ยอมรับการมีส่วนร่วมของเกมในด้าน AI — กำลังมองหาเกมด้วยความสงสัยมากขึ้นเรื่อยๆ ในการให้สัมภาษณ์กับ The Verge นั้น Francois Chollet วิศวกรซอฟต์แวร์ของ Google และบุคคลที่มีชื่อเสียงในชุมชน AI กล่าวว่าแรงจูงใจที่จะไล่ตามเกมบล็อกบัสเตอร์เนื่องจากเกณฑ์มาตรฐานการฝึกฝนนั้นส่งผลถึงการประชาสัมพันธ์

“หากประชาชนไม่สนใจ 'เหตุการณ์สำคัญ' ที่ฉูดฉาดเหล่านี้ซึ่งง่ายต่อการเข้าใจผิดว่าเป็นขั้นตอนสู่ AI ทั่วไปที่เหนือมนุษย์ นักวิจัยจะทำอย่างอื่น” เขากล่าว กล่าวว่า. “ฉันไม่ได้มองว่ามันเป็นงานวิจัยทางวิทยาศาสตร์จริงๆ เพราะมันไม่ได้สอนอะไรเราที่เราไม่รู้มาก่อน … หากคำถามคือ 'เราเล่น X ในระดับยอดมนุษย์ได้ไหม' คำตอบก็คือ 'ใช่' ตราบใดที่คุณสามารถสร้างตัวอย่างสถานการณ์การฝึกอบรมที่หนาแน่นเพียงพอและป้อนให้เป็นแบบจำลองการเรียนรู้เชิงลึกที่แสดงออกได้อย่างเพียงพอ' เรารู้เรื่องนี้มาระยะหนึ่งแล้ว”

ในขณะเดียวกัน ผู้เชี่ยวชาญอย่าง Noam Brown นักวิทยาศาสตร์ด้านการวิจัยของ Meta (เดิมคือ Facebook) ไม่เชื่อว่าแม้แต่สภาพแวดล้อมที่เหมือนเกมที่ล้ำสมัยอย่าง XL และบรรลุเป้าหมายตามที่ผู้สร้างตั้งใจไว้ ระบบ AI ที่ได้รับการฝึกฝนใน XLand ต้องสะดุดกับพื้นที่ที่น่าสนใจโดยบังเอิญ จากนั้นจึงควรได้รับการสนับสนุนให้ทบทวนพื้นที่นั้นจนกว่าจะไม่ "น่าสนใจ" อีกต่อไป ซึ่งแตกต่างจากมนุษย์

ส่วนหนึ่งของปัญหาคือกลไกที่ใช้ให้รางวัล AI รางวัล "เบาบาง" ให้รางวัลแก่ระบบสำหรับการบรรลุเป้าหมายบางอย่าง แต่มีความเสี่ยงที่จะนำไปสู่ทางตัน รางวัลที่ “หนาแน่น” ช่วยระบบตลอดเส้นทางสู่งาน แต่สามารถนำไปสู่ระบบที่เข้มงวดซึ่งไม่สามารถสรุปสถานการณ์ใหม่ได้

บทความที่เก่ากว่า การวิจัย จาก Caltech และ UC Berkeley แสดงให้เห็นถึงปัญหา พบว่าในรูปแบบการเรียนรู้แบบเสริมกำลังที่ได้รับการฝึกฝนเพื่อเล่นเกม Atari Riverraid ที่ขยายใหญ่ขึ้น มันจึงมีแนวโน้มที่จะแสวงหา "พร็อกซี่" หรือรางวัลปลอมมากกว่ารางวัลที่แท้จริง ตามที่ผู้เขียนร่วมกล่าว นักออกแบบรางวัลมักจะต้องระมัดระวังมากขึ้นเพื่อระบุฟังก์ชันการให้รางวัลอย่างถูกต้อง เนื่องจากโมเดลขนาดใหญ่กลายเป็นเรื่องธรรมดามากขึ้น

ดีพมายด์ อัลฟ่าสตาร์

ด้านบน: AlphaStar ของ DeepMind แข่งขันกับผู้เล่นที่เป็นมนุษย์

เครดิตภาพ: DeepMind

“เพียงเพราะเกมมีความซับซ้อนไม่ได้หมายความว่า AI จะยาก” บราวน์บอกกับ VentureBeat ในการให้สัมภาษณ์ “วิดีโอเกมไม่จำเป็นต้องยากกว่าเกมกระดานหรือไพ่ ตัวอย่างเช่น [Valve's] Counter-Strike เป็นเกม 3D แบบเรียลไทม์ยอดนิยมที่เกี่ยวข้องกับความร่วมมือ การแข่งขัน การวางแผนระยะยาว และการสังเกตบางส่วน บนกระดาษ ดูเหมือนเกมที่ยากมากสำหรับ AI ที่จะเล่น แต่บอทสามารถเอาชนะผู้เล่นที่เป็นมนุษย์ใน Counter-Strike ได้ตั้งแต่ช่วงปี 90 นั่นเป็นเพราะว่าคุณสามารถทำได้ดีทีเดียวใน Counter-Strike ถ้าคุณมีการตอบสนองที่รวดเร็วและการเล็งที่แม่นยำ ซึ่งทั้งสองสิ่งนี้เป็นสิ่งที่เครื่องจักรทำได้อย่างยอดเยี่ยม เกมจะเป็นเกณฑ์มาตรฐานที่ดีหรือไม่นั้นขึ้นอยู่กับว่าเทคนิคที่จำเป็นในการเล่นเกมนั้นยากสำหรับเครื่องจักรมากกว่ามนุษย์หรือไม่ เช่น ทักษะการสื่อสารและการปรับตัวที่รวดเร็ว”

IBM สำหรับงานทั้งหมดในเกม (รวมถึง more เมื่อเร็ว ๆ นี้ Project Debater) กล่าวว่ากำลังเปลี่ยนจากการพัฒนา AI ที่ "เน้นมาตรฐาน" ไปสู่แนวทางทางเลือกอื่น Ruchir Puri หัวหน้านักวิทยาศาสตร์ของ IBM Research ตำหนิการมุ่งเน้นงาน "แคบ" "ที่เหมาะสมยิ่ง" ของเกมและความยากลำบากที่เพิ่มขึ้นในการทำความเข้าใจและนำเกณฑ์มาตรฐานมาใช้กับระบบ "ที่กำลังพัฒนา" เหล่านี้

“เกมได้ช่วยขับเคลื่อนนวัตกรรมที่สำคัญใน AI ตั้งแต่หมากรุกไปจนถึงเกม Go และอื่นๆ ที่กล่าวว่ากลยุทธ์ในการสร้าง AI โดยคำนึงถึงเกณฑ์มาตรฐานของเกมในขั้นตอนนี้ของ AI [การสร้าง] ซึ่ง AI กำลังจะจบการศึกษาเพื่อสร้างผลกระทบต่อองค์กรโดยการผสมผสานเข้ากับกระบวนการทางธุรกิจและผู้บริโภคนั้นค่อนข้างจะเน้นที่แคบ” Puri กล่าวกับ VentureBeat ใน สัมภาษณ์. “แทนที่จะมุ่งเน้นไปที่ AI ที่ 'เอาชนะ' เกณฑ์มาตรฐานเฉพาะ เราควรวัดระบบเกี่ยวกับความหลากหลายและช่วงของงานที่สามารถทำได้ ควบคู่ไปกับความสามารถในการแสดงเหตุผลและความเข้าใจที่เหมือนมนุษย์มากขึ้น”

คำตอบที่เป็นไปได้

วิธีแก้ปัญหาของ Cook คือเกมที่ท้าทาย AI ทั่วไปและมีความเกี่ยวข้องมากกว่าพูด ฟุตบอล or สาบ. เขาแนะนำซีรีส์ Jackbox Party Pack ซึ่งต้องใช้ความคิดสร้างสรรค์ การบลัฟ สัญชาตญาณ และอารมณ์ขัน เป็นชิ้นใน เวลา เมื่อต้นเดือนนี้เน้นย้ำว่า ความคาดหวังของ AI ที่เข้าใจสิ่งที่มนุษย์มองว่าเป็นเรื่องตลก และสามารถสร้างเนื้อหาที่ตลกจริงๆ ได้ เป็นจอกศักดิ์สิทธิ์สำหรับกลุ่มย่อยของนักวิจัย AI เพราะมันสามารถแสดงให้เห็น ทฤษฎีของจิตใจ.

“นั่นเป็นปัญหาที่ท้าทายจริงๆ [และ] จะทำให้สนามก้าวหน้าอย่างมาก … แต่ก็ไม่ใช่ปัญหาที่ได้รับการแก้ไขอย่างกว้างขวาง [และ] เป็นเรื่องที่ยาก” คุกกล่าว

บราวน์ยังเชื่อว่าบทเรียนอัลกอริทึมที่น่าสนใจสามารถเรียนรู้จากเกมที่เหมาะสม เช่น การจำลองหรือบทเรียนที่ต้องใช้ภาษาที่ซับซ้อน ในการนี้ Meta ในเดือนมกราคมได้เปิดตัว สภาพแวดล้อมการเรียนรู้ NetHack (NHLE)เครื่องมือวิจัยที่อิงจากเกม NetHack ที่มอบหมายให้ผู้เล่นที่มีระดับดันเจี้ยนจากมากไปน้อยเพื่อดึงเครื่องรางวิเศษ ระดับใน NetHack สร้างขึ้นตามขั้นตอน ซึ่งหมายความว่าทุกเกมมีความแตกต่างกัน และความสำเร็จมักขึ้นอยู่กับแหล่งที่ปรึกษา เช่น ทางการ คู่มือ NetHackที่ เน็ตแฮ็กวิกิ, วิดีโอออนไลน์ และการอภิปรายในฟอรัม

"บางเกมยังคงเป็นเกณฑ์มาตรฐาน AI ที่สำคัญ แต่ก็ขึ้นอยู่กับเกม" บราวน์บอกกับ VentureBeat “ตอนนี้ AI สามารถเอาชนะผู้เล่นที่เป็นมนุษย์ได้ในเกมอย่าง Go และ Poker จะไม่มีใครแปลกใจหากระบบ AI เอาชนะมนุษย์ที่เชี่ยวชาญในเกมอย่าง gin rummy แต่มีบางเกมที่ยังคงยากอย่างเหลือเชื่อสำหรับอัลกอริธึม AI และจะต้องใช้เทคนิคใหม่ขั้นพื้นฐาน”

Chollet เสนอเกณฑ์มาตรฐานเหมือนเกมที่เรียกว่า ARC ซึ่งครอบคลุมชุดของงานการให้เหตุผลซึ่งแต่ละงานจะอธิบายผ่านการสาธิตย่อยๆ ระบบ AI ต้องเรียนรู้เพื่อให้งานสำเร็จจากการสาธิตเหล่านี้ แม้ว่า ARC จะสามารถแก้ไขได้โดยมนุษย์โดยไม่มีคำอธิบายด้วยวาจาหรือการฝึกอบรมล่วงหน้า แต่ก็ไม่สามารถเข้าถึงได้โดยเทคนิค AI ส่วนใหญ่ที่ลองใช้มาจนถึงตอนนี้

NHLE และ ARC และเกณฑ์มาตรฐานเช่นนี้สามารถช่วยแก้ปัญหาอื่นเกี่ยวกับเกมใน AI ได้ นั่นคือ ความไร้ประสิทธิภาพในการคำนวณ NHLE สามารถฝึกอบรมตัวแทนการเรียนรู้แบบเสริมกำลังได้เร็วกว่าการวัดประสิทธิภาพ Atari ที่มีอายุหลายสิบปีถึง 15 เท่า เนื่องจากจะแสดงเพียงสัญลักษณ์แทนพิกเซลและใช้ฟิสิกส์แบบง่าย ซึ่งอาจนำไปสู่การประหยัดค่าใช้จ่ายได้มาก เมื่อพิจารณาว่า DeepMind รายงานว่าใช้เงิน 35 ล้านดอลลาร์ในการฝึกอบรม AlphaGo เวอร์ชันล่าสุด

“ลางสังหรณ์ของฉันคือ ถ้าคุณ [บังคับระบบ AI] ให้ใช้ภาษาที่ซับซ้อน [มัน] ไม่สามารถลองใช้ชุดค่าผสมที่ผิดกฎหมายทุกอย่างได้” โซเชอร์กล่าว “เกมที่มีการหลอกลวงตนเองหรือภาษาอาจเป็นเรื่องที่น่าสนใจที่จะดูว่า [ระบบ AI] สามารถบลัฟได้อย่างเหมาะสม แต่ยังใช้ภาษาด้วย”

VentureBeat

ภารกิจของ VentureBeat คือการเป็นจัตุรัสกลางเมืองดิจิทัลสำหรับผู้มีอำนาจตัดสินใจด้านเทคนิคเพื่อรับความรู้เกี่ยวกับเทคโนโลยีการเปลี่ยนแปลงและการทำธุรกรรม เว็บไซต์ของเราให้ข้อมูลที่จำเป็นเกี่ยวกับเทคโนโลยีข้อมูลและกลยุทธ์เพื่อแนะนำคุณในขณะที่คุณเป็นผู้นำองค์กรของคุณ เราขอเชิญคุณเข้าร่วมเป็นสมาชิกของชุมชนของเราเพื่อเข้าถึง:

  • ข้อมูลล่าสุดเกี่ยวกับเรื่องที่คุณสนใจ
  • จดหมายข่าวของเรา
  • เนื้อหาที่เป็นผู้นำทางความคิดที่มีรั้วรอบขอบชิดและการเข้าถึงส่วนลดสำหรับกิจกรรมอันมีค่าของเราเช่น แปลงร่าง 2021: เรียนรู้เพิ่มเติม
  • คุณสมบัติระบบเครือข่ายและอื่น ๆ

เป็นสมาชิก

ที่มา: https://venturebeat.com/2022/01/18/why-games-may-not-be-the-best-benchmark-for-ai/

ประทับเวลา:

เพิ่มเติมจาก AI - VentureBeat