การแข่งขัน Procgen และ MineRL

โหนดต้นทาง: 768080

เรารู้สึกตื่นเต้นที่จะประกาศว่า OpenAI กำลังร่วมจัดการแข่งขัน NeurIPS 2020 สองครั้งกับ ไอคราวด์, มหาวิทยาลัยคาร์เนกีเมลลอนและ Deepmindโดยใช้ เกณฑ์มาตรฐาน Procgen และ ไมน์เรล. เราพึ่งพาสภาพแวดล้อมเหล่านี้ภายในอย่างมากสำหรับการวิจัยเกี่ยวกับการเรียนรู้แบบเสริมกำลัง และเราหวังว่าจะได้เห็นความคืบหน้าของชุมชนในการแข่งขันที่ท้าทายเหล่านี้

การแข่งขัน Procgen

สมัครสมาชิก Procgen

พื้นที่ การแข่งขัน Procgen มุ่งเน้นไปที่การปรับปรุงประสิทธิภาพของตัวอย่างและลักษณะทั่วไปในการเรียนรู้แบบเสริมแรง ผู้เข้าร่วมจะพยายามเพิ่มประสิทธิภาพของตัวแทนโดยใช้จำนวนการโต้ตอบกับสภาพแวดล้อมคงที่ ตัวแทนจะได้รับการประเมินในแต่ละสภาพแวดล้อมจาก 16 สภาพแวดล้อมที่เผยแพร่สู่สาธารณะแล้วใน เกณฑ์มาตรฐาน Procgenรวมถึงในสภาพแวดล้อมการทดสอบลับสี่แบบที่สร้างขึ้นสำหรับการแข่งขันนี้โดยเฉพาะ ด้วยการรวมประสิทธิภาพในสภาพแวดล้อมที่หลากหลาย เราได้รับเมตริกคุณภาพสูงเพื่อตัดสินอัลกอริทึมพื้นฐาน สามารถดูรายละเอียดเพิ่มเติมของแต่ละรอบได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม.

เนื่องจากเนื้อหาทั้งหมดถูกสร้างขึ้นตามขั้นตอน สภาพแวดล้อม Procgen แต่ละสภาพแวดล้อมจึงต้องการตัวแทนในการสรุปสถานการณ์ที่ไม่เคยเห็นมาก่อน สภาพแวดล้อมเหล่านี้จึงเป็นการทดสอบความสามารถของเจ้าหน้าที่ในการเรียนรู้ในสภาพแวดล้อมที่หลากหลาย ยิ่งไปกว่านั้น เราได้ออกแบบสภาพแวดล้อม Procgen ให้รวดเร็วและใช้งานง่าย ผู้เข้าร่วมที่มีทรัพยากรในการคำนวณที่จำกัดจะสามารถสร้างผลลัพธ์พื้นฐานของเราได้อย่างง่ายดายและเรียกใช้การทดสอบใหม่ เราหวังว่าสิ่งนี้จะช่วยให้ผู้เข้าร่วมสามารถทำซ้ำได้อย่างรวดเร็วเกี่ยวกับวิธีการใหม่เพื่อปรับปรุงประสิทธิภาพของตัวอย่างและลักษณะทั่วไปใน RL

การแข่งขัน MineRL

สมัครสมาชิก MineRL

ความสำเร็จอันโด่งดังของปัญญาประดิษฐ์ล่าสุด เช่น AlphaStar, AlphaGo และของเราเอง OpenAI Fiveใช้การเรียนรู้การเสริมแรงเชิงลึกเพื่อให้ได้ประสิทธิภาพระดับมนุษย์หรือเหนือมนุษย์ในงานการตัดสินใจตามลำดับ การปรับปรุงที่ล้ำสมัยเหล่านี้จำเป็นต้องมี เพิ่มขึ้นอย่างทวีคูณ จำนวนตัวอย่างการคำนวณและการจำลอง ดังนั้นจึงเป็นการยากที่จะนำระบบเหล่านี้จำนวนมากไปใช้กับปัญหาในโลกแห่งความเป็นจริงซึ่งตัวอย่างสภาพแวดล้อมมีราคาแพง วิธีหนึ่งที่รู้จักกันดีในการลดความซับซ้อนของตัวอย่างสิ่งแวดล้อมคือการใช้ประโยชน์จากนักบวชและการสาธิตพฤติกรรมที่ต้องการ

การแสดงผลงานที่ส่งเข้าประกวดอันดับ 1 จากการแข่งขัน MineRL 2019 โดยได้รับพลั่วเหล็ก

เพื่อกระตุ้นการวิจัยในทิศทางนี้ต่อไป เรากำลังร่วมกันจัดระเบียบ การแข่งขัน MineRL 2020 ซึ่งมีจุดมุ่งหมายเพื่อส่งเสริมการพัฒนาอัลกอริธึมที่สามารถใช้ประโยชน์จากการสาธิตของมนุษย์ได้อย่างมีประสิทธิภาพ เพื่อลดจำนวนตัวอย่างที่จำเป็นอย่างมากในการแก้ปัญหาสภาพแวดล้อมที่ซับซ้อน ลำดับชั้น และกระจัดกระจาย ด้วยเหตุนี้ ผู้เข้าร่วมจะแข่งขันกันเพื่อพัฒนาระบบที่สามารถรับเพชรใน Minecraft จากพิกเซลดิบโดยใช้ตัวอย่างเพียง 8,000,000 ตัวอย่างจาก โปรแกรมจำลอง MineRL และการฝึก 4 วันบนเครื่อง GPU เครื่องเดียว ผู้เข้าร่วมจะได้รับชุดข้อมูล MineRL-v0 (เว็บไซต์, กระดาษ) ซึ่งเป็นคอลเล็กชันการสาธิตของมนุษย์จำนวนมากกว่า 60 ล้านเฟรม ทำให้พวกเขาสามารถใช้วิถีผู้เชี่ยวชาญเพื่อลดการโต้ตอบของอัลกอริธึมกับโปรแกรมจำลอง Minecraft

การแข่งขันครั้งนี้เป็นการต่อเนื่องจาก การแข่งขัน MineRL 2019 ซึ่งใน ตัวแทนทีมชั้นนำ ก็สามารถที่จะ รับเสียมเหล็ก (เป้าหมายสุดท้ายของการแข่งขัน) ภายใต้งบประมาณการประมวลผลและการโต้ตอบของโปรแกรมจำลองที่จำกัดอย่างยิ่งนี้ ในมุมมอง ระบบการเรียนรู้เสริมกำลังมาตรฐานที่ล้ำสมัยต้องการปฏิสัมพันธ์ในสภาพแวดล้อมหลายร้อยล้านครั้งบนระบบ GPU หลายตัวขนาดใหญ่เพื่อให้บรรลุเป้าหมายเดียวกัน ในปีนี้ เราคาดว่าคู่แข่งจะผลักดันให้มีความล้ำสมัยยิ่งขึ้นไปอีก

เพื่อรับประกันว่าคู่แข่งจะพัฒนาอัลกอริธึมตัวอย่างที่มีประสิทธิภาพอย่างแท้จริง ผู้จัดการแข่งขันของ MineRL จะฝึกโมเดลรอบสุดท้ายของทีมระดับแนวหน้าตั้งแต่เริ่มต้น โดยมีข้อจำกัดที่เข้มงวดเกี่ยวกับฮาร์ดแวร์ การคำนวณ และการโต้ตอบกับโปรแกรมจำลองที่มีให้ การแข่งขัน MineRL 2020 ยังมีมาตรการใหม่เพื่อหลีกเลี่ยงคุณสมบัติทางวิศวกรรมด้วยมือและการแก้ปัญหาที่มากเกินไปสำหรับโดเมน สามารถดูรายละเอียดเพิ่มเติมเกี่ยวกับโครงสร้างการแข่งขันได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม.

ที่มา: https://openai.com/blog/procgen-minerl-competitions/

ประทับเวลา:

เพิ่มเติมจาก OpenAI