การคัดเลือกเชิงวิวัฒนาการสามารถฝึกรถยนต์ขับเคลื่อนด้วยตนเองที่มีความสามารถมากขึ้นได้อย่างไร

โหนดต้นทาง: 749900

วิวัฒนาการที่ Waymo

การทดลองแรกที่ DeepMind และ Waymo ร่วมมือกันในการฝึกอบรมเกี่ยวกับเครือข่ายที่สร้างกล่องล้อมรอบคนเดินถนน คนขี่จักรยาน และผู้ขับขี่รถจักรยานยนต์ที่เซ็นเซอร์ของเราตรวจพบ ซึ่งมีชื่อว่า "เครือข่ายข้อเสนอภูมิภาค" จุดมุ่งหมายคือเพื่อตรวจสอบว่า PBT สามารถปรับปรุงความสามารถของโครงข่ายประสาทในการตรวจจับคนเดินถนนตามสองมาตรการได้หรือไม่: การเรียกคืน (เศษส่วนของคนเดินถนนที่ระบุโดยโครงข่ายประสาทเหนือจำนวนคนเดินถนนทั้งหมดในที่เกิดเหตุ) และความแม่นยำ (เศษส่วนของคนเดินถนนที่ตรวจพบ อันที่จริงคนเดินถนนและไม่ใช่ "ผลบวกปลอม") ยานพาหนะของ Waymo ตรวจจับผู้ใช้ถนนเหล่านี้โดยใช้โครงข่ายประสาทหลายเส้นและวิธีการอื่นๆ แต่เป้าหมายของการทดลองนี้คือการฝึกโครงข่ายประสาทเดี่ยวนี้ให้คงการเรียกคืนได้มากกว่า 99% ในขณะที่ลดผลบวกที่ผิดพลาดโดยใช้การฝึกอบรมตามประชากร

เราได้เรียนรู้มากมายจากการทดลองนี้ ประการแรก เราค้นพบว่าเราจำเป็นต้องสร้างการประเมินที่เป็นจริงและมีประสิทธิภาพสำหรับเครือข่าย เพื่อที่เราจะทราบว่าโครงข่ายประสาทจะทำงานได้ดีขึ้นจริงหรือไม่เมื่อใช้งานในสถานการณ์ต่างๆ ในโลกแห่งความเป็นจริง การประเมินนี้เป็นพื้นฐานของการแข่งขันที่ PBT ใช้เพื่อเลือกโครงข่ายประสาทเทียมที่ชนะรางวัลอื่น เพื่อให้แน่ใจว่าโครงข่ายประสาททำงานได้ดีโดยทั่วไป และไม่เพียงแค่จดจำคำตอบของตัวอย่างที่เห็นระหว่างการฝึก การประเมินการแข่งขัน PBT ของเราจะใช้ชุดตัวอย่าง ("ชุดตรวจสอบ") ที่แตกต่างจากที่ใช้ในการฝึกอบรม ( “ชุดฝึกอบรม”) เพื่อตรวจสอบประสิทธิภาพขั้นสุดท้าย เรายังใช้ชุดตัวอย่างชุดที่สาม (“ชุดประเมิน”) ที่โครงข่ายประสาทไม่เคยเห็นในการฝึกหรือการแข่งขัน

ประการที่สอง เราได้เรียนรู้ว่าเราต้องการการประเมินอย่างรวดเร็วเพื่อรองรับการแข่งขันที่มีวิวัฒนาการบ่อยครั้ง นักวิจัยไม่ค่อยประเมินแบบจำลองของตนในระหว่างการฝึกอบรม และเมื่อทำ การประเมินจะทำไม่บ่อยนัก โมเดลที่ต้องการ PBT จะได้รับการประเมินทุกๆ 15 นาที เพื่อให้บรรลุสิ่งนี้ เราใช้ประโยชน์จากศูนย์ข้อมูลของ Google เพื่อทำการประเมินแบบขนานในเครื่องที่แจกจ่ายไปหลายร้อยเครื่อง

พลังแห่งความหลากหลายในการแข่งขันวิวัฒนาการ

ระหว่างการทดลองเหล่านี้ เราสังเกตเห็นว่าจุดแข็งจุดหนึ่งของ PBT ซึ่งก็คือการจัดสรรทรัพยากรให้กับลูกหลานของเครือข่ายที่ทำงานได้ดีกว่านั้นอาจเป็นจุดอ่อนได้เช่นกัน เนื่องจาก PBT จะปรับให้เหมาะสมสำหรับปัจจุบันและไม่ได้พิจารณาผลลัพธ์ในระยะยาว นี่อาจเป็นปัญหาได้เพราะมันจะส่งผลเสียต่อดอกบานปลาย ดังนั้นโครงข่ายประสาทที่มีพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ทำงานได้ดีกว่าในระยะยาวจึงไม่มีโอกาสที่จะเติบโตเต็มที่และประสบความสำเร็จ วิธีหนึ่งในการต่อสู้กับสิ่งนี้คือการเพิ่มความหลากหลายของประชากร ซึ่งสามารถทำได้โดยการฝึกประชากรให้มากขึ้น หากประชากรมีขนาดใหญ่พอ ก็มีโอกาสมากขึ้นที่เครือข่ายที่มีไฮเปอร์พารามิเตอร์ที่บานปลายจะอยู่รอดและไล่ตามคนรุ่นหลังได้

ในการทดลองเหล่านี้ เราสามารถเพิ่มความหลากหลายได้ด้วยการสร้างประชากรย่อยที่เรียกว่า "ซอก" ซึ่งตาข่ายประสาทได้รับอนุญาตให้แข่งขันภายในกลุ่มย่อยของตัวเองเท่านั้น คล้ายกับวิวัฒนาการของสปีชีส์เมื่ออยู่โดดเดี่ยวบนเกาะ นอกจากนี้เรายังพยายามให้รางวัลความหลากหลายโดยตรงผ่านเทคนิคที่เรียกว่า "การแบ่งปันการออกกำลังกาย" ซึ่งเราวัดความแตกต่างระหว่างสมาชิกของประชากรและให้ความได้เปรียบในการแข่งขัน ความหลากหลายที่มากขึ้นช่วยให้ PBT สามารถสำรวจพื้นที่ไฮเปอร์พารามิเตอร์ที่ใหญ่ขึ้นได้

ผลสอบ

PBT เปิดใช้งานการปรับปรุงอย่างมากในประสิทธิภาพของแบบจำลอง สำหรับการทดสอบข้างต้น โมเดล PBT ของเรามีความแม่นยำสูงขึ้นโดยลดผลบวกลวงลง 24% เมื่อเทียบกับเทียบเท่าที่ปรับแต่งด้วยมือ ในขณะที่ยังคงอัตราการเรียกคืนให้สูง ข้อได้เปรียบหลักของวิธีการวิวัฒนาการเช่น PBT คือสามารถเพิ่มประสิทธิภาพเมตริกที่ซับซ้อนโดยพลการได้ ตามเนื้อผ้า โครงข่ายประสาทสามารถฝึกได้โดยใช้ฟังก์ชันการสูญเสียที่เรียบง่ายและราบรื่นเท่านั้น ซึ่งทำหน้าที่เป็นตัวแทนสำหรับสิ่งที่เราสนใจจริงๆ PBT ช่วยให้เราก้าวไปไกลกว่ากฎการอัปเดตที่ใช้สำหรับการฝึกอบรมโครงข่ายประสาทเทียม และไปสู่การวัดที่ซับซ้อนมากขึ้นซึ่งเพิ่มประสิทธิภาพสำหรับคุณสมบัติที่เราให้ความสำคัญ เช่น การเพิ่มความแม่นยำสูงสุดภายใต้อัตราการเรียกคืนที่สูง

PBT ยังช่วยประหยัดเวลาและทรัพยากรอีกด้วย ตารางไฮเปอร์พารามิเตอร์ที่ค้นพบด้วยตาข่ายที่ฝึกด้วย PBT นั้นมีประสิทธิภาพเหนือกว่าเน็ตก่อนหน้าของ Waymo โดยใช้เวลาและทรัพยากรในการฝึกอบรมเพียงครึ่งเดียว โดยรวมแล้ว PBT ใช้ทรัพยากรการคำนวณเพียงครึ่งเดียวที่ใช้โดยการค้นหาคู่ขนานแบบสุ่มเพื่อค้นหากำหนดการไฮเปอร์พารามิเตอร์ที่ดีขึ้นอย่างมีประสิทธิภาพ นอกจากนี้ยังช่วยประหยัดเวลาสำหรับนักวิจัยด้วยการรวม PBT เข้ากับโครงสร้างพื้นฐานทางเทคนิคของ Waymo โดยตรง นักวิจัยจากทั่วทั้งบริษัทสามารถใช้วิธีนี้ได้ด้วยการคลิกปุ่มเพียงปุ่มเดียว และใช้เวลาน้อยลงในการปรับอัตราการเรียนรู้ นับตั้งแต่เสร็จสิ้นการทดลองเหล่านี้ PBT ได้ถูกนำไปใช้กับ Waymo รุ่นต่างๆ มากมาย และถือเป็นคำมั่นสัญญามากมายที่จะช่วยสร้างยานพาหนะที่มีความสามารถมากขึ้นสำหรับท้องถนน


Contributors: งานที่อธิบายไว้ในที่นี้เป็นความร่วมมือด้านการวิจัยระหว่าง Yu-hsin Chen และ Matthieu Devin จาก Waymo และ Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta และ Oriol Vinyals ของ DeepMind ที่ปรึกษาโครงการ ได้แก่ Max Jaderberg, Valentin Dalibard, Meire Fortunato และ Jackson Broshear จาก DeepMind

ที่มา: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

ประทับเวลา:

เพิ่มเติมจาก Deep Mind - โพสต์ล่าสุด