Agent57: มีประสิทธิภาพเหนือกว่ามาตรฐานอาตาริของมนุษย์

โหนดต้นทาง: 748165

หน่วยความจำระยะสั้น

ตัวแทนจำเป็นต้องมีหน่วยความจำเพื่อพิจารณาข้อสังเกตก่อนหน้านี้ในการตัดสินใจของพวกเขา สิ่งนี้ทำให้ตัวแทนไม่เพียงแต่ตัดสินใจบนพื้นฐานของการสังเกตในปัจจุบัน (ซึ่งมักจะเป็นเพียงบางส่วน กล่าวคือ ตัวแทนมองเห็นเพียงบางส่วนของโลกเท่านั้น) แต่ยังรวมถึงการสังเกตในอดีตด้วย ซึ่งสามารถเปิดเผยข้อมูลเพิ่มเติมเกี่ยวกับสิ่งแวดล้อมโดยรวมได้ . ตัวอย่างเช่น ลองนึกภาพ งานที่ตัวแทนไปจากห้องหนึ่งไปอีกห้องหนึ่งเพื่อนับจำนวนเก้าอี้ในอาคารหนึ่ง หากไม่มีหน่วยความจำ เอเจนต์สามารถพึ่งพาการสังเกตของห้องเดียวเท่านั้น ด้วยหน่วยความจำ เจ้าหน้าที่สามารถจดจำจำนวนเก้าอี้ในห้องก่อนหน้า และเพิ่มจำนวนเก้าอี้ที่สังเกตได้ในห้องปัจจุบันเพื่อแก้ปัญหา ดังนั้นบทบาทของหน่วยความจำคือการรวบรวมข้อมูลจากการสังเกตที่ผ่านมาเพื่อปรับปรุงกระบวนการตัดสินใจ ใน RL เชิงลึกและการเรียนรู้เชิงลึก โครงข่ายประสาทที่เกิดซ้ำ เช่น หน่วยความจำระยะสั้นระยะยาว (LSTM) ถูกใช้เป็นความทรงจำระยะสั้น

การเชื่อมต่อหน่วยความจำกับพฤติกรรมเป็นสิ่งสำคัญสำหรับการสร้างระบบที่เรียนรู้ด้วยตนเอง ในการเรียนรู้แบบเสริมกำลัง ตัวแทนสามารถเป็นผู้เรียนตามนโยบาย ซึ่งสามารถเรียนรู้คุณค่าของการกระทำโดยตรงของตน หรือผู้เรียนนอกนโยบาย ซึ่งสามารถเรียนรู้เกี่ยวกับการดำเนินการที่เหมาะสมที่สุดได้แม้ว่าจะไม่ได้ดำเนินการใดๆ ก็ตาม เช่น อาจ ทำการสุ่ม แต่ยังสามารถเรียนรู้ว่าการกระทำที่ดีที่สุดคืออะไร การเรียนรู้นอกนโยบายจึงเป็นคุณสมบัติที่พึงปรารถนาสำหรับตัวแทน ช่วยให้พวกเขาเรียนรู้แนวทางปฏิบัติที่ดีที่สุดในขณะที่สำรวจสภาพแวดล้อมของตนอย่างถี่ถ้วน การรวมการเรียนรู้นอกนโยบายเข้ากับความจำเป็นสิ่งที่ท้าทายเพราะคุณจำเป็นต้องรู้ว่าสิ่งที่คุณอาจจำได้เมื่อดำเนินการพฤติกรรมที่แตกต่างออกไป ตัวอย่างเช่น สิ่งที่คุณอาจเลือกจำเมื่อมองหาแอปเปิล (เช่น ตำแหน่งของแอปเปิล) ต่างจากสิ่งที่คุณอาจเลือกจำเมื่อมองหาส้ม แต่ถ้าคุณกำลังมองหาส้ม คุณยังสามารถเรียนรู้วิธีหาแอปเปิลได้ถ้าคุณบังเอิญเจอแอปเปิล เผื่อว่าคุณจะต้องเจอมันอีกในอนาคต เอเจนต์ RL ระดับลึกแรกที่รวมหน่วยความจำและการเรียนรู้นอกนโยบายคือ เครือข่าย Q ที่เกิดซ้ำลึก (DRQN). อีกไม่นาน speciation สำคัญในสายเลือดของ Agent57 เกิดขึ้นกับ เล่นซ้ำแบบกระจาย DQN (R2D2) ซึ่งรวมโมเดลโครงข่ายประสาทเทียมของหน่วยความจำระยะสั้นเข้ากับการเรียนรู้นอกนโยบายและการฝึกอบรมแบบกระจาย และบรรลุประสิทธิภาพโดยเฉลี่ยที่แข็งแกร่งมากบน Atari57 R2D2 ปรับเปลี่ยนกลไกการเล่นซ้ำสำหรับการเรียนรู้จากประสบการณ์ที่ผ่านมาเพื่อทำงานกับหน่วยความจำระยะสั้น ทั้งหมดนี้ช่วยให้ R2D2 เรียนรู้พฤติกรรมที่ทำกำไรได้อย่างมีประสิทธิภาพ และ เอาเปรียบ เพื่อเป็นรางวัล

หน่วยความจำตอน

เราออกแบบ Never Give Up (NGU) เพื่อเพิ่ม R2D2 ด้วยหน่วยความจำรูปแบบอื่น: หน่วยความจำแบบเป็นตอน สิ่งนี้ทำให้ NGU สามารถตรวจจับได้เมื่อพบส่วนใหม่ของเกม ดังนั้นตัวแทนจึงสามารถสำรวจส่วนใหม่ๆ ของเกมในกรณีที่พวกเขาให้รางวัล ทำให้พฤติกรรมของตัวแทน (การสำรวจ) เบี่ยงเบนอย่างมากจากนโยบายที่ตัวแทนพยายามเรียนรู้ (การได้รับคะแนนสูงในเกม) ดังนั้นการเรียนรู้นอกนโยบายอีกครั้งจึงมีบทบาทสำคัญที่นี่ NGU เป็นตัวแทนรายแรกที่ได้รับรางวัลในเชิงบวกโดยปราศจากความรู้โดเมนใน Pitfall ซึ่งเป็นเกมที่ไม่มีเจ้าหน้าที่คนใดทำคะแนนได้ตั้งแต่เริ่มใช้เกณฑ์มาตรฐาน Atari57 และเกม Atari ที่ท้าทายอื่นๆ น่าเสียดายที่ NGU เสียสละประสิทธิภาพในเกมที่ "ง่ายกว่า" ในอดีต โดยเฉลี่ยแล้ว ผลงานต่ำกว่า R2D2 

วิธีการสร้างแรงจูงใจจากภายในเพื่อส่งเสริมการสำรวจโดยตรง

เพื่อที่จะค้นพบกลยุทธ์ที่ประสบความสำเร็จมากที่สุด เจ้าหน้าที่ต้องสำรวจสภาพแวดล้อมของตน แต่กลยุทธ์การสำรวจบางอย่างมีประสิทธิภาพมากกว่ากลยุทธ์อื่น ด้วย DQN นักวิจัยพยายามที่จะแก้ไขปัญหาการสำรวจโดยใช้กลยุทธ์การสำรวจที่ไม่มีทิศทางที่เรียกว่า epsilon-greedy โดยมีความน่าจะเป็นคงที่ (epsilon) สุ่มดำเนินการ มิฉะนั้นจะเลือกการดำเนินการที่ดีที่สุดในปัจจุบัน อย่างไรก็ตาม เทคนิคในตระกูลนี้ไม่สามารถปรับขนาดได้ดีสำหรับปัญหาการสำรวจอย่างหนัก: ในกรณีที่ไม่มีรางวัล พวกเขาต้องใช้เวลาจำนวนมากในการสำรวจพื้นที่การดำเนินการของรัฐขนาดใหญ่ เนื่องจากพวกเขาอาศัยตัวเลือกการดำเนินการสุ่มที่ไม่ได้กำหนดทิศทางเพื่อค้นหาสถานะที่มองไม่เห็น เพื่อที่จะเอาชนะข้อจำกัดนี้ มีการเสนอกลยุทธ์การสำรวจโดยตรงจำนวนมาก ในกลุ่มเหล่านี้ มีสายหนึ่งที่เน้นการพัฒนา แรงจูงใจที่แท้จริง รางวัล ที่ส่งเสริมให้ตัวแทนไปสำรวจและเยี่ยมชมรัฐต่างๆ ให้ได้มากที่สุดโดยให้รางวัล "ภายใน" ที่หนาแน่นมากขึ้นสำหรับพฤติกรรมที่แสวงหาสิ่งแปลกใหม่ ภายในกลุ่มนั้น เราแยกรางวัลออกเป็นสองประเภท: ประการแรก ความแปลกใหม่ในระยะยาว รางวัลส่งเสริมการเยี่ยมชมหลายรัฐตลอดการฝึกอบรมในหลายตอน ประการที่สอง ความแปลกใหม่ระยะสั้น รางวัลส่งเสริมการเยี่ยมชมหลายรัฐในช่วงเวลาสั้น ๆ (เช่นภายในตอนเดียวของเกม)

แสวงหาความแปลกใหม่ในช่วงเวลาที่ยาวนาน

รางวัลความแปลกใหม่ระยะยาว สัญญาณเมื่อพบสภาพที่มองไม่เห็นก่อนหน้านี้ในช่วงอายุของตัวแทนและเป็นหน้าที่ของความหนาแน่นของรัฐที่เห็นในการฝึกอบรมนั่นคือมันถูกปรับโดยความถี่ที่ตัวแทนได้เห็นสถานะที่คล้ายกับสถานะปัจจุบันที่สัมพันธ์กับสถานะ เห็นโดยรวมแล้ว เมื่อความหนาแน่นสูง (แสดงว่าสถานะคือ คุ้นเคย) รางวัลความแปลกใหม่ในระยะยาวนั้นต่ำ และในทางกลับกัน เมื่อทุกรัฐคุ้นเคยกันดีแล้ว ตัวแทนก็หันไปใช้กลยุทธ์การสำรวจที่ไม่ระบุทิศทาง อย่างไรก็ตาม โมเดลความหนาแน่นของการเรียนรู้ของพื้นที่มิติสูงนั้นเต็มไปด้วยปัญหาอันเนื่องมาจาก คำสาปแห่งมิติ. ในทางปฏิบัติ เมื่อตัวแทนใช้โมเดลการเรียนรู้เชิงลึกเพื่อเรียนรู้แบบจำลองความหนาแน่น พวกเขาต้องทนทุกข์ทรมานจาก โศกนาฏกรรมหลงลืม (ลืมข้อมูลที่เคยเห็นเมื่อพบประสบการณ์ใหม่) รวมถึงการไม่สามารถสร้างผลลัพธ์ที่แม่นยำสำหรับอินพุตทั้งหมด ตัวอย่างเช่น ในการแก้แค้นของ Montezuma ซึ่งแตกต่างจากกลยุทธ์การสำรวจแบบไม่มีทิศทาง รางวัลความแปลกใหม่ในระยะยาวช่วยให้ตัวแทนสามารถผ่านเกณฑ์พื้นฐานของมนุษย์ได้ อย่างไรก็ตาม แม้แต่ วิธีการที่มีประสิทธิภาพดีที่สุดในการแก้แค้นของ Montezuma จำเป็นต้องฝึกแบบจำลองความหนาแน่นอย่างระมัดระวังที่ ขวา ความเร็ว: เมื่อแบบจำลองความหนาแน่นระบุว่าสถานะในห้องแรกเป็น คุ้นเคย, ตัวแทนควรจะสามารถไปยังดินแดนที่ไม่คุ้นเคยได้อย่างสม่ำเสมอ

ที่มา: https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

ประทับเวลา:

เพิ่มเติมจาก Deep Mind - โพสต์ล่าสุด