Đặc vụ57: Vượt trội so với tiêu chuẩn Atari của con người

Nút nguồn: 748165

Bộ nhớ ngắn hạn

Các đại lý cần phải có bộ nhớ để tính đến các quan sát trước đó trong quá trình ra quyết định của họ. Điều này cho phép tác nhân không chỉ đưa ra quyết định dựa trên quan sát hiện tại (thường là một phần, nghĩa là tác nhân chỉ nhìn thấy một số thế giới của nó), mà còn dựa trên các quan sát trong quá khứ, có thể tiết lộ thêm thông tin về toàn bộ môi trường . Ví dụ, hãy tưởng tượng một nhiệm vụ trong đó một nhân viên đi từ phòng này sang phòng khác để đếm số lượng ghế trong một tòa nhà. Không có bộ nhớ, đặc vụ chỉ có thể dựa vào việc quan sát một phòng. Với bộ nhớ, tác nhân có thể nhớ số ghế trong các phòng trước đó và chỉ cần thêm số ghế mà nó quan sát được trong phòng hiện tại để giải quyết nhiệm vụ. Do đó, vai trò của bộ nhớ là tổng hợp thông tin từ các quan sát trong quá khứ để cải thiện quá trình ra quyết định. Trong RL sâu và học sâu, các mạng thần kinh tái phát như Trí Nhớ Dài Hạn (LSTM) được sử dụng làm ký ức ngắn hạn.

Kết nối bộ nhớ với hành vi là rất quan trọng để xây dựng các hệ thống tự học. Trong học tăng cường, một tác nhân có thể là người học theo chính sách, chỉ có thể học giá trị của các hành động trực tiếp của nó hoặc người học ngoài chính sách, có thể học về các hành động tối ưu ngay cả khi không thực hiện các hành động đó – ví dụ: nó có thể là thực hiện các hành động ngẫu nhiên, nhưng vẫn có thể biết được đâu là hành động tốt nhất có thể. Do đó, học tập ngoài chính sách là một tài sản mong muốn cho các đại lý, giúp họ tìm hiểu cách hành động tốt nhất để thực hiện trong khi khám phá kỹ lưỡng môi trường của họ. Việc kết hợp học tập ngoài chính sách với trí nhớ là một thách thức vì bạn cần biết những gì bạn có thể nhớ khi thực hiện một hành vi khác. Ví dụ, những gì bạn có thể chọn để nhớ khi tìm kiếm một quả táo (ví dụ: vị trí của quả táo), khác với những gì bạn có thể chọn để nhớ nếu tìm kiếm một quả cam. Nhưng nếu bạn đang tìm một quả cam, bạn vẫn có thể học cách tìm quả táo nếu bạn tình cờ bắt gặp quả táo, phòng trường hợp bạn cần tìm nó trong tương lai. Tác nhân RL sâu đầu tiên kết hợp bộ nhớ và học tập ngoài chính sách là Mạng Q định kỳ sâu (DRQN). Gần đây hơn, một sự suy đoán quan trọng trong dòng dõi của Agent57 đã xảy ra với Phát lại định kỳ DQN được phân phối (R2D2), kết hợp mô hình mạng thần kinh của bộ nhớ ngắn hạn với học tập ngoài chính sách và đào tạo phân tán, đồng thời đạt được hiệu suất trung bình rất cao trên Atari57. R2D2 sửa đổi cơ chế phát lại để học hỏi từ kinh nghiệm trong quá khứ để hoạt động với trí nhớ ngắn hạn. Tất cả cùng nhau, điều này đã giúp R2D2 học hiệu quả các hành vi có lợi và khai thác chúng để nhận phần thưởng.

Nhớ phân đoạn

Chúng tôi thiết kế Never Give Up (NGU) để tăng cường R2D2 bằng một dạng bộ nhớ khác: bộ nhớ theo tập. Điều này cho phép NGU phát hiện khi gặp các phần mới của trò chơi, do đó, nhân viên có thể khám phá các phần mới hơn này của trò chơi trong trường hợp chúng mang lại phần thưởng. Điều này làm cho hành vi của đại lý (thăm dò) sai lệch đáng kể so với chính sách mà nhân viên đang cố gắng tìm hiểu (đạt điểm cao trong trò chơi); do đó, học tập ngoài chính sách một lần nữa đóng một vai trò quan trọng ở đây. NGU là tác nhân đầu tiên nhận được phần thưởng tích cực mà không cần kiến ​​thức về miền trên Cạm bẫy, một trò chơi mà không có tác nhân nào ghi được điểm nào kể từ khi giới thiệu điểm chuẩn Atari57 và các trò chơi Atari đầy thử thách khác. Thật không may, NGU hy sinh hiệu suất cho những trò chơi "dễ dàng hơn" trong lịch sử và do đó, về trung bình, hoạt động kém hơn so với R2D2. 

Phương pháp động lực nội tại để khuyến khích khám phá có định hướng

Để khám phá các chiến lược thành công nhất, các tác nhân phải khám phá môi trường của họ – nhưng một số chiến lược thăm dò hiệu quả hơn các chiến lược khác. Với DQN, các nhà nghiên cứu đã cố gắng giải quyết vấn đề thăm dò bằng cách sử dụng chiến lược khám phá vô hướng được gọi là tham lam epsilon: với xác suất cố định (epsilon), thực hiện một hành động ngẫu nhiên, nếu không thì chọn hành động tốt nhất hiện tại. Tuy nhiên, nhóm kỹ thuật này không mở rộng tốt cho các vấn đề khám phá khó: trong trường hợp không có phần thưởng, chúng cần một lượng thời gian quá lớn để khám phá các không gian hành động trạng thái rộng lớn, vì chúng dựa vào các lựa chọn hành động ngẫu nhiên không định hướng để khám phá các trạng thái không nhìn thấy được. Để khắc phục hạn chế này, nhiều chiến lược thăm dò trực tiếp đã được đề xuất. Trong số này, một nhánh đã tập trung vào phát triển động lực nội tại phần thưởng khuyến khích một tác nhân khám phá và đến thăm càng nhiều tiểu bang càng tốt bằng cách cung cấp nhiều phần thưởng “nội bộ” hơn cho các hành vi tìm kiếm sự mới lạ. Trong chuỗi đó, chúng tôi phân biệt hai loại phần thưởng: thứ nhất, sự mới lạ lâu dài phần thưởng khuyến khích đến thăm nhiều tiểu bang trong suốt quá trình đào tạo, qua nhiều tập. Thứ hai, tính mới ngắn hạn phần thưởng khuyến khích đến thăm nhiều trạng thái trong một khoảng thời gian ngắn (ví dụ: trong một tập của trò chơi).

Tìm kiếm sự mới lạ trong quy mô thời gian dài

Phần thưởng mới lạ dài hạn tín hiệu khi một trạng thái chưa từng thấy trước đó xuất hiện trong thời gian tồn tại của tác nhân và là một hàm của mật độ các trạng thái đã thấy cho đến nay trong quá trình đào tạo: nghĩa là, nó được điều chỉnh theo tần suất tác nhân nhìn thấy một trạng thái tương tự như trạng thái hiện tại so với các trạng thái nhìn tổng thể. Khi mật độ cao (chỉ ra rằng trạng thái là quen), phần thưởng mới lạ dài hạn thấp và ngược lại. Khi tất cả các trạng thái đều quen thuộc, tác nhân sử dụng chiến lược thăm dò vô hướng. Tuy nhiên, các mô hình mật độ học tập của không gian nhiều chiều có nhiều vấn đề do lời nguyền của chiều. Trong thực tế, khi các tác nhân sử dụng các mô hình học sâu để học một mô hình mật độ, họ bị quên thảm khốc (quên thông tin đã xem trước đây khi họ gặp trải nghiệm mới), cũng như không có khả năng tạo ra đầu ra chính xác cho tất cả các đầu vào. Ví dụ: trong Montezuma's Revenge, không giống như các chiến lược khám phá vô hướng, phần thưởng mới lạ dài hạn cho phép đặc vụ vượt qua giới hạn cơ bản của con người. Tuy nhiên, ngay cả những phương pháp thực hiện tốt nhất trên Montezuma's Revenge cần đào tạo cẩn thận một mô hình mật độ tại ngay tốc độ: khi mô hình mật độ chỉ ra rằng các trạng thái trong phòng đầu tiên là quen, đại lý sẽ có thể liên tục đến lãnh thổ xa lạ.

Nguồn: https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

Dấu thời gian:

Thêm từ Deep Mind - Bài đăng mới nhất