에이전트 57 : 인간 Atari 벤치 마크를 능가

소스 노드 : 748165

단기 기억

상담원은 의사 결정에 대한 이전 관찰을 고려하기 위해 메모리가 필요합니다. 이를 통해 상담원은 현재 관측 (일반적으로 일부, 즉 상담원이 일부 세계 만 볼 수 있음)뿐만 아니라 과거 관측을 바탕으로 결정을 내릴 수 있습니다. . 예를 들어, 건물의 의자 수를 계산하기 위해 상담원이 방에서 방으로 이동하는 작업을 상상해보십시오. 기억이 없으면 상담원은 한 방의 관찰에만 의존 할 수 있습니다. 기억을 통해 상담원은 이전 방의 의자 수를 기억하고 현재 방에서 관찰 한 의자 수를 추가하여 작업을 해결할 수 있습니다. 따라서 기억의 역할은 의사 결정 프로세스를 개선하기 위해 과거 관측치에서 정보를 수집하는 것입니다. 딥 RL 및 딥 러닝에서 다음과 같은 반복적 인 신경망 장기 기억 (LSTM)은 단기 기억으로 사용됩니다.

스스로 학습하는 시스템을 구축하려면 기억과 행동을 연결하는 것이 중요합니다. 강화 학습에서 에이전트는 직접 행동의 가치 만 배울 수있는 정책에 따른 학습자이거나 그러한 행동을 수행하지 않을 때에도 최적의 행동에 대해 배울 수있는 정책을 벗어난 학습자가 될 수 있습니다. 무작위 행동을 취하지 만 가능한 최선의 행동이 무엇인지 배울 수 있습니다. 따라서 정책을 벗어난 학습은 에이전트에게 바람직한 속성이며, 환경을 철저히 탐색하면서 취할 수있는 최선의 방법을 배우는 데 도움이됩니다. 정책을 벗어난 학습과 기억을 결합하는 것은 다른 행동을 실행할 때 기억할 수있는 것을 알아야하기 때문에 어렵습니다. 예를 들어, 사과를 찾을 때 기억하도록 선택할 수있는 것 (예 : 사과가있는 위치)은 오렌지를 찾을 때 기억하도록 선택할 수있는 것과 다릅니다. 그러나 오렌지를 찾고 있다면 우연히 사과를 발견하면 나중에 찾아야 할 경우에 대비하여 사과를 찾는 방법을 배울 수 있습니다. 기억과 정책 외 학습을 결합한 최초의 딥 RL 에이전트는 딥 리 커런트 Q- 네트워크 (DRQN). 더 최근에, 요원 57의 계보에서 중요한 종 분이 반복 재생 분산 DQN (R2D2), 단기 기억의 신경망 모델을 정책 외 학습 및 분산 교육과 결합하고 Atari57에서 매우 강력한 평균 성능을 달성했습니다. R2D2는 과거 경험에서 학습하는 재생 메커니즘을 수정하여 단기 기억을 사용합니다. 이를 통해 R2D2는 수익성있는 행동을 효율적으로 학습하고 이용 보상을 위해.

에피소드 메모리

우리는 디자인 결코 포기하지 않을 다른 형태의 기억 : 에피소드 기억으로 R2D2를 확장하기 위해 (NGU). 이를 통해 NGU는 게임의 새로운 부분이 발견되는 시점을 감지 할 수 있으므로 에이전트는 보상을 얻을 수있는 새로운 부분을 탐색 할 수 있습니다. 이것은 에이전트의 행동 (탐구) 에이전트가 배우고 자하는 정책에서 크게 벗어남 (게임에서 높은 점수를 얻음); 따라서 정책 외 학습은 다시 여기서 중요한 역할을합니다. NGU는 도메인 지식 없이도 Atari57 벤치 마크와 다른 도전적인 Atari 게임의 도입 이후 어떤 점수도 얻지 못한 게임 인 Pitfall에서 긍정적 인 보상을 얻은 최초의 에이전트였습니다. 불행히도 NGU는 역사적으로 "더 쉬운"게임의 성능을 희생하므로 평균적으로 R2D2에 비해 성능이 저하됩니다. 

직접 탐사를 장려하는 본질적 동기 부여 방법

가장 성공적인 전략을 찾으려면 에이전트는 환경을 탐색해야하지만 일부 탐색 전략은 다른 전략보다 효율적입니다. DQN을 통해 연구원들은 epsilon-greedy라고하는 비 지향적 탐사 전략을 사용하여 탐사 문제를 해결하려고 시도했습니다. 그러나이 기술 군은 어려운 탐사 문제에 잘 맞지 않습니다. 보상이 없으면, 보이지 않는 상태를 발견하기 위해 방향이 지정되지 않은 무작위 행동 선택에 의존하기 때문에 큰 상태-행동 공간을 탐험하는 데 상당한 시간이 필요합니다. 이러한 한계를 극복하기 위해 많은 직접 탐사 전략이 제안되었다. 이 중 한 가닥은 개발에 중점을 두었습니다. 내적 동기 보상 이는 참신 추구 행동에 대해 더 밀집된 "내부"보상을 제공함으로써 에이전트가 가능한 한 많은 주를 탐험하고 방문하도록 장려합니다. 그 범위 내에서 우리는 두 가지 유형의 보상을 구별합니다. 장기 참신 보상은 훈련을 통해 여러 에피소드에서 여러 주를 방문하도록 권장합니다. 둘째, 단기 참신 보상은 짧은 기간 동안 (예 : 게임의 한 에피소드 내에서) 많은 주를 방문하도록 권장합니다.

오랜 시간 동안 참신함을 추구하다

장기 참신 보상 이전에 보지 못한 상태가 상담원의 수명 동안 발생하고 지금까지 훈련에서 본 상태 밀도의 함수입니다. 전반적으로 보았습니다. 밀도가 높을 때 (상태가 익숙한) 장기 참신 보상은 낮으며 그 반대도 마찬가지입니다. 모든 주가 친숙한 경우 에이전트는 무인 탐사 전략에 의존합니다. 그러나, 고차원 공간의 학습 밀도 모델은 차원의 저주. 실제로 상담원이 딥 러닝 모델을 사용하여 밀도 모델을 학습하면 비극적 인 망각 (새로운 경험을 겪었을 때 이전에 본 정보를 잊어 버렸습니다) 및 모든 입력에 대해 정확한 출력을 생성 할 수 없습니다. 예를 들어, 몬테 주마의 복수에서는 방향이없는 탐사 전략과 달리 장기 참신 보상을 통해 요원이 인간 기준을 능가 할 수 있습니다. 그러나 심지어 몬테 주마의 복수에서 최고의 성능을 발휘하는 방법 에서 밀도 모델을주의해서 훈련해야합니다. 연락해주세요 속도 : 밀도 모델이 첫 번째 방의 상태가 익숙한에이전트는 지속적으로 익숙하지 않은 영역에 도달 할 수 있어야합니다.

출처 : https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

타임 스탬프 :

더보기 딥마인드 - 최신 게시물