Procgen 및 MineRL 경쟁

소스 노드 : 768080

우리는 OpenAI가 두 개의 NeurIPS 2020 경쟁을 조직하고 있음을 발표하게되어 기쁩니다. AI크라우드, 카네기 멜론 대학Deepmind사용하여, 프록 겐 벤치 마크광산 RL. 우리는 강화 학습에 대한 연구를 위해 내부적으로 이러한 환경에 크게 의존하고 있으며, 이러한 경쟁이 치열한 경쟁에서 지역 사회의 발전을 기대합니다.

프록 겐 경쟁

Procgen에 가입하십시오

XNUMXD덴탈의 프록 겐 경쟁 강화 학습의 샘플 효율성 및 일반화 개선에 중점을 둡니다. 참가자는 고정 된 수의 환경 상호 작용을 사용하여 에이전트의 성능을 최대화하려고 시도합니다. 에이전트는 이미 공개 된 16 개 환경 각각에서 평가됩니다. 프록 겐 벤치 마크이 경쟁을 위해 특별히 만들어진 네 가지 비밀 테스트 환경에서 다양한 환경에서 성능을 집계하여 기본 알고리즘을 판단 할 수있는 고품질 메트릭을 얻습니다. 각 라운드의 세부 사항에 대한 자세한 정보는 찾을 수 있습니다 여기에서 지금 확인해 보세요..

모든 컨텐츠는 절차 상 생성되므로, 각 Procgen 환경은 본질적으로 에이전트가 본 적이없는 상황을 일반화하도록 요구합니다. 따라서 이러한 환경은 다양한 환경에서 학습 할 수있는 상담원의 능력에 대한 강력한 테스트를 제공합니다. 또한 Procgen 환경을 빠르고 사용하기 쉽게 설계했습니다. 계산 리소스가 제한된 참가자는 기본 결과를 쉽게 재현하고 새로운 실험을 실행할 수 있습니다. 이를 통해 참가자는 새로운 방법을 신속하게 반복하여 RL에서 샘플 효율성과 일반화를 개선 할 수 있기를 바랍니다.

MineRL 경쟁

MineRL에 가입하십시오

AlphaStar, AlphaGo 및 우리와 같은 인공 지능의 최근의 유명한 성공 오픈AI 파이브, 심층 강화 학습을 활용하여 순차적 의사 결정 작업에서 인간 또는 초 인간 수준의 성과를 달성하십시오. 최신 기술에 대한 이러한 개선은 현재까지 기하 급수적으로 증가 계산 및 시뮬레이터 샘플의 양이 많기 때문에 이러한 시스템 중 많은 것을 환경 샘플이 비싼 실제 문제에 직접 적용하는 것은 어렵습니다. 환경 샘플의 복잡성을 줄이는 잘 알려진 한 가지 방법은 인간의 이전 행동과 원하는 행동의 데모를 이용하는 것입니다.

MineRL 1 대회에서 2019 등을 제출하여 철 곡괭이를 얻었습니다.

이 방향으로 연구를 촉진하기 위해, 우리는 MineRL 2020 경쟁 인간의 데모를 효율적으로 활용하여 복잡하고 계층 적이며 드문 환경을 해결하는 데 필요한 샘플 수를 대폭 줄일 수있는 알고리즘 개발을 촉진하는 것을 목표로합니다. 이를 위해 참가자들은 다이아몬드를 얻을 수있는 시스템을 개발하기 위해 경쟁 할 것입니다. 마인 크래프트 8,000,000 개의 샘플 만 사용하여 원시 픽셀에서 MineRL 시뮬레이터 단일 GPU 머신에 대한 4 일간의 교육. 참가자에게는 MineRL-v0 데이터 세트가 제공됩니다 (웹 사이트, 종이)는 60 천만 개가 넘는 인간 데모 프레임을 모은 대규모 컬렉션으로, 전문가 궤적을 활용하여 Minecraft 시뮬레이터와 알고리즘의 상호 작용을 최소화 할 수 있습니다.

이 경쟁은 MineRL 2019 경쟁 어느 최고 팀의 에이전트 할 수 있었다 철 곡괭이를 얻다 이 극도로 제한된 컴퓨팅 및 시뮬레이터 상호 작용 예산에 따라 (경쟁의 두 번째 목표). 요컨대, 최첨단 표준 강화 학습 시스템은 동일한 목표를 달성하기 위해 대형 다중 GPU 시스템에서 수억 개의 환경 상호 작용이 필요합니다. 올해 우리는 경쟁 업체들이 최첨단 기술을 더욱 발전시킬 것으로 기대합니다.

경쟁 업체가 실제로 샘플 효율적인 알고리즘을 개발할 수 있도록 MineRL 경쟁 주최자는 사용 가능한 하드웨어, 컴퓨팅 및 시뮬레이터 상호 작용에 대한 엄격한 제약 조건으로 최상위 팀의 최종 라운드 모델을 처음부터 교육합니다. MineRL 2020 공모전에는 수작업 엔지니어링 기능과 도메인에 대한 과적 합 솔루션을 피하기위한 새로운 수단이 있습니다. 경쟁 구조에 대한 자세한 내용은 찾을 수 있습니다 여기에서 지금 확인해 보세요..

출처 : https://openai.com/blog/procgen-minerl-competitions/

타임 스탬프 :

더보기 OpenAI