Procgen および MineRL コンテスト

ソースノード: 768080

OpenAI が 2020 つの NeurIPS XNUMX コンテストを共催することを発表できることを嬉しく思います。 AI群衆, カーネギーメロン大学, ディープマインド、使用して Procgenベンチマーク & マインRL。 私たちは強化学習の研究のために社内でこれらの環境に大きく依存しており、これらの挑戦的なコンテストでコミュニティが進歩することを楽しみにしています。

プロジェン・コンペティション

プロジェンにサインアップする

  プロジェン・コンペティション 強化学習におけるサンプル効率の向上と一般化に重点を置いています。 参加者は、一定数の環境インタラクションを使用してエージェントのパフォーマンスを最大化しようと試みます。 エージェントは、すでに公開されている 16 の環境のそれぞれで評価されます。 Procgenベンチマーク、およびこのコンテストのために特別に作成された XNUMX つの秘密のテスト環境でも行われます。 非常に多くの多様な環境にわたるパフォーマンスを集約することで、基礎となるアルゴリズムを判断するための高品質の指標を取得します。 各ラウンドの詳細については、こちらをご覧ください。 こちら.

すべてのコンテンツは手続き的に生成されるため、各 Procgen 環境では本質的にエージェントがこれまでに見たことのない状況に一般化する必要があります。 したがって、これらの環境は、さまざまな環境でのエージェントの学習能力の堅牢なテストを提供します。 さらに、Procgen 環境は高速かつ簡単に使用できるように設計されています。 計算リソースが限られている参加者でも、ベースライン結果を簡単に再現し、新しい実験を実行できます。 これにより、参加者が新しい手法を迅速に反復して、RL のサンプル効率と一般化を向上できるようになることを期待しています。

MineRLコンペティション

MineRL にサインアップする

AlphaStar、AlphaGo、そして私たちの独自の人工知能など、最近の有名な成功の多くは、 OpenAIファイブ、深層強化学習を利用して、連続的な意思決定タスクにおいて人間または超人間レベルのパフォーマンスを達成します。 最先端技術に対するこれらの改善には、これまでのところ、 指数関数的に増加する コンピューティング サンプルとシミュレーター サンプルの量が非常に多いため、環境サンプルが高価である現実の問題にこれらのシステムの多くを直接適用することは困難です。 環境サンプルの複雑さを軽減するよく知られた方法の XNUMX つは、人間の事前経験と望ましい動作のデモンストレーションを活用することです。

MineRL 1 コンテストの 2019 位の応募作品が鉄のつるはしを手に入れた様子のレンダリング。

この方向の研究をさらに促進するために、私たちは、 MineRL 2020 コンペティション これは、人間のデモンストレーションを効率的に活用して、複雑で階層的かつ疎な環境を解決するために必要なサンプルの数を大幅に削減できるアルゴリズムの開発を促進することを目的としています。 そのために、参加者はダイヤモンドを獲得できるシステムの開発を競います。 Minecraftの 生のピクセルから 8,000,000 個のサンプルのみを使用して、 MineRL シミュレーター 単一の GPU マシンでの 4 日間のトレーニング。 参加者には、MineRL-v0 データセットが提供されます (ウェブサイト, ) は、人間によるデモンストレーションの 60 万フレームを超える大規模なコレクションであり、専門家の軌跡を利用して、アルゴリズムと Minecraft シミュレーターとの相互作用を最小限に抑えることができます。

この大会はその続編となるもので、 MineRL 2019 コンペティション その中で トップチームの代理人 することができた 鉄のつるはしを入手する (コンテストの最後から XNUMX 番目の目標) この非常に限られたコンピューティング予算とシミュレータとの対話予算の下で。 観点から見ると、最先端の標準的な強化学習システムでは、同じ目標を達成するために、大規模なマルチ GPU システム上で数億回の環境インタラクションが必要になります。 今年は、競合他社が最先端技術をさらに推し進めると予想されます。

競合他社が真にサンプル効率の高いアルゴリズムを開発することを保証するために、MineRL コンペティションの主催者は、利用可能なハードウェア、コンピューティング、およびシミュレータとのインタラクションに厳しい制約を設けて、トップ チームの最終ラウンド モデルをゼロからトレーニングします。 MineRL 2020 コンペティションでは、ハンド エンジニアリング機能やドメインへのソリューションの過剰適合を回避するための新しい手段も備えています。 競争構造の詳細については、こちらをご覧ください。 こちら.

出典: https://openai.com/blog/procgen-minerl-competitions/

タイムスタンプ:

より多くの OpenAI