Procgen和MineRL比赛

源节点: 768080

我们很高兴地宣布 OpenAI 正在与以下机构共同组织两场 NeurIPS 2020 竞赛: 人群, 卡内基 - 梅隆大学DeepMind使用 Procgen基准矿井RL。我们在内部严重依赖这些环境来进行强化学习研究,我们期待看到社区在这些具有挑战性的竞赛中取得的进展。

Procgen 竞赛

注册 Procgen

Procgen 竞赛 专注于提高强化学习中的样本效率和泛化能力。参与者将尝试使用固定数量的环境交互来最大化代理的性能。代理将在已公开发布的 16 个环境中进行评估 Procgen基准,以及专门为本次比赛创建的四个秘密测试环境。通过汇总如此多不同环境中的性能,我们获得了高质量的指标来判断底层算法。有关每轮比赛详情的更多信息,请参见 点击此处.

由于所有内容都是按程序生成的,因此每个 Procgen 环境本质上都要求代理能够泛化到从未见过的情况。因此,这些环境为智能体在多种不同环境中的学习能力提供了强有力的测试。此外,我们设计的 Procgen 环境快速且易于使用。计算资源有限的参与者将能够轻松重现我们的基线结果并运行新的实验。我们希望这将使参与者能够快速迭代新方法,以提高强化学习中的样本效率和泛化能力。

MineRL比赛

注册 MineRL

人工智能最近取得的许多著名成功,例如 AlphaStar、AlphaGo 和我们自己的 OpenAI五,利用深度强化学习在顺序决策任务中实现人类或超人类水平的表现。迄今为止,这些对最先进技术的改进需要 呈指数增长 计算和模拟器样本的数量,因此很难将许多这些系统直接应用于环境样本昂贵的现实世界问题。降低环境样本复杂性的一种众所周知的方法是利用人类先验和所需行为的演示。

1 年 MineRL 竞赛第一名提交作品的效果图,该作品获得了铁镐。

为了进一步促进这一方向的研究,我们正在共同组织 MineRL 2020 竞赛 其目的是促进算法的开发,这些算法可以有效地利用人类演示来大幅减少解决复杂、分层和稀疏环境所需的样本数量。为此,参与者将竞相开发能够获得钻石的系统 我的世界 仅使用 8,000,000 个样本从原始像素 MineRL 模拟器 以及在单 GPU 机器上进行 4 天的训练。参与者将获得 MineRL-v0 数据集(官网, ),超过 60 万帧人类演示的大规模集合,使他们能够利用专家轨迹来最大限度地减少算法与 Minecraft 模拟器的交互。

本次比赛是继 MineRL 2019 竞赛 其中 顶级球队的经纪人获得一把铁镐 (竞赛的倒数第二个目标)在极其有限的计算和模拟器交互预算下。从长远来看,最先进的标准强化学习系统需要在大型多 GPU 系统上进行数亿次环境交互才能实现相同的目标。今年,我们预计竞争对手将进一步推动最先进的技术。

为了保证参赛者开发出真正有效的样本算法,MineRL 竞赛组织者从头开始训练顶级团队的最后一轮模型,并对可用的硬件、计算和模拟器交互进行严格限制。 MineRL 2020 竞赛还采用了一种新颖的措施,以避免手工工程功能和对该领域的过度拟合解决方案。有关竞赛结构的更多详细信息,请参见 点击此处.

来源:https://openai.com/blog/procgen-minerl-competitions/

时间戳记:

更多来自 OpenAI

图片GPT

源节点: 747759
时间戳记: 2020 年 6 月 17 日