进化选择如何训练能力更强的自动驾驶汽车

源节点: 749900

Waymo的演变

DeepMind和Waymo合作进行的第一个实验涉及训练一个网络,该网络在我们的传感器检测到的行人,自行车手和摩托车手周围产生盒子,这就是“区域提案网络”。 目的是研究PBT是否可以通过以下两种方法来提高神经网络检测行人的能力:召回率(由神经网络识别的行人占场景中行人总数的比例)和精度(检测到的行人所占比例)实际上是行人,而不是虚假的“误报”)。 Waymo的车辆使用多种神经网络和其他方法检测这些道路使用者,但此实验的目标是训练该单个神经网络,以使召回率保持99%以上,同时使用基于人口的训练来减少误报。

我们从这个实验中学到了很多东西。 首先,我们发现我们需要为网络创建一个现实而健壮的评估,以便我们知道当在现实世界中的各种情况下部署神经网络时,它们是否确实会表现更好。 这种评估构成了PBT用来选择一个胜出的神经网络胜过另一个的竞争基础。 为了确保神经网络的总体性能良好,并且不要简单地记住他们在训练中看到的示例的答案,我们的PBT竞争评估使用了一组与训练中使用的示例(“验证集”)不同的示例(“验证集”) “训练集”。为了验证最终性能,我们还使用了神经网络在训练或比赛中从未见过的第三组示例(“评估集”)。

其次,我们了解到我们需要快速评估以支持频繁的进化竞争。 研究人员很少在训练过程中评估他们的模型,而当他们这样做时,评估就很少进行了。 每15分钟评估PBT所需模型。 为了实现这一目标,我们利用Google的数据中心来并行化数百台分布式计算机的评估。

多样性在进化竞争中的力量

在这些实验中,我们注意到PBT的优势之一(为性能更好的网络的后代分配更多资源)也可能是一个弱点,因为PBT针对当前进行了优化,并且没有考虑长期结果。 这可能是一个问题,因为它不利于后期创建者,因此具有超参数的神经网络在长期内表现更好,因此没有机会成熟和成功。 解决这一问题的一种方法是增加人口多样性,这可以通过简单地培训大量人口来实现。 如果人口足够大,则具有大量盛开的超参数的网络更有可能生存下来并在后代追赶。

在这些实验中,我们能够通过创建称为“小生境”的亚种群来增加多样性,在该种群中,仅允许神经网络在其自身的亚群中竞争-类似于在岛屿上被隔离时物种如何进化。 我们还尝试通过一种称为“健身共享”的技术直接奖励多样性,该技术可以测量人群之间的差异,并为竞争提供更多独特的神经网络。 更大的多样性使PBT可以探索更大的超参数空间。

成果

PBT极大地提高了模型性能。 对于上面的实验,我们的PBT模型能够通过将误报率(相比于其手动调整的等效项)降低24%来达到更高的精度,同时保持较高的召回率。 诸如PBT之类的进化方法的主要优势在于,它们可以优化任意复杂的指标。 传统上,神经网络只能使用简单而平滑的损失函数进行训练,这些函数可以作为我们真正关心的事情的代理。 PBT使我们能够超越用于训练神经网络的更新规则,朝着针对我们所关心的功能进行优化(例如在高召回率下最大化精度)的更为复杂的指标进行优化。

PBT还节省了时间和资源。 用PBT训练的网络发现的超参数进度表在训练时间和资源上比Waymo以前的网络要好。 总体而言,PBT使用随机并行搜索所用计算资源的一半来有效发现更好的超参数调度。 通过直接将PBT整合到Waymo的技术基础架构中,整个公司的研究人员都可以通过单击按钮应用此方法,而花费更少的时间来调整他们的学习速度,从而节省了研究人员的时间。 自完成这些实验以来,PBT已应用于许多不同的Waymo模型,并有望帮助制造出更强大的道路车辆。


贡献者:此处描述的工作是Waymo的Chen Yu-hsin Chen和Matthieu Devin与DeepMind的Ali Razavi,Ang Ang,Sibon Li,Ola Spyra,Pramod Gupta和Oriol Vinyals之间的研究合作。 该项目的顾问包括来自DeepMind的Max Jaderberg,Valentin Dalibard,Meire Fortunato和Jackson Broshear。

资料来源:https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

时间戳记:

更多来自 深切的心-最新帖子