進化的選択がより有能な自動運転車を訓練する方法

ソースノード: 749900

Waymoでの進化

DeepMindとWaymoが共同で行った最初の実験では、センサーによって検出された歩行者、自転車、オートバイの周りにボックスを生成するネットワークをトレーニングしました。これは「地域提案ネットワーク」と呼ばれます。 目的は、PBTが、リコール(シーン内の歩行者の総数に対するニューラルネットによって識別された歩行者の割合)と精度(検出された歩行者の割合)の99つの測定値に沿って歩行者を検出するニューラルネットの能力を向上させることができるかどうかを調査することでした。実際には歩行者であり、偽の「誤検知」ではありません)。 Waymoの車両は、複数のニューラルネットやその他の方法を使用してこれらの道路利用者を検出しますが、この実験の目的は、人口ベースのトレーニングを使用して誤検知を減らしながら、XNUMX%以上のリコールを維持するようにこの単一のニューラルネットをトレーニングすることでした。

この実験から多くのことを学びました。 まず、ネットワークの現実的で堅牢な評価を作成して、ニューラルネットが現実世界のさまざまな状況に展開されたときに本当に優れたパフォーマンスを発揮するかどうかを判断する必要があることを発見しました。 この評価は、PBTが勝者のニューラルネットを別のニューラルネットよりも選ぶために採用する競争の基礎を形成しました。 ニューラルネットが一般的に良好に機能することを保証し、トレーニング中に見た例への回答を単に記憶するのではなく、PBT競争評価では、トレーニングで使用されるものとは異なる一連の例(「検証セット」)を使用します( 「トレーニングセット」)最終的なパフォーマンスを検証するために、ニューラルネットがトレーニングや競技会で見たことがないXNUMX番目の例のセット(「評価セット」)も使用します。

第二に、頻繁な進化の競争をサポートするには、迅速な評価が必要であることを学びました。 研究者がトレーニング中にモデルを評価することはめったになく、評価する場合、評価はめったに行われません。 PBTに必要なモデルは、15分ごとに評価されます。 これを実現するために、Googleのデータセンターを利用して、数百台の分散マシン間で評価を並列化しました。

進化論的競争における多様性の力

これらの実験中に、PBTの長所のXNUMXつである、パフォーマンスの高いネットワークの子孫により多くのリソースを割り当てることも短所になる可能性があることに気付きました。これは、PBTが現在に最適化され、長期的な結果を考慮できないためです。 これは遅咲きに不利になるため問題になる可能性があります。そのため、長期にわたってパフォーマンスが向上するハイパーパラメータを備えたニューラルネットには、成熟して成功する機会がありません。 これに対抗するXNUMXつの方法は、人口の多様性を高めることです。これは、より多くの人口を訓練するだけで達成できます。 人口が十分に多い場合、遅咲きのハイパーパラメータを持つネットワークが存続し、後の世代に追いつく可能性が高くなります。

これらの実験では、「ニッチ」と呼ばれるサブポピュレーションを作成することで多様性を高めることができました。このサブポピュレーションでは、島で隔離されたときに種が進化するのと同じように、ニューラルネットは独自のサブグループ内でのみ競合できます。 また、「フィットネスシェアリング」と呼ばれる手法を使用して、多様性に直接報酬を与えることも試みました。この手法では、人口のメンバー間の差を測定し、よりユニークなニューラルネットを競争で優位に立てます。 多様性が増すと、PBTはより大きなハイパーパラメータ空間を探索できます。

結果

PBTにより、モデルのパフォーマンスが劇的に向上しました。 上記の実験では、PBTモデルは、高い再現率を維持しながら、手動で調整した同等のモデルと比較して誤検知を24%削減することにより、より高い精度を達成することができました。 PBTなどの進化的手法の主な利点は、任意に複雑なメトリックを最適化できることです。 従来、ニューラルネットは、単純でスムーズな損失関数を使用してのみトレーニングできます。これは、私たちが本当に気にかけていることの代理として機能します。 PBTにより、ニューラルネットのトレーニングに使用される更新ルールを超えて、高い再現率での適合率の最大化など、関心のある機能を最適化するより複雑なメトリックに向けることができました。

PBTは時間とリソースも節約します。 PBTでトレーニングされたネットで発見されたハイパーパラメータスケジュールは、トレーニング時間とリソースの半分でWaymoの以前のネットを上回りました。 全体として、PBTは、ランダム並列検索で使用される計算リソースの半分を使用して、より優れたハイパーパラメータースケジュールを効率的に検出します。 また、PBTをWaymoの技術インフラストラクチャに直接組み込むことで、研究者の時間を節約できます。会社全体の研究者は、ボタンをクリックするだけでこの方法を適用でき、学習率の調整に費やす時間を短縮できます。 これらの実験の完了以来、PBTは多くの異なるWaymoモデルに適用されており、道路用のより高性能な車両の作成を支援するための大きな期待を抱いています。


寄稿者:ここで説明する作業は、WaymoのYu-hsinChenとMatthieuDevin、およびDeepMindのAli Razavi、Ang Li、Sibon Li、Ola Spyra、Pramod Gupta、OriolVinyalsの共同研究でした。 プロジェクトのアドバイザーには、DeepMindのMax Jaderberg、Valentin Dalibard、Meire Fortunato、JacksonBroshearが含まれます。

出典:https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

タイムスタンプ:

より多くの DeepMind-最新の投稿