Comment la sélection évolutive peut former des voitures autonomes plus performantes

Nœud source: 749900

L'évolution chez Waymo

Les premières expériences auxquelles DeepMind et Waymo ont collaboré ont consisté à former un réseau qui génère des boîtes autour des piétons, des cyclistes et des motocyclistes détectés par nos capteurs - appelé «réseau de proposition de région». L'objectif était d'étudier si le PBT pouvait améliorer la capacité d'un réseau neuronal à détecter les piétons selon deux mesures: le rappel (la fraction de piétons identifiés par le réseau neuronal par rapport au nombre total de piétons dans la scène) et la précision (la fraction de piétons détectés qui sont en fait des piétons, et non de faux «faux positifs»). Les véhicules de Waymo détectent ces usagers de la route à l'aide de plusieurs réseaux neuronaux et d'autres méthodes, mais le but de cette expérience était de former ce réseau neuronal unique à maintenir un rappel à plus de 99%, tout en réduisant les faux positifs en utilisant une formation basée sur la population.

Nous avons beaucoup appris de cette expérience. Premièrement, nous avons découvert que nous devions créer une évaluation réaliste et robuste pour les réseaux afin de savoir si un réseau de neurones fonctionnerait vraiment mieux lorsqu'il est déployé dans diverses situations du monde réel. Cette évaluation a constitué la base de la concurrence que PBT emploie pour choisir un réseau neuronal gagnant plutôt qu'un autre. Pour s'assurer que les réseaux neuronaux fonctionnent bien en général et ne mémorisent pas simplement les réponses aux exemples qu'ils ont vus pendant l'entraînement, notre évaluation de compétition PBT utilise un ensemble d'exemples (le «jeu de validation») qui est différent de ceux utilisés à l'entraînement (le «Ensemble d'entraînement».) Pour vérifier la performance finale, nous utilisons également un troisième ensemble d'exemples («l'ensemble d'évaluation») que les réseaux neuronaux n'ont jamais vus à l'entraînement ou en compétition.

Deuxièmement, nous avons appris que nous avions besoin d'une évaluation rapide pour soutenir une compétition évolutive fréquente. Les chercheurs évaluent rarement leurs modèles pendant la formation et, lorsqu'ils le font, l'évaluation est rarement effectuée. Les modèles PBT requis doivent être évalués toutes les 15 minutes. Pour y parvenir, nous avons profité des centres de données de Google pour paralléliser l'évaluation sur des centaines de machines distribuées.

Le pouvoir de la diversité dans la compétition évolutive

Au cours de ces expériences, nous avons remarqué que l'une des forces de PBT - allouer plus de ressources à la progéniture de réseaux plus performants - peut également être une faiblesse, car PBT optimise pour le présent et ne tient pas compte des résultats à long terme. Cela peut être un problème car cela désavantage les personnes à floraison tardive, de sorte que les réseaux neuronaux avec des hyperparamètres qui fonctionnent mieux sur le long terme n'ont pas la chance de mûrir et de réussir. Une façon de lutter contre cela consiste à accroître la diversité de la population, ce qui peut être obtenu simplement en formant une population plus large. Si la population est suffisamment importante, les réseaux dotés d'hyperparamètres à floraison tardive ont plus de chances de survivre et de se rattraper dans les générations suivantes.

Dans ces expériences, nous avons pu augmenter la diversité en créant des sous-populations appelées «niches», où les réseaux neuronaux n'étaient autorisés à entrer en compétition qu'au sein de leurs propres sous-groupes - de la même manière que les espèces évoluent lorsqu'elles sont isolées sur des îles. Nous avons également essayé de récompenser directement la diversité grâce à une technique appelée «partage de la condition physique», où nous mesurons la différence entre les membres de la population et donnons un avantage à des réseaux neuronaux plus uniques dans la compétition. Une plus grande diversité permet à PBT d'explorer un espace d'hyperparamètres plus grand.

Résultats

PBT a permis des améliorations spectaculaires des performances du modèle. Pour l'expérience ci-dessus, nos modèles PBT ont pu atteindre une plus grande précision en réduisant les faux positifs de 24% par rapport à son équivalent réglé à la main, tout en maintenant un taux de rappel élevé. Un des principaux avantages des méthodes évolutives telles que PBT est qu'elles peuvent optimiser des métriques arbitrairement complexes. Traditionnellement, les réseaux de neurones ne peuvent être formés qu'en utilisant des fonctions de perte simples et fluides, qui agissent comme un proxy pour ce qui nous tient vraiment à cœur. PBT nous a permis d'aller au-delà de la règle de mise à jour utilisée pour la formation des réseaux neuronaux, et vers les métriques plus complexes d'optimisation des fonctionnalités qui nous intéressent, telles que la maximisation de la précision sous des taux de rappel élevés.

PBT permet également d'économiser du temps et des ressources. Le calendrier des hyperparamètres découvert avec les réseaux formés au PBT a surpassé le réseau précédent de Waymo avec la moitié du temps et des ressources d'entraînement. Dans l'ensemble, PBT utilise la moitié des ressources de calcul utilisées par la recherche parallèle aléatoire pour découvrir efficacement de meilleurs programmes d'hyperparamètres. Cela fait également gagner du temps aux chercheurs - en incorporant directement le PBT dans l'infrastructure technique de Waymo, les chercheurs de toute l'entreprise peuvent appliquer cette méthode en un seul clic et passer moins de temps à régler leurs taux d'apprentissage. Depuis l'achèvement de ces expériences, le PBT a été appliqué à de nombreux modèles Waymo différents et est très prometteur pour aider à créer des véhicules plus performants pour la route.


Contributeurs: Le travail décrit ici était une collaboration de recherche entre Yu-hsin Chen et Matthieu Devin de Waymo, et Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta et Oriol Vinyals de DeepMind. Les conseillers du projet incluent Max Jaderberg, Valentin Dalibard, Meire Fortunato et Jackson Broshear de DeepMind.

Source : https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Horodatage:

Plus de Deep Mind - Dernier message