Wie evolutionäre Selektion leistungsfähigere selbstfahrende Autos trainieren kann

Quellknoten: 749900

Evolution bei Waymo

Die ersten Experimente, an denen DeepMind und Waymo zusammengearbeitet haben, umfassten das Training eines Netzwerks, das Boxen um Fußgänger, Radfahrer und Motorradfahrer generiert, die von unseren Sensoren erkannt wurden - ein sogenanntes "Region Proposal Network". Ziel war es zu untersuchen, ob PBT die Fähigkeit eines neuronalen Netzes zur Erkennung von Fußgängern anhand von zwei Maßnahmen verbessern kann: Rückruf (der Anteil der vom neuronalen Netz identifizierten Fußgänger an der Gesamtzahl der Fußgänger in der Szene) und Präzision (Anteil der erkannten Fußgänger) eigentlich Fußgänger und keine falschen „False Positives“). Waymos Fahrzeuge erkennen diese Verkehrsteilnehmer mithilfe mehrerer neuronaler Netze und anderer Methoden. Ziel dieses Experiments war es jedoch, dieses einzelne neuronale Netz so zu trainieren, dass der Rückruf über 99% bleibt, während durch positives Training falsch positive Ergebnisse reduziert werden.

Wir haben viel aus diesem Experiment gelernt. Zunächst stellten wir fest, dass wir eine realistische und robuste Bewertung für die Netzwerke erstellen müssen, damit wir wissen, ob ein neuronales Netz in einer Vielzahl von Situationen in der realen Welt wirklich eine bessere Leistung erbringt. Diese Bewertung bildete die Grundlage des Wettbewerbs, den PBT einsetzt, um ein gewinnendes neuronales Netz über ein anderes zu ziehen. Um sicherzustellen, dass neuronale Netze im Allgemeinen eine gute Leistung erbringen und sich nicht nur Antworten auf Beispiele merken, die sie während des Trainings gesehen haben, verwendet unsere PBT-Wettbewerbsbewertung eine Reihe von Beispielen (das „Validierungsset“), die sich von denen unterscheiden, die im Training verwendet werden (das „Trainingssatz“.) Um die endgültige Leistung zu überprüfen, verwenden wir auch einen dritten Satz von Beispielen (den „Bewertungssatz“), den die neuronalen Netze im Training oder im Wettbewerb noch nie gesehen haben.

Zweitens haben wir gelernt, dass wir eine schnelle Bewertung benötigen, um häufigen evolutionären Wettbewerb zu unterstützen. Forscher bewerten ihre Modelle selten während des Trainings, und wenn sie dies tun, wird die Bewertung selten durchgeführt. PBT-erforderliche Modelle werden alle 15 Minuten bewertet. Um dies zu erreichen, haben wir die Rechenzentren von Google genutzt, um die Auswertung auf Hunderten von verteilten Computern zu parallelisieren.

Die Kraft der Vielfalt im evolutionären Wettbewerb

Während dieser Experimente haben wir festgestellt, dass eine der Stärken von PBT - mehr Ressourcen für die Nachkommen leistungsfähigerer Netzwerke bereitzustellen - auch eine Schwäche sein kann, da PBT für die Gegenwart optimiert und langfristige Ergebnisse nicht berücksichtigt. Dies kann ein Problem sein, da es Spätblüher benachteiligt, sodass neuronale Netze mit Hyperparametern, die langfristig eine bessere Leistung erbringen, keine Chance haben, zu reifen und erfolgreich zu sein. Eine Möglichkeit, dies zu bekämpfen, besteht darin, die Bevölkerungsvielfalt zu erhöhen, was durch die einfache Ausbildung einer größeren Bevölkerung erreicht werden kann. Wenn die Bevölkerung groß genug ist, besteht eine größere Chance für Netzwerke mit spät blühenden Hyperparametern, in späteren Generationen zu überleben und aufzuholen.

In diesen Experimenten konnten wir die Diversität erhöhen, indem wir Subpopulationen namens „Nischen“ schufen, in denen neuronale Netze nur innerhalb ihrer eigenen Untergruppen konkurrieren durften - ähnlich wie sich Arten entwickeln, wenn sie auf Inseln isoliert werden. Wir haben auch versucht, Vielfalt direkt durch eine Technik namens „Fitness-Sharing“ zu belohnen, bei der wir den Unterschied zwischen Mitgliedern der Bevölkerung messen und einzigartigeren neuronalen Netzen einen Wettbewerbsvorteil verschaffen. Eine größere Diversität ermöglicht es PBT, einen größeren Hyperparameterraum zu erkunden.

Die Ergebnisse

PBT ermöglichte dramatische Verbesserungen der Modellleistung. Für das obige Experiment konnten unsere PBT-Modelle eine höhere Präzision erzielen, indem sie falsch positive Ergebnisse im Vergleich zu ihrem handabgestimmten Äquivalent um 24% reduzierten, während eine hohe Rückrufrate beibehalten wurde. Ein Hauptvorteil von evolutionären Methoden wie PBT besteht darin, dass sie beliebig komplexe Metriken optimieren können. Traditionell können neuronale Netze nur mit einfachen und reibungslosen Verlustfunktionen trainiert werden, die als Proxy für das dienen, was uns wirklich wichtig ist. Mit PBT konnten wir über die für das Training neuronaler Netze verwendete Aktualisierungsregel hinausgehen und komplexere Metriken entwickeln, die für Funktionen optimiert werden, die uns wichtig sind, z. B. die Maximierung der Präzision bei hohen Rückrufraten.

PBT spart außerdem Zeit und Ressourcen. Der mit PBT-trainierten Netzen entdeckte Hyperparameter-Zeitplan übertraf Waymos bisheriges Netz mit der Hälfte der Trainingszeit und -ressourcen. Insgesamt verwendet PBT die Hälfte der Rechenressourcen, die bei der zufälligen parallelen Suche verwendet werden, um bessere Hyperparameter-Zeitpläne effizient zu ermitteln. Dies spart auch Zeit für Forscher. Durch die direkte Integration von PBT in die technische Infrastruktur von Waymo können Forscher aus dem gesamten Unternehmen diese Methode per Knopfdruck anwenden und weniger Zeit damit verbringen, ihre Lernraten zu optimieren. Seit Abschluss dieser Experimente wurde PBT auf viele verschiedene Waymo-Modelle angewendet und ist vielversprechend, um leistungsfähigere Fahrzeuge für die Straße zu entwickeln.


Mitwirkende: Die hier beschriebene Arbeit war eine Forschungskooperation zwischen Yu-hsin Chen und Matthieu Devin von Waymo sowie Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta und Oriol Vinyals von DeepMind. Zu den Beratern des Projekts gehören Max Jaderberg, Valentin Dalibard, Meire Fortunato und Jackson Broshear von DeepMind.

Quelle: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Zeitstempel:

Mehr von Deep Mind - Neuester Beitrag