Cómo la selección evolutiva puede entrenar autos autónomos más capaces

Nodo de origen: 749900

Evolution en Waymo

Los primeros experimentos en los que colaboraron DeepMind y Waymo incluyeron la capacitación de una red que genera cajas alrededor de peatones, ciclistas y motociclistas detectados por nuestros sensores, denominada "red de propuesta regional". El objetivo era investigar si PBT podría mejorar la capacidad de una red neuronal para detectar peatones a lo largo de dos medidas: recuperación (la fracción de peatones identificados por la red neuronal sobre el número total de peatones en la escena) y precisión (la fracción de peatones detectados que son en realidad peatones, y no falsos "falsos positivos"). Los vehículos de Waymo detectan a estos usuarios de la carretera utilizando múltiples redes neuronales y otros métodos, pero el objetivo de este experimento fue entrenar esta red neuronal única para mantener el recuerdo por encima del 99%, mientras se reducen los falsos positivos mediante el entrenamiento basado en la población.

Aprendimos mucho de este experimento. En primer lugar, descubrimos que necesitábamos crear una evaluación realista y robusta de las redes para saber si una red neuronal realmente funcionaría mejor cuando se implementara en una variedad de situaciones en el mundo real. Esta evaluación formó la base de la competencia que PBT emplea para elegir una red neuronal ganadora sobre otra. Para garantizar que las redes neuronales funcionen bien en general, y no simplemente memorice las respuestas a los ejemplos que han visto durante el entrenamiento, nuestra evaluación de competencia PBT utiliza un conjunto de ejemplos (el "conjunto de validación") que es diferente de los utilizados en el entrenamiento (el "Conjunto de entrenamiento"). Para verificar el rendimiento final, también utilizamos un tercer conjunto de ejemplos (el "conjunto de evaluación") que las redes neuronales nunca han visto en el entrenamiento o la competencia.

En segundo lugar, aprendimos que necesitábamos una evaluación rápida para apoyar la competencia evolutiva frecuente. Los investigadores rara vez evalúan sus modelos durante el entrenamiento, y cuando lo hacen, la evaluación se realiza con poca frecuencia. Los modelos requeridos de PBT se evaluarán cada 15 minutos. Para lograr esto, aprovechamos los centros de datos de Google para paralelizar la evaluación en cientos de máquinas distribuidas.

El poder de la diversidad en la competencia evolutiva.

Durante estos experimentos, notamos que una de las fortalezas de PBT, la asignación de más recursos a la progenie de redes de mejor desempeño, también puede ser una debilidad, porque PBT se optimiza para el presente y no considera los resultados a largo plazo. Esto puede ser un problema porque perjudica a los que florecen tarde, por lo que las redes neuronales con hiperparámetros que funcionan mejor a largo plazo no tienen la oportunidad de madurar y tener éxito. Una forma de combatir esto es aumentar la diversidad de la población, lo que se puede lograr simplemente entrenando a una población más grande. Si la población es lo suficientemente grande, hay una mayor posibilidad de que las redes con hiperparámetros de floración tardía sobrevivan y se pongan al día en las generaciones posteriores.

En estos experimentos, pudimos aumentar la diversidad creando subpoblaciones llamadas "nichos", donde las redes neuronales solo podían competir dentro de sus propios subgrupos, de forma similar a cómo evolucionan las especies cuando se aíslan en las islas. También tratamos de recompensar directamente la diversidad a través de una técnica llamada "intercambio físico", donde medimos la diferencia entre los miembros de la población y le damos a las redes neuronales más únicas una ventaja en la competencia. Una mayor diversidad permite a PBT explorar un espacio hiperparámetro más grande.

Resultados

PBT permitió mejoras dramáticas en el rendimiento del modelo. Para el experimento anterior, nuestros modelos PBT lograron una mayor precisión al reducir los falsos positivos en un 24% en comparación con su equivalente sintonizado a mano, al tiempo que mantuvieron una alta tasa de recuperación. Una ventaja principal de los métodos evolutivos como PBT es que pueden optimizar métricas arbitrariamente complejas. Tradicionalmente, las redes neuronales solo se pueden entrenar utilizando funciones de pérdida simples y suaves, que actúan como un proxy de lo que realmente nos importa. PBT nos permitió ir más allá de la regla de actualización utilizada para entrenar redes neuronales, y hacia las métricas más complejas que optimizan las funciones que nos interesan, como maximizar la precisión bajo altas tasas de recuperación.

PBT también ahorra tiempo y recursos. El programa de hiperparámetros descubierto con redes entrenadas con PBT superó a la red anterior de Waymo con la mitad del tiempo y los recursos de entrenamiento. En general, PBT utiliza la mitad de los recursos computacionales utilizados por la búsqueda paralela aleatoria para descubrir de manera eficiente mejores programas de hiperparámetros. También ahorra tiempo a los investigadores: al incorporar PBT directamente en la infraestructura técnica de Waymo, los investigadores de toda la empresa pueden aplicar este método con solo hacer clic en un botón y dedicar menos tiempo a ajustar sus tasas de aprendizaje. Desde la finalización de estos experimentos, PBT se ha aplicado a muchos modelos Waymo diferentes y es muy prometedor para ayudar a crear vehículos más capaces para la carretera.


Colaboradores: El trabajo descrito aquí fue una colaboración de investigación entre Yu-hsin Chen y Matthieu Devin de Waymo, y Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta y Oriol Vinyals de DeepMind. Los asesores del proyecto incluyen a Max Jaderberg, Valentin Dalibard, Meire Fortunato y Jackson Broshear de DeepMind.

Fuente: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Sello de tiempo:

Mas de Deep Mind - Último mensaje