Как эволюционный отбор может обучать более способные к самостоятельному вождению автомобили

Исходный узел: 749900

Эволюция в Waymo

Первые эксперименты, над которыми работали DeepMind и Waymo, включали обучение сети, которая генерирует коробки вокруг пешеходов, велосипедистов и мотоциклистов, обнаруживаемых нашими датчиками, и назывались «сеть предложений региона». Цель состояла в том, чтобы исследовать, может ли PBT улучшить способность нейронной сети обнаруживать пешеходов по двум параметрам: запоминание (доля пешеходов, идентифицированных нейронной сетью по отношению к общему количеству пешеходов на сцене) и точность (доля обнаруженных пешеходов, которые собственно пешеходов, а не ложных «ложных срабатываний»). Транспортные средства Waymo обнаруживают этих участников дорожного движения с помощью нескольких нейронных сетей и других методов, но цель этого эксперимента состояла в том, чтобы обучить эту единственную нейронную сеть поддерживать отзывчивость на уровне более 99%, при этом уменьшая количество ложных срабатываний с помощью обучения на основе популяции.

Мы многому научились из этого эксперимента. Во-первых, мы обнаружили, что нам необходимо создать реалистичную и надежную оценку сетей, чтобы мы знали, действительно ли нейронная сеть будет работать лучше при развертывании в различных ситуациях реального мира. Эта оценка легла в основу конкуренции, которую использует PBT, чтобы выбрать одну выигрышную нейронную сеть по сравнению с другой. Чтобы убедиться, что нейронные сети в целом работают хорошо, а не просто запоминать ответы на примеры, которые они видели во время обучения, наша оценка конкуренции PBT использует набор примеров («набор проверки»), который отличается от тех, которые используются при обучении ( «Обучающий набор»). Чтобы проверить окончательную производительность, мы также используем третий набор примеров («набор для оценки»), который нейронные сети никогда не видели на тренировках или соревнованиях.

Во-вторых, мы узнали, что нам нужна быстрая оценка для поддержки частой эволюционной конкуренции. Исследователи редко оценивают свои модели во время обучения, и когда они это делают, оценка проводится редко. PBT необходимые модели должны оцениваться каждые 15 минут. Чтобы добиться этого, мы воспользовались центрами обработки данных Google, чтобы распараллелить оценку на сотнях распределенных машин.

Сила разнообразия в эволюционной конкуренции

Во время этих экспериментов мы заметили, что одна из сильных сторон PBT - выделение большего количества ресурсов для потомства более эффективных сетей - также может быть недостатком, потому что PBT оптимизирует в настоящее время и не учитывает долгосрочные результаты. Это может быть проблемой, потому что это ставит в невыгодное положение поздние цветы, поэтому нейронные сети с гиперпараметрами, которые работают лучше в течение длительного времени, не имеют шансов на зрелость и успех. Одним из способов борьбы с этим является увеличение разнообразия населения, чего можно достичь, просто обучив большую популяцию. Если популяция достаточно велика, у сетей с поздним цветением гиперпараметров больше шансов выжить и наверстать упущенное в последующих поколениях.

В этих экспериментах мы смогли увеличить разнообразие путем создания субпопуляций, называемых «нишами», где нейронным сетям разрешалось конкурировать только в пределах их собственных подгрупп - подобно тому, как виды развиваются, когда изолируются на островах. Мы также пытались напрямую поощрять разнообразие с помощью техники, называемой «совместное использование фитнеса», где мы измеряем разницу между членами населения и даем преимущество в конкуренции более уникальным нейронным сетям. Большее разнообразие позволяет PBT исследовать большее пространство гиперпараметров.

Итоги

PBT позволил значительно улучшить производительность модели. Для эксперимента, описанного выше, наши модели PBT смогли достичь более высокой точности за счет уменьшения ложных срабатываний на 24% по сравнению с его вручную настроенным эквивалентом, сохраняя при этом высокую скорость повторного вызова. Главное преимущество эволюционных методов, таких как PBT, состоит в том, что они могут оптимизировать произвольно сложные метрики. Традиционно нейронные сети можно обучать только с помощью простых и плавных функций потерь, которые действуют как прокси для того, что нас действительно волнует. PBT позволил нам выйти за рамки правила обновления, используемого для обучения нейронных сетей, и перейти к более сложным метрикам, оптимизирующим функции, которые нас интересуют, такие как максимизация точности при высоких показателях отзыва.

PBT также экономит время и ресурсы. График гиперпараметров, обнаруженный с помощью сетей, обученных PBT, превзошел предыдущую сеть Waymo с половиной времени обучения и ресурсов. В целом PBT использует половину вычислительных ресурсов, используемых при случайном параллельном поиске, для эффективного обнаружения лучших расписаний гиперпараметров. Это также экономит время исследователей - путем включения PBT непосредственно в техническую инфраструктуру Waymo, исследователи из всей компании могут применять этот метод одним нажатием кнопки и тратить меньше времени на настройку скорости обучения. После завершения этих экспериментов PBT был применен ко многим различным моделям Waymo и многообещающе поможет в создании более функциональных транспортных средств для дорог.


Авторы: Работа, описанная здесь, была исследовательским сотрудничеством между Ю-Синь Ченом и Матье Девином из Waymo, а также Али Разави, Анг Ли, Сибон Ли, Ола Спира, Прамод Гупта и Ориол Виньялс из DeepMind. Консультантами проекта являются Макс Джадерберг, Валентин Далибард, Мейре Фортунато и Джексон Брошир из DeepMind.

Источник: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Отметка времени:

Больше от Deep Mind - Последнее сообщение