Як еволюційний відбір може навчити більш здібних самокерованих автомобілів

Вихідний вузол: 749900

Еволюція в Waymo

Перші експерименти, над якими співпрацювали DeepMind і Waymo, включали навчання мережі, яка генерує коробки навколо пішоходів, велосипедистів і мотоциклістів, які виявляють наші датчики, — таку назву «мережа пропозицій регіону». Мета полягала в тому, щоб дослідити, чи може PBT покращити здатність нейронної мережі виявляти пішоходів за двома показниками: запам’ятовування (частка пішоходів, визначених нейронною мережею, серед загальної кількості пішоходів на місці події) і точність (частка виявлених пішоходів, які насправді пішоходів, а не помилкових «помилкових спрацьовувань»). Транспортні засоби Waymo виявляють цих учасників дорожнього руху за допомогою кількох нейронних мереж та інших методів, але мета цього експерименту полягала в тому, щоб навчити цю єдину нейронну мережу підтримувати запам’ятовування понад 99%, одночасно зменшуючи хибнопозитивні результати за допомогою навчання на основі населення.

Ми багато чого навчилися з цього експерименту. По-перше, ми виявили, що нам потрібно створити реалістичну та надійну оцінку для мереж, щоб ми знали, чи дійсно нейронна мережа буде працювати краще, якщо вона буде розгорнута в різноманітних ситуаціях у реальному світі. Ця оцінка лягла в основу конкурсу, який PBT використовує, щоб вибрати одну переможну нейронну мережу над іншою. Щоб забезпечити хорошу роботу нейронних мереж загалом, а не просто запам’ятати відповіді на приклади, які вони бачили під час тренування, наша оцінка змагань PBT використовує набір прикладів («набір перевірки»), який відрізняється від тих, що використовуються під час навчання ( «набір для навчання».) Щоб перевірити кінцеву продуктивність, ми також використовуємо третій набір прикладів («набір оцінювання»), яких нейронні мережі ніколи не бачили на тренуваннях чи змаганнях.

По-друге, ми дізналися, що нам потрібна швидка оцінка, щоб підтримувати часту еволюційну конкуренцію. Дослідники рідко оцінюють свої моделі під час навчання, а коли це роблять, то оцінка проводиться нечасто. Необхідні PBT моделі оцінюються кожні 15 хвилин. Щоб досягти цього, ми скористалися перевагами центрів обробки даних Google для паралельної оцінки на сотнях розподілених машин.

Сила різноманітності в еволюційній конкуренції

Під час цих експериментів ми помітили, що одна з сильних сторін PBT – виділення більше ресурсів нащадку більш продуктивних мереж – також може бути слабкою стороною, оскільки PBT оптимізує на даний момент і не враховує довгострокові результати. Це може бути проблемою, оскільки це заважає пізньоцвітим, тому нейронні мережі з гіперпараметрами, які працюють краще в довгостроковій перспективі, не мають шансів дозріти й досягти успіху. Одним із способів боротьби з цим є збільшення різноманітності населення, чого можна досягти шляхом простого навчання більшої кількості населення. Якщо популяція досить велика, існує більше шансів для мереж з пізнім розпусканням гіперпараметрів вижити і наздогнати наступні покоління.

У цих експериментах ми змогли збільшити різноманітність, створивши субпопуляції, які називаються «нішами», де нейронним мережам дозволялося конкурувати лише в межах власних підгруп – подібно до того, як види еволюціонують, коли ізольовані на островах. Ми також намагалися напряму винагородити різноманітність за допомогою техніки, яка називається «обмін фітнесом», коли ми вимірюємо різницю між членами популяції та даємо більш унікальним нейронним мережам перевагу в конкурентній боротьбі. Більша різноманітність дозволяє PBT досліджувати більший простір гіперпараметрів.

результати

PBT дозволив істотно покращити продуктивність моделі. У наведеному вище експерименті наші моделі PBT змогли досягти більшої точності, зменшивши помилкові спрацьовування на 24% порівняно з його еквівалентом, налаштованим вручну, при цьому зберігаючи високу швидкість відкликання. Головною перевагою еволюційних методів, таких як PBT, є те, що вони можуть оптимізувати довільно складні показники. Традиційно нейронні мережі можна навчати лише за допомогою простих і плавних функцій втрат, які діють як проксі-сервер того, що нас дійсно хвилює. PBT дозволив нам вийти за межі правила оновлення, яке використовується для навчання нейронних мереж, і до більш складних показників, оптимізованих для функцій, які нас цікавлять, таких як максимальна точність за високого рівня відкликання.

PBT також економить час і ресурси. Розклад гіперпараметрів, виявлений у мережах, натренованих PBT, перевершував попередню мережу Waymo із вдвічі меншим часом навчання та ресурсами. Загалом, PBT використовує половину обчислювальних ресурсів, що використовуються при випадковому паралельному пошуку, щоб ефективно знаходити кращі графіки гіперпараметрів. Це також заощаджує час для дослідників – включаючи PBT безпосередньо в технічну інфраструктуру Waymo, дослідники з усієї компанії можуть застосувати цей метод одним натисканням кнопки та витрачати менше часу на настройку швидкості навчання. З моменту завершення цих експериментів PBT було застосовано до багатьох різних моделей Waymo і має багато перспектив для створення більш потужних транспортних засобів для доріг.


Учасники: Описана тут робота була результатом дослідницької співпраці між Ю-Сіном Ченом і Маттьє Девіном з Waymo, а також Алі Разаві, Енг Лі, Сібон Лі, Олою Спірою, Прамодом Гуптою та Оріолом Вінялом з DeepMind. Радниками проекту є Макс Джадерберг, Валентин Далібард, Мейре Фортунато і Джексон Брошір з DeepMind.

Джерело: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Часова мітка:

Більше від Deep Mind - Останнє повідомлення