Jak selekcja ewolucyjna może wyszkolić bardziej sprawne samochody autonomiczne

Węzeł źródłowy: 749900

Ewolucja w Waymo

Pierwsze eksperymenty, nad którymi współpracowały DeepMind i Waymo, obejmowały szkolenie sieci generującej ramki wokół pieszych, rowerzystów i motocyklistów wykrytej przez nasze czujniki – zwanej „siecią propozycji regionu”. Celem było zbadanie, czy PBT może poprawić zdolność sieci neuronowej do wykrywania pieszych na podstawie dwóch mierników: przypominania (ułamek pieszych zidentyfikowanych przez sieć neuronową w stosunku do całkowitej liczby pieszych w miejscu zdarzenia) i precyzji (ułamek wykrytych pieszych, którzy są faktycznie piesi, a nie fałszywe „fałszywe alarmy”). Pojazdy Waymo wykrywają tych użytkowników dróg za pomocą wielu sieci neuronowych i innych metod, ale celem tego eksperymentu było wyszkolenie tej pojedynczej sieci neuronowej, aby utrzymywała pamięć na poziomie ponad 99%, przy jednoczesnej redukcji liczby fałszywych alarmów za pomocą uczenia opartego na populacji.

Wiele się nauczyliśmy z tego eksperymentu. Po pierwsze, odkryliśmy, że musimy stworzyć realistyczną i solidną ocenę sieci, abyśmy wiedzieli, czy sieć neuronowa naprawdę będzie działać lepiej po wdrożeniu w różnych sytuacjach w świecie rzeczywistym. Ocena ta stała się podstawą konkursu przeprowadzanego przez firmę PBT w celu wybrania jednej zwycięskiej sieci neuronowej zamiast drugiej. Aby mieć pewność, że sieci neuronowe będą działać ogólnie dobrze i nie będą po prostu zapamiętywać odpowiedzi na przykłady, które widziały podczas szkolenia, w naszej ocenie konkursu PBT wykorzystujemy zestaw przykładów („zestaw walidacyjny”), który różni się od tych wykorzystywanych w szkoleniach („zestaw walidacyjny”). „zestawu treningowego”), aby zweryfikować ostateczną wydajność, używamy również trzeciego zestawu przykładów („zestawu ewaluacyjnego”), którego sieci neuronowe nigdy nie widziały podczas treningu ani zawodów.

Po drugie, dowiedzieliśmy się, że potrzebujemy szybkiej oceny, aby wspierać częstą konkurencję ewolucyjną. Badacze rzadko oceniają swoje modele podczas szkolenia, a jeśli to robią, ocena jest przeprowadzana rzadko. Modele wymagane PBT oceniane są co 15 minut. Aby to osiągnąć, skorzystaliśmy z centrów danych Google, aby zrównoleglić ocenę na setkach rozproszonych maszyn.

Siła różnorodności w rywalizacji ewolucyjnej

Podczas tych eksperymentów zauważyliśmy, że jedna z mocnych stron PBT – przydzielanie większej ilości zasobów potomstwu sieci o lepszych wynikach – może być również słabością, ponieważ PBT optymalizuje działania w chwili obecnej i nie bierze pod uwagę wyników długoterminowych. Może to stanowić problem, ponieważ działa niekorzystnie na rośliny późno kwitnące, więc sieci neuronowe z hiperparametrami, które działają lepiej w dłuższej perspektywie, nie mają szans na dojrzałość i sukces. Jednym ze sposobów przeciwdziałania temu zjawisku jest zwiększenie różnorodności populacji, co można osiągnąć po prostu szkoląc większą populację. Jeśli populacja jest wystarczająco duża, istnieje większa szansa, że ​​sieci z późnymi hiperparametrami przetrwają i nadrobią zaległości w późniejszych pokoleniach.

Podczas tych eksperymentów udało nam się zwiększyć różnorodność, tworząc subpopulacje zwane „niszami”, w których sieci neuronowe mogły konkurować jedynie w obrębie własnych podgrup – podobnie jak ewoluują gatunki izolowane na wyspach. Próbowaliśmy także bezpośrednio nagradzać różnorodność za pomocą techniki zwanej „dzieleniem się sprawnością fizyczną”, w ramach której mierzymy różnicę między członkami populacji i zapewniamy przewagę nad konkurencją bardziej unikalnym sieciom neuronowym. Większa różnorodność pozwala PBT eksplorować większą przestrzeń hiperparametrów.

Efekt

PBT umożliwił radykalną poprawę wydajności modelu. W powyższym eksperymencie nasze modele PBT były w stanie osiągnąć wyższą precyzję, zmniejszając liczbę fałszywych alarmów o 24% w porównaniu z ręcznie dostrojonym odpowiednikiem, przy jednoczesnym zachowaniu wysokiego współczynnika przypominania. Główną zaletą metod ewolucyjnych, takich jak PBT, jest to, że mogą one optymalizować dowolnie złożone metryki. Tradycyjnie sieci neuronowe można trenować jedynie przy użyciu prostych i płynnych funkcji utraty, które pełnią rolę zastępczą tego, na czym nam naprawdę zależy. PBT pozwoliło nam wyjść poza regułę aktualizacji używaną do uczenia sieci neuronowych i skierować się w stronę bardziej złożonych metryk optymalizujących pod kątem funkcji, na których nam zależy, takich jak maksymalizacja precyzji przy wysokich współczynnikach przypominania.

PBT oszczędza także czas i zasoby. Harmonogram hiperparametrów odkryty w sieciach wyszkolonych za pomocą PBT był lepszy od poprzedniej sieci Waymo przy o połowę krótszym czasie uczenia i zasobach. Ogólnie rzecz biorąc, PBT wykorzystuje połowę zasobów obliczeniowych używanych przez losowe wyszukiwanie równoległe, aby skutecznie odkrywać lepsze harmonogramy hiperparametrów. Oszczędza to także czas badaczy — włączając PBT bezpośrednio do infrastruktury technicznej Waymo, badacze z całej firmy mogą zastosować tę metodę jednym kliknięciem przycisku i poświęcać mniej czasu na dostosowywanie tempa uczenia się. Od czasu zakończenia tych eksperymentów PBT zastosowano w wielu różnych modelach Waymo i wiąże się z nim wiele obietnic, jeśli chodzi o pomoc w tworzeniu pojazdów o lepszych parametrach użytkowych.


Współautorzy: Opisana tutaj praca była efektem współpracy badawczej pomiędzy Yu-hsinem Chenem i Matthieu Devinem z Waymo oraz Alim Razavim, Ang Li, Sibonem Li, Olą Spyrą, Pramodem Guptą i Oriolem Vinyalsem z DeepMind. Doradcami projektu są Max Jaderberg, Valentin Dalibard, Meire Fortunato i Jackson Broshear z DeepMind.

Źródło: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Znak czasu:

Więcej z Deep Mind - najnowszy post