진화론 적 선택이 어떻게 유능한 자율 주행 차를 훈련시킬 수 있는가

소스 노드 : 749900

Waymo의 진화

DeepMind와 Waymo가 공동 작업한 첫 번째 실험은 "지역 제안 네트워크"라는 센서가 감지한 보행자, 자전거 운전자 및 오토바이 운전자 주변에 상자를 생성하는 네트워크 교육과 관련되었습니다. 목표는 PBT가 두 가지 측정에 따라 보행자를 감지하는 신경망의 능력을 향상시킬 수 있는지 여부를 조사하는 것이었습니다. 회상(현장의 총 보행자 수에 대한 신경망으로 식별된 보행자의 비율) 및 정밀도(검출된 보행자의 비율) 실제로 보행자이며 가짜 "가양성"이 아님). Waymo의 차량은 여러 신경망 및 기타 방법을 사용하여 이러한 도로 사용자를 감지하지만 이 실험의 목표는 이 단일 신경망을 훈련하여 99% 이상의 재현율을 유지하면서 인구 기반 훈련을 사용하여 오탐을 줄이는 것이었습니다.

우리는 이 실험에서 많은 것을 배웠습니다. 첫째, 우리는 신경망이 실제 세계의 다양한 상황에 배포될 때 더 나은 성능을 발휘할 수 있는지 알 수 있도록 네트워크에 대한 현실적이고 강력한 평가를 생성해야 한다는 것을 발견했습니다. 이 평가는 PBT가 하나의 승리한 신경망을 다른 신경망보다 선택하기 위해 사용하는 경쟁의 기초를 형성했습니다. 신경망이 일반적으로 잘 작동하도록 하고 훈련 중에 본 예제에 대한 답변을 단순히 암기하지 않기 위해 PBT 경쟁 평가에서는 훈련에 사용된 것과 다른 예제 집합("검증 집합")을 사용합니다. "training set.") 최종 성능을 확인하기 위해 신경망이 훈련이나 경쟁에서 본 적이 없는 세 번째 예제 세트("평가 세트")도 사용합니다.

둘째, 빈번한 진화 경쟁을 지원하기 위해 빠른 평가가 필요하다는 것을 배웠습니다. 연구원은 훈련 중에 모델을 거의 평가하지 않으며 평가할 때 평가가 드물게 수행됩니다. PBT 필수 모델은 15분마다 평가됩니다. 이를 달성하기 위해 Google의 데이터 센터를 활용하여 수백 대의 분산 시스템에서 평가를 병렬화했습니다.

진화적 경쟁에서 다양성의 힘

이러한 실험을 하는 동안 우리는 PBT가 현재에 최적화되어 있고 장기적인 결과를 고려하지 않기 때문에 PBT의 장점 중 하나(더 나은 성능의 네트워크의 자손에게 더 많은 리소스를 할당하는 것)도 약점이 될 수 있음을 발견했습니다. 이것은 늦게 꽃을 피우는 사람들에게 불리하기 때문에 문제가 될 수 있습니다. 따라서 장기적으로 더 나은 성능을 보이는 하이퍼파라미터가 있는 신경망은 성숙하고 성공할 기회가 없습니다. 이에 맞서 싸우는 한 가지 방법은 단순히 더 많은 인구를 훈련함으로써 달성할 수 있는 인구 다양성을 늘리는 것입니다. 인구가 충분히 크면 늦게 개화하는 하이퍼파라미터가 있는 네트워크가 살아남아 다음 세대를 따라잡을 가능성이 더 커집니다.

이 실험에서 우리는 신경망이 섬에 고립되었을 때 종이 진화하는 방식과 유사하게 자신의 하위 그룹 내에서만 경쟁할 수 있는 "틈새"라는 하위 개체군을 만들어 다양성을 높일 수 있었습니다. 우리는 또한 인구 구성원 간의 차이를 측정하고 경쟁에서 우위를 점할 수 있는 고유한 신경망을 제공하는 "피트니스 공유"라는 기술을 통해 다양성을 직접적으로 보상하려고 했습니다. 다양성이 클수록 PBT는 더 큰 하이퍼파라미터 공간을 탐색할 수 있습니다.

결과

PBT는 모델 성능의 극적인 개선을 가능하게 했습니다. 위의 실험에서 당사의 PBT 모델은 높은 재현율을 유지하면서 손으로 튜닝한 모델에 비해 가양성을 24% 줄임으로써 더 높은 정밀도를 달성할 수 있었습니다. PBT와 같은 진화적 방법의 가장 큰 장점은 임의로 복잡한 메트릭을 최적화할 수 있다는 것입니다. 전통적으로 신경망은 단순하고 부드러운 손실 함수를 사용해서만 훈련할 수 있습니다. PBT를 통해 우리는 신경망 훈련에 사용되는 업데이트 규칙을 넘어 높은 재현율에서 정밀도를 최대화하는 것과 같이 관심 있는 기능을 최적화하는 보다 복잡한 메트릭으로 이동할 수 있었습니다.

PBT는 또한 시간과 자원을 절약합니다. PBT 훈련 네트로 발견된 하이퍼파라미터 일정은 절반의 훈련 시간과 리소스로 Waymo의 이전 네트보다 성능이 뛰어났습니다. 전반적으로 PBT는 더 나은 하이퍼파라미터 일정을 효율적으로 찾기 위해 무작위 병렬 검색에 사용되는 계산 리소스의 절반을 사용합니다. 또한 연구원의 시간을 절약합니다. PBT를 Waymo의 기술 인프라에 직접 통합함으로써 회사 전체의 연구원이 버튼 클릭으로 이 방법을 적용하고 학습률을 조정하는 데 시간을 덜 소비할 수 있습니다. 이러한 실험이 완료된 이후 PBT는 다양한 Waymo 모델에 적용되었으며 도로를 위한 보다 우수한 차량을 만드는 데 도움이 될 것이라는 많은 약속을 갖고 있습니다.


기고자: 여기에 설명된 작업은 Waymo의 Yu-hsin Chen과 Matthieu Devin, DeepMind의 Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta 및 Oriol Vinyals 간의 공동 연구입니다. 이 프로젝트의 고문으로는 DeepMind의 Max Jaderberg, Valentin Dalibard, Meire Fortunato 및 Jackson Broshear가 있습니다.

출처: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

타임 스탬프 :

더보기 딥마인드 - 최신 게시물