Como a seleção evolutiva pode treinar carros autônomos mais capazes

Nó Fonte: 749900

Evolução na Waymo

Os primeiros experimentos em que DeepMind e Waymo colaboraram envolveram o treinamento de uma rede que gera caixas em torno de pedestres, ciclistas e motociclistas detectados por nossos sensores – chamados de “rede proposta de região”. O objetivo era investigar se o PBT poderia melhorar a capacidade de uma rede neural para detectar pedestres em duas medidas: recall (a fração de pedestres identificados pela rede neural sobre o número total de pedestres na cena) e precisão (a fração de pedestres detectados que são realmente pedestres, e não falsos “falsos positivos”). Os veículos da Waymo detectam esses usuários da estrada usando várias redes neurais e outros métodos, mas o objetivo desse experimento era treinar essa única rede neural para manter a recuperação acima de 99%, reduzindo falsos positivos usando treinamento baseado em população.

Aprendemos muito com esta experiência. Em primeiro lugar, descobrimos que precisávamos criar uma avaliação realista e robusta para as redes, para que pudéssemos saber se uma rede neural realmente funcionaria melhor quando implantada em uma variedade de situações no mundo real. Essa avaliação formou a base da competição que o PBT emprega para escolher uma rede neural vencedora em detrimento de outra. Para garantir que as redes neurais tenham um bom desempenho geral e não apenas memorizem respostas para exemplos que viram durante o treinamento, nossa avaliação de competição PBT usa um conjunto de exemplos (o "conjunto de validação") que é diferente daqueles usados ​​no treinamento (o “conjunto de treinamento”.) Para verificar o desempenho final, também usamos um terceiro conjunto de exemplos (o “conjunto de avaliação”) que as redes neurais nunca viram em treinamento ou competição.

Em segundo lugar, aprendemos que precisávamos de uma avaliação rápida para apoiar a competição evolutiva frequente. Os pesquisadores raramente avaliam seus modelos durante o treinamento e, quando o fazem, a avaliação é feita com pouca frequência. Os modelos requeridos pelo PBT devem ser avaliados a cada 15 minutos. Para conseguir isso, aproveitamos os data centers do Google para paralelizar a avaliação em centenas de máquinas distribuídas.

O poder da diversidade na competição evolutiva

Durante esses experimentos, notamos que um dos pontos fortes do PBT – alocar mais recursos para a descendência de redes de melhor desempenho – também pode ser um ponto fraco, porque o PBT otimiza para o presente e falha em considerar resultados de longo prazo. Isso pode ser um problema porque prejudica os que florescem tardiamente, portanto, as redes neurais com hiperparâmetros que funcionam melhor a longo prazo não têm a chance de amadurecer e ter sucesso. Uma maneira de combater isso é aumentar a diversidade populacional, o que pode ser alcançado simplesmente treinando uma população maior. Se a população for grande o suficiente, há uma chance maior de redes com hiperparâmetros de floração tardia sobreviverem e se recuperarem nas gerações posteriores.

Nesses experimentos, fomos capazes de aumentar a diversidade criando subpopulações chamadas de “nichos”, onde as redes neurais só podiam competir dentro de seus próprios subgrupos - semelhante a como as espécies evoluem quando isoladas em ilhas. Também tentamos recompensar diretamente a diversidade por meio de uma técnica chamada “compartilhamento de aptidão”, onde medimos a diferença entre os membros da população e damos às redes neurais mais exclusivas uma vantagem na competição. Uma maior diversidade permite que o PBT explore um espaço maior de hiperparâmetros.

Resultados

O PBT permitiu melhorias dramáticas no desempenho do modelo. Para o experimento acima, nossos modelos PBT foram capazes de obter maior precisão reduzindo os falsos positivos em 24% em comparação com seu equivalente ajustado manualmente, mantendo uma alta taxa de recuperação. A principal vantagem dos métodos evolucionários como o PBT é que eles podem otimizar métricas arbitrariamente complexas. Tradicionalmente, as redes neurais só podem ser treinadas usando funções de perda simples e suaves, que atuam como um proxy para o que realmente importa. O PBT nos permitiu ir além da regra de atualização usada para treinar redes neurais e em direção às métricas mais complexas otimizando recursos com os quais nos preocupamos, como maximizar a precisão sob altas taxas de rechamada.

O PBT também economiza tempo e recursos. A programação de hiperparâmetros descoberta com redes treinadas com PBT superou a rede anterior da Waymo com metade do tempo e recursos de treinamento. No geral, o PBT usa metade dos recursos computacionais usados ​​pela busca paralela aleatória para descobrir com eficiência melhores escalonamentos de hiperparâmetros. Ele também economiza tempo para os pesquisadores – ao incorporar o PBT diretamente na infraestrutura técnica da Waymo, os pesquisadores de toda a empresa podem aplicar esse método com o clique de um botão e gastar menos tempo ajustando suas taxas de aprendizado. Desde a conclusão desses experimentos, o PBT foi aplicado a muitos modelos Waymo diferentes e é muito promissor para ajudar a criar veículos mais capazes para a estrada.


Colaboradores: O trabalho descrito aqui foi uma colaboração de pesquisa entre Yu-hsin Chen e Matthieu Devin da Waymo, e Ali Razavi, Ang Li, Sibon Li, Ola Spyra, Pramod Gupta e Oriol Vinyals da DeepMind. Os conselheiros do projeto incluem Max Jaderberg, Valentin Dalibard, Meire Fortunato e Jackson Broshear da DeepMind.

Fonte: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

Carimbo de hora:

Mais de Deep Mind - última postagem