Pesquisadores de Oxford treinam IA duas vezes mais rápido com um truque matemático simples

Republicado por Platão

seguidores: 0

Feixes de luz rápidos de velocidade de retropropagação AI

À medida que os modelos de IA ficam cada vez maiores, a quantidade de dinheiro e energia necessário para treiná-los tornou-se uma questão de botão quente. Uma nova abordagem que reescreve um dos blocos de construção fundamentais da disciplina pode fornecer uma solução alternativa.

Desde então GPT-3 demonstraram os saltos significativos no desempenho alcançados simplesmente aumentandoAlém do tamanho do modelo, os líderes do setor de IA vêm acumulando recursos em treinamento redes neurais cada vez mais massivas.

Mas isso custa enormes quantias de dinheiro, requer enormes recursos de computação e usa enormes quantidades de energia. Isso é cada vez mais visto como um problema, não apenas por causa das implicações ambientais, mas também porque está dificultando a competição de equipamentos de IA menores e, como resultado, concentrando o poder nas mãos dos líderes do setor.

Agora, porém, pesquisadores da Universidade de Oxford delinearam uma nova abordagem que poderia potencializarly reduzir os tempos de treinamento pela metade. Eles fazem isso reescrevendo um dos ingredientes mais fundamentais nos sistemas de IA baseados em redes neurais de hoje: retropropagação.

A forma como uma rede neural processa dados é governada pela força das conexões entre seus vários neurônios. Portanto, para que eles façam um trabalho útil, primeiro você precisa ajustar essas conexões até que processem os dados da maneira que você deseja. Você faz isso treinando a rede em dados relevantes para o problema usando um processo chamado backpropagation, que é dividido em duas fases.

A execução direta envolve a alimentação de dados pela rede e a obtenção de previsões. Na passagem para trás, as medições da precisão dessas previsões são usadas para voltar pela rede e descobrir como a força de várias conexões deve ser ajustada para melhorar o desempenho. Ao repetir esse processo muitas vezes usando muitos dados, a rede trabalha gradualmente para uma configuração ideal de conexões que resolva o problema em questão.

Esse processo repetitivo é o motivo pelo qual leva tanto tempo para treinar a IA, mas os pesquisadores de Oxford podem ter encontrado uma maneira de simplificar as coisas. eubem pré-impressão postada em arXiv, eles deescrever uma nova abordagem de treinamento que elimine totalmente o passe para trás. Em vez disso, seu algoritmo faz estimativas de como os pesos precisarão be alterados no passe para frente, e essas aproximações são próximas o suficiente para alcançar um desempenho comparável ao de retropropagação.

Os pesquisadores mostraram que a abordagem pode ser usada para treinar uma variedade de algoritmos de aprendizado de máquina diferentes, mas como envolve apenas um passe para frente, foi capaz de reduzir os tempos de treinamento pela metade.

É um truque matemático simples, Andrew Corbett da Universidade de Exeter, no Reino Unido disse New Scientist, mas coajudaria a enfrentar um dos desafios mais prementes que a IA enfrenta hoje. “É uma coisa muito, muito importante para resolver, porque é o gargalo dos algoritmos de aprendizado de máquina”, disse ele.

Ainda não se sabe quão amplamente aplicável é a abordagem. Em seu artigo, os pesquisadores mostram que a diferença nos custos de tempo de execução diminui à medida que o número de camadas em uma rede neural aumenta, sugerindo que a técnica pode ter retornos decrescentes com modelos maiores.

No entanto, os pesquisadores também observam que identificaram várias oportunidades para ajustar a maneira como os algoritmos de aprendizado de máquina padrão funcionam para se adequar melhor ao seu método, o que pode levar a maiores ganhos de desempenho.

A pesquisa também poderia contribuir para um mistério em andamento na inteligência humana. As redes neurais artificiais continuam sendo uma de nossas melhores ferramentas para investigar como o cérebro aprende, mas haHá muito se sabe que a retropropagação não é biologicamente plausível devido à falta de qualquer conectividade inversa entre os neurônios. Uma abordagem de aprendizado que requer apenas um passe para frente pode ajudar a esclarecer como nosso cérebro resolve o problema de aprendizado.

Crédito de imagem: Pexels / 9144 imagens

Carimbo de hora: 21 de março de 2022