Desempacotando a “caixa preta” para construir melhores modelos de IA

Desempacotando a “caixa preta” para construir melhores modelos de IA

Nó Fonte: 1885922

Quando os modelos de aprendizado profundo são implantados no mundo real, talvez para detectar fraudes financeiras de atividades de cartão de crédito ou identificar câncer em imagens médicas, eles geralmente superam os humanos.

Mas o que exatamente esses modelos de aprendizado profundo estão aprendendo? Um modelo treinado para detectar câncer de pele em imagens clínicas, por exemplo, realmente aprende as cores e texturas do tecido canceroso ou está sinalizando algumas outras características ou padrões?

Esses poderosos modelos de aprendizado de máquina geralmente são baseados em redes neurais artificiais que podem ter milhões de nós que processam dados para fazer previsões. Devido à sua complexidade, os pesquisadores costumam chamar esses modelos de “caixas pretas” porque mesmo os cientistas que os constroem não entendem tudo o que está acontecendo sob o capô.

Stefanie Jegelka não está satisfeita com a explicação da “caixa preta”. Um professor associado recém-contratado no Departamento de Engenharia Elétrica e Ciência da Computação do MIT, Jegelka está se aprofundando no aprendizado profundo para entender o que esses modelos podem aprender e como eles se comportam, e como construir certas informações prévias nesses modelos.

“No final das contas, o que um modelo de aprendizado profundo aprenderá depende de muitos fatores. Mas construir um entendimento que seja relevante na prática nos ajudará a projetar modelos melhores e também a entender o que está acontecendo dentro deles para sabermos quando podemos implantar um modelo e quando não podemos. Isso é extremamente importante”, diz Jegelka, que também é membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e do Instituto de Dados, Sistemas e Sociedade (IDSS).

Jegelka está particularmente interessado em otimizar modelos de aprendizado de máquina quando os dados de entrada estão na forma de gráficos. Os dados do gráfico apresentam desafios específicos: por exemplo, as informações nos dados consistem em informações sobre nós e bordas individuais, bem como na estrutura - o que está conectado a quê. Além disso, os grafos possuem simetrias matemáticas que precisam ser respeitadas pelo modelo de aprendizado de máquina para que, por exemplo, o mesmo grafo leve sempre à mesma previsão. Construir tais simetrias em um modelo de aprendizado de máquina geralmente não é fácil.

Veja as moléculas, por exemplo. As moléculas podem ser representadas como gráficos, com vértices que correspondem aos átomos e arestas que correspondem às ligações químicas entre eles. As empresas farmacêuticas podem querer usar o aprendizado profundo para prever rapidamente as propriedades de muitas moléculas, reduzindo o número que devem testar fisicamente no laboratório.

Jegelka estuda métodos para construir modelos matemáticos de aprendizado de máquina que podem efetivamente receber dados gráficos como uma entrada e produzir outra coisa, neste caso, uma previsão das propriedades químicas de uma molécula. Isso é particularmente desafiador, pois as propriedades de uma molécula são determinadas não apenas pelos átomos dentro dela, mas também pelas conexões entre eles.  

Outros exemplos de aprendizado de máquina em gráficos incluem roteamento de tráfego, design de chip e sistemas de recomendação.

Projetar esses modelos é ainda mais difícil pelo fato de que os dados usados ​​para treiná-los geralmente são diferentes dos dados que os modelos veem na prática. Talvez o modelo tenha sido treinado usando pequenos gráficos moleculares ou redes de tráfego, mas os gráficos que ele vê depois de implantados são maiores ou mais complexos.

Nesse caso, o que os pesquisadores podem esperar que esse modelo aprenda e ainda funcionará na prática se os dados do mundo real forem diferentes?

“Seu modelo não será capaz de aprender tudo devido a alguns problemas de dificuldade na ciência da computação, mas o que você pode aprender e o que não pode aprender depende de como você configura o modelo”, diz Jegelka.

Ela aborda essa questão combinando sua paixão por algoritmos e matemática discreta com seu entusiasmo pelo aprendizado de máquina.

Das borboletas à bioinformática

Jegelka cresceu em uma pequena cidade na Alemanha e se interessou por ciências quando era estudante do ensino médio; um professor solidário a encorajou a participar de uma competição internacional de ciências. Ela e suas companheiras de equipe dos Estados Unidos e Cingapura ganharam um prêmio por um site que criaram sobre borboletas, em três idiomas.

“Para o nosso projeto, tiramos imagens de asas com um microscópio eletrônico de varredura em uma universidade local de ciências aplicadas. Também tive a oportunidade de usar uma câmera de alta velocidade na Mercedes Benz – essa câmera geralmente filmava motores de combustão – que usei para capturar um vídeo em câmera lenta do movimento das asas de uma borboleta. Foi a primeira vez que realmente tive contato com ciência e exploração”, lembra ela.

Intrigado pela biologia e pela matemática, Jegelka decidiu estudar bioinformática na Universidade de Tübingen e na Universidade do Texas em Austin. Ela teve algumas oportunidades de realizar pesquisas na graduação, incluindo um estágio em neurociência computacional na Universidade de Georgetown, mas não tinha certeza de qual carreira seguir.

Quando ela voltou para seu último ano de faculdade, Jegelka foi morar com duas colegas de quarto que trabalhavam como assistentes de pesquisa no Instituto Max Planck em Tübingen.

“Eles estavam trabalhando em aprendizado de máquina e isso me pareceu muito legal. Eu tinha que escrever minha tese de bacharelado, então perguntei no instituto se eles tinham um projeto para mim. Comecei a trabalhar com aprendizado de máquina no Instituto Max Planck e adorei. Aprendi muito lá e foi um ótimo lugar para pesquisa”, diz ela.

Ela permaneceu no Instituto Max Planck para concluir uma tese de mestrado e, em seguida, embarcou em um doutorado em aprendizado de máquina no Instituto Max Planck e no Instituto Federal Suíço de Tecnologia..

Durante seu doutorado, ela explorou como os conceitos da matemática discreta podem ajudar a melhorar as técnicas de aprendizado de máquina.

Modelos de ensino para aprender

Quanto mais Jegelka aprendia sobre aprendizado de máquina, mais intrigada ela ficava com os desafios de entender como os modelos se comportam e como orientar esse comportamento.

“Você pode fazer muito com o aprendizado de máquina, mas apenas se tiver o modelo e os dados corretos. Não é apenas uma caixa preta onde você joga nos dados e funciona. Na verdade, você precisa pensar sobre isso, suas propriedades e o que deseja que o modelo aprenda e faça”, diz ela.

Depois de concluir um pós-doutorado na Universidade da Califórnia em Berkeley, Jegelka se interessou pela pesquisa e decidiu seguir carreira acadêmica. Ela ingressou no corpo docente do MIT em 2015 como professora assistente.

“O que eu realmente amei no MIT, desde o início, foi que as pessoas realmente se preocupam profundamente com pesquisa e criatividade. Isso é o que mais aprecio no MIT. As pessoas aqui valorizam muito a originalidade e a profundidade na pesquisa”, afirma.

Esse foco na criatividade permitiu que Jegelka explorasse uma ampla gama de tópicos.

Em colaboração com outros professores do MIT, ela estuda aplicações de aprendizado de máquina em biologia, imagem, visão computacional e ciência dos materiais.

Mas o que realmente motiva Jegelka é investigar os fundamentos do aprendizado de máquina e, mais recentemente, a questão da robustez. Muitas vezes, um modelo funciona bem em dados de treinamento, mas seu desempenho se deteriora quando é implantado em dados ligeiramente diferentes. Construir conhecimento prévio em um modelo pode torná-lo mais confiável, mas entender quais informações o modelo precisa para ser bem-sucedido e como construí-lo não é tão simples, diz ela.

Ela também está explorando métodos para melhorar o desempenho de modelos de aprendizado de máquina para classificação de imagens.

Os modelos de classificação de imagens estão por toda parte, desde os sistemas de reconhecimento facial em telefones celulares até ferramentas que identificam contas falsas em mídias sociais. Esses modelos precisam de grandes quantidades de dados para treinamento, mas como é caro para humanos rotular milhões de imagens, os pesquisadores geralmente usam conjuntos de dados não rotulados para pré-treinar modelos.

Esses modelos reutilizam as representações que aprenderam quando são ajustados posteriormente para uma tarefa específica.

Idealmente, os pesquisadores querem que o modelo aprenda o máximo possível durante o pré-treinamento, para que possa aplicar esse conhecimento à sua tarefa posterior. Mas, na prática, esses modelos geralmente aprendem apenas algumas correlações simples – como uma imagem com luz do sol e outra com sombra – e usam esses “atalhos” para classificar as imagens.

“Mostramos que esse é um problema de 'aprendizagem contrastiva', que é uma técnica padrão de pré-treinamento, tanto teórica quanto empiricamente. Mas também mostramos que você pode influenciar os tipos de informação que o modelo aprenderá a representar modificando os tipos de dados que você mostra ao modelo. Este é um passo para entender o que os modelos realmente vão fazer na prática”, diz ela.

Os pesquisadores ainda não entendem tudo o que acontece dentro de um modelo de aprendizado profundo, ou detalhes sobre como eles podem influenciar o que um modelo aprende e como ele se comporta, mas Jegelka espera continuar explorando esses tópicos.

“Muitas vezes, no aprendizado de máquina, vemos algo acontecer na prática e tentamos entendê-lo teoricamente. Este é um grande desafio. Você quer construir um entendimento condizente com o que vê na prática, para poder fazer melhor. Ainda estamos apenas no começo de entender isso”, diz ela.

Fora do laboratório, Jegelka é fã de música, arte, viagens e ciclismo. Mas hoje em dia ela gosta de passar a maior parte do tempo livre com a filha em idade pré-escolar.

<!–
->

Carimbo de hora:

Mais de Consultores Blockchain