Aprendizado zero-shot, explicado

Aprendizado zero-shot, explicado

Nó Fonte: 1776319

Aprendizado zero-shot, explicado
Bruce Warrington através do Unsplash
 

A razão pela qual os modelos de aprendizado de máquina em geral estão se tornando mais inteligentes é devido à sua dependência do uso de dados rotulados para ajudá-los a discernir entre dois objetos semelhantes. 

No entanto, sem esses conjuntos de dados rotulados, você encontrará grandes obstáculos ao criar o modelo de aprendizado de máquina mais eficaz e confiável. Conjuntos de dados rotulados durante a fase de treinamento de um modelo são importantes. 

O aprendizado profundo tem sido amplamente utilizado para resolver tarefas como visão computacional usando aprendizado supervisionado. No entanto, como acontece com muitas coisas na vida, vem com restrições. A classificação supervisionada requer uma alta quantidade e qualidade de dados de treinamento rotulados para produzir um modelo robusto. Isso significa que o modelo de classificação não pode lidar com classes não vistas. 

E todos nós sabemos quanto poder computacional, retreinamento, tempo e dinheiro são necessários para treinar um modelo de aprendizado profundo.

Mas um modelo ainda pode discernir entre dois objetos sem usar dados de treinamento? Sim, é chamado de aprendizado zero-shot. O aprendizado de tiro zero é a capacidade de um modelo de concluir uma tarefa sem ter recebido ou usado nenhum exemplo de treinamento. 

Os seres humanos são naturalmente capazes de aprender tiro zero sem ter que fazer muito esforço. Nossos cérebros já armazenam dicionários e nos permitem diferenciar objetos observando suas propriedades físicas devido à nossa base de conhecimento atual. Podemos usar essa base de conhecimento para ver as semelhanças e diferenças entre os objetos e encontrar a ligação entre eles.

Por exemplo, digamos que estamos tentando construir um modelo de classificação de espécies animais. De acordo com Nosso MundoInData, havia 2.13 milhões de espécies calculadas em 2021. Portanto, se quisermos criar o modelo de classificação mais eficaz para espécies animais, precisaríamos de 2.13 milhões de classes diferentes. Também serão necessários muitos dados. Dados de alta quantidade e qualidade são difíceis de encontrar.

Então, como o aprendizado de tiro zero resolve esse problema?

Como o aprendizado zero-shot não exige que o modelo tenha aprendido os dados de treinamento e como classificar as classes, ele nos permite depender menos da necessidade do modelo de dados rotulados. 

O seguinte é o que seus dados precisarão consistir para prosseguir com o aprendizado zero-shot.

aulas vistas

Isso consiste nas classes de dados que foram usadas anteriormente para treinar um modelo. 

Aulas Invisíveis

Isso consiste nas classes de dados que NÃO foram usadas para treinar um modelo e o novo modelo de aprendizado zero-shot será generalizado. 

Informações Auxiliares

Como os dados nas classes invisíveis não são rotulados, o aprendizado zero-shot exigirá informações auxiliares para aprender e encontrar correlações, links e propriedades. Isso pode ser na forma de incorporação de palavras, descrições e informações semânticas.

Métodos de aprendizagem de tiro zero

O aprendizado de tiro zero é normalmente usado em:

  • Métodos baseados em classificadores
  • Métodos baseados em instância

estágios

O aprendizado zero-shot é usado para construir modelos para classes que não treinam usando dados rotulados, portanto, requer esses dois estágios:

1. Treinamento

A etapa de treinamento é o processo do método de aprendizagem tentando capturar o máximo de conhecimento possível sobre as qualidades dos dados. Podemos ver isso como a fase de aprendizado. 

2. Inferência

Durante a fase de inferência, todo o conhecimento aprendido na fase de treinamento é aplicado e utilizado para classificar os exemplos em um novo conjunto de classes. Podemos ver isso como a fase de fazer previsões. 

Como isso funciona?

O conhecimento das classes vistas será transferido para as classes invisíveis em um espaço vetorial de alta dimensão; isso é chamado de espaço semântico. Por exemplo, na classificação de imagens o espaço semântico junto com a imagem passará por duas etapas:

1. Espaço de incorporação conjunta

É para lá que se projetam os vetores semânticos e os vetores do recurso visual. 

2. Maior semelhança

É aqui que os recursos são comparados com os de uma classe invisível. 

Para ajudar a entender o processo com as duas etapas (treinamento e inferência), vamos aplicá-las no uso da classificação de imagens.

Training

Aprendizado zero-shot, explicado
Jari Hytonen através do Unsplash
 

Como ser humano, se você lesse o texto à direita na imagem acima, presumiria instantaneamente que há 4 gatinhos em uma cesta marrom. Mas digamos que você não tenha ideia do que é um 'gatinho'. Você presumirá que há uma cesta marrom com 4 coisas dentro, chamadas de 'gatinhos'. Depois de encontrar mais imagens que contenham algo que se pareça com um 'gatinho', você será capaz de diferenciar um 'gatinho' de outros animais. 

Isso é o que acontece quando você usa Pré-treinamento Linguagem Contrastiva-Imagem (CLIP) da OpenAI para aprendizado zero-shot na classificação de imagens. É conhecida como informação auxiliar. 

Você pode estar pensando, 'bem, isso são apenas dados rotulados'. Eu entendo porque você pensaria isso, mas eles não são. As informações auxiliares não são rótulos dos dados, são uma forma de supervisão para ajudar o modelo a aprender durante o estágio de treinamento.

Quando um modelo de aprendizado zero-shot vê uma quantidade suficiente de pares imagem-texto, ele será capaz de diferenciar e entender frases e como elas se correlacionam com certos padrões nas imagens. Usando a técnica CLIP de 'aprendizagem contrastiva', o modelo de aprendizagem zero-shot foi capaz de acumular uma boa base de conhecimento para poder fazer previsões em tarefas de classificação. 

Este é um resumo da abordagem CLIP em que eles treinam um codificador de imagem e um codificador de texto juntos para prever os pares corretos de um lote de exemplos de treinamento (imagem, texto). Por favor, veja a imagem abaixo:

 

Aprendizado zero-shot, explicado
Aprendendo modelos visuais transferíveis da supervisão de linguagem natural

Inferência

Uma vez que o modelo passou pelo estágio de treinamento, ele possui uma boa base de conhecimento de pareamento imagem-texto e agora pode ser usado para fazer previsões. Mas antes de podermos fazer previsões, precisamos configurar a tarefa de classificação criando uma lista de todos os rótulos possíveis que o modelo pode gerar. 

Por exemplo, continuando com a tarefa de classificação de imagens em espécies animais, precisaremos de uma lista de todas as espécies de animais. Cada um desses rótulos será codificado, T? para T? usando o codificador de texto pré-treinado que ocorreu no estágio de treinamento. 

Depois que os rótulos forem codificados, podemos inserir imagens por meio do codificador de imagem pré-treinado. Usaremos a similaridade de cosseno métrico de distância para calcular as semelhanças entre a codificação da imagem e cada codificação de rótulo de texto.

A classificação da imagem é feita com base no rótulo com maior semelhança com a imagem. E é assim que o aprendizado zero-shot é alcançado, especificamente na classificação de imagens. 

Escassez de dados

Como mencionado anteriormente, dados de alta quantidade e qualidade são difíceis de obter. Ao contrário dos humanos, que já possuem a capacidade de aprendizado zero-shot, as máquinas exigem dados rotulados de entrada para aprender e, em seguida, serem capazes de se adaptar às variações que podem ocorrer naturalmente. 

Se olharmos para o exemplo das espécies animais, havia tantos. E como o número de categorias continua a crescer em diferentes domínios, será necessário muito trabalho para acompanhar a coleta de dados anotados.

Devido a isso, o aprendizado zero-shot tornou-se mais valioso para nós. Cada vez mais pesquisadores estão interessados ​​no reconhecimento automático de atributos para compensar a falta de dados disponíveis. 

Rotulagem de dados

Outro benefício do aprendizado zero-shot são suas propriedades de rotulagem de dados. A rotulagem de dados pode ser trabalhosa e muito tediosa e, devido a isso, pode levar a erros durante o processo. A rotulagem de dados requer especialistas, como profissionais médicos que trabalham em um conjunto de dados biomédicos, o que é muito caro e demorado. 

O aprendizado de tiro zero está se tornando mais popular devido às limitações de dados acima. Existem alguns artigos que eu recomendaria que você lesse se estiver interessado em suas habilidades:

 
 
Nisha Arya é Cientista de Dados e Redator Técnico Freelance. Ela está particularmente interessada em fornecer conselhos de carreira em Ciência de Dados ou tutoriais e conhecimento baseado em teoria sobre Ciência de Dados. Ela também deseja explorar as diferentes maneiras pelas quais a Inteligência Artificial é/pode beneficiar a longevidade da vida humana. Um aprendiz interessado, buscando ampliar seus conhecimentos técnicos e habilidades de escrita, enquanto ajuda a orientar os outros.
 

Carimbo de hora:

Mais de KDnuggetsGenericName