Avanços no domínio da IA surgem constantemente, mas tendem a ser limitados a um único domínio: por exemplo, um novo método interessante para produzir fala sintética não é tb uma forma de reconhecer expressões em rostos humanos. Os pesquisadores do Meta (também conhecido como Facebook) estão trabalhando em algo um pouco mais versátil: uma IA que pode aprender por conta própria, seja por meio de materiais falados, escritos ou visuais.
A maneira tradicional de treinar um modelo de IA para interpretar algo corretamente é fornecer muitos e muitos (como milhões) exemplos rotulados. Uma imagem de um gato com a parte do gato etiquetada, uma conversa com os falantes e palavras transcritas, etc. Mas essa abordagem não está mais em voga, pois os pesquisadores descobriram que não era mais viável criar manualmente bancos de dados dos tamanhos necessários para treinar o próximo. IAs de geração. Quem quer rotular 50 milhões de fotos de gatos? Ok, provavelmente algumas pessoas – mas quem quer rotular 50 milhões de fotos de frutas e vegetais comuns?
Atualmente, alguns dos sistemas de IA mais promissores são os chamados autossupervisionados: modelos que podem funcionar a partir de grandes quantidades de dados não rotulados, como livros ou vídeos de pessoas interagindo, e construir a sua própria compreensão estruturada de quais são as regras do sistema. Por exemplo, ao ler mil livros, ele aprenderá as posições relativas de palavras e ideias sobre a estrutura gramatical, sem que ninguém lhe diga o que são objetos, artigos ou vírgulas — ele conseguiu isso tirando inferências de muitos exemplos.
Intuitivamente, isso parece mais com a forma como as pessoas aprendem, o que é parte da razão pela qual os pesquisadores gostam disso. Mas os modelos ainda tendem a ser unimodais, e todo o trabalho que você faz para configurar um sistema de aprendizagem semissupervisionado para reconhecimento de fala não se aplica de forma alguma à análise de imagens – eles são simplesmente muito diferentes. É aí que a pesquisa mais recente do Facebook/Meta, o data2vec de nome cativante, entra.
A ideia do data2vec era construir uma estrutura de IA que aprendesse de uma forma mais abstrata, o que significa que, começando do zero, você poderia dar-lhe livros para ler ou imagens para digitalizar ou fala para pronunciar, e depois de um pouco de treinamento ele seria aprenda qualquer uma dessas coisas. É um pouco como começar com uma única semente, mas dependendo do alimento vegetal que você dá a ela, ela se transforma em um narciso, um amor-perfeito ou uma tulipa.
Testar o data2vec depois de deixá-lo treinar em vários corpi de dados mostrou que ele era competitivo e até superava modelos dedicados de tamanho semelhante para essa modalidade. (Ou seja, se todos os modelos estivessem limitados a 100 megabytes, o data2vec se saiu melhor – os modelos especializados provavelmente ainda o superariam à medida que crescessem.)
“A ideia central desta abordagem é aprender de forma mais geral: a IA deve ser capaz de aprender a realizar muitas tarefas diferentes, incluindo aquelas que são totalmente desconhecidas”, escreveu a equipe em uma postagem no blog. “Também esperamos que o data2vec nos aproxime de um mundo onde os computadores precisam de muito poucos dados rotulados para realizar tarefas.”
“As pessoas experimentam o mundo através de uma combinação de visão, som e palavras, e sistemas como este poderão um dia compreender o mundo da mesma forma que nós”, comentou o CEO Mark Zuckerberg sobre a pesquisa.
Esta ainda é uma pesquisa em estágio inicial, então não espere que a lendária “IA geral” surja de repente – mas ter uma IA que tenha uma estrutura de aprendizagem generalizada que funcione com uma variedade de domínios e tipos de dados parece ser uma solução melhor. solução mais elegante do que o conjunto fragmentado de microinteligências com que convivemos hoje.
O código do data2vec é de código aberto; ele e alguns modelos pré-treinados estão disponíveis aqui.
- 100
- Sobre
- AI
- Sistemas de IA
- Todos os Produtos
- análise
- artigos
- disponível
- ser
- Pouco
- Blog
- Livros
- construir
- Chefe executivo
- mais próximo
- código
- combinação
- vinda
- comum
- computadores
- Conversa
- poderia
- dados,
- bases de dados
- dia
- DID
- diferente
- domínio
- domínios
- Cedo
- estágio inicial
- etc.
- vasta experiência
- rostos
- comida
- encontrado
- Quadro
- Cresça:
- ter
- Como funciona o dobrador de carta de canal
- HTTPS
- idéia
- imagem
- análise de imagem
- Incluindo
- IT
- grande
- mais recente
- APRENDER
- aprendizagem
- Limitado
- marca
- marcar zuckerberg
- materiais
- Meta
- milhão
- milhões
- modelo
- modelos
- mais
- a maioria
- necessário
- OK
- aberto
- open source
- ordem
- Pessoas
- fotografia
- Leitura
- pesquisa
- regras
- digitalização
- semente
- conjunto
- So
- algo
- caixas de som
- especializado
- Reconhecimento de Voz
- Etapa
- .
- sistemas
- o mundo
- Através da
- hoje
- tradicional
- Training
- us
- Vídeo
- O Quê
- QUEM
- sem
- palavras
- Atividades:
- trabalhar
- trabalho
- mundo
- seria