Les méta-chercheurs construisent une IA qui apprend aussi bien à partir de documents visuels, écrits ou parlés

Nœud source: 1590449

Les progrès dans le domaine de l’IA sont constants, mais ils ont tendance à se limiter à un seul domaine : par exemple, une nouvelle méthode intéressante pour produire de la parole synthétique n’est pas disponible. aussi un moyen de reconnaître les expressions sur les visages humains. Les chercheurs de Meta (alias Facebook) travaillent sur quelque chose d'un peu plus polyvalent : une IA capable d'apprendre par elle-même, qu'elle le fasse à l'aide de documents parlés, écrits ou visuels.

La manière traditionnelle d’entraîner un modèle d’IA à interpréter correctement quelque chose consiste à lui donner de très nombreux exemples (par exemple des millions) d’exemples étiquetés. Une photo d'un chat avec la partie chat étiquetée, une conversation avec les locuteurs et des mots transcrits, etc. Mais cette approche n'est plus à la mode car les chercheurs ont découvert qu'il n'était plus possible de créer manuellement des bases de données de la taille nécessaire pour s'entraîner ensuite. -gen IA. Qui veut étiqueter 50 millions de photos de chats ? D'accord, quelques personnes probablement, mais qui veut étiqueter 50 millions de photos de fruits et légumes courants ?

Actuellement, certains des systèmes d'IA les plus prometteurs sont ce que l'on appelle des modèles auto-supervisés : des modèles capables de fonctionner à partir de grandes quantités de données non étiquetées, comme des livres ou des vidéos de personnes interagissant, et de construire leur propre compréhension structurée des règles du système. Par exemple, en lisant un millier de livres, il apprendra les positions relatives des mots et des idées sur la structure grammaticale sans que personne ne lui dise ce que sont des objets, des articles ou des virgules – il l'a obtenu en tirant des conclusions à partir de nombreux exemples.

Cela ressemble intuitivement davantage à la façon dont les gens apprennent, ce qui explique en partie pourquoi les chercheurs l'apprécient. Mais les modèles ont encore tendance à être monomodaux, et tout le travail que vous faites pour mettre en place un système d’apprentissage semi-supervisé pour la reconnaissance vocale ne s’appliquera pas du tout à l’analyse d’images : ils sont tout simplement trop différents. C'est là que les dernières recherches de Facebook/Meta, le nom accrocheur data2vec, entre.

L'idée de data2vec était de construire un framework d'IA qui apprendrait de manière plus abstraite, ce qui signifie qu'en partant de zéro, vous pourriez lui donner des livres à lire ou des images à numériser ou de la parole à sonoriser, et après un peu de formation, il le ferait. apprendre n'importe laquelle de ces choses. C’est un peu comme commencer avec une seule graine, mais selon la nourriture végétale que vous lui donnez, elle se transforme en jonquille, en pensée ou en tulipe.

Les tests de data2vec après l'avoir laissé s'entraîner sur divers corpus de données ont montré qu'il était compétitif et même surpassait les modèles dédiés de taille similaire pour cette modalité. (C'est-à-dire que si les modèles sont tous limités à 100 mégaoctets, data2vec a fait mieux – les modèles spécialisés le surpasseraient probablement à mesure de leur croissance.)

« L’idée centrale de cette approche est d’apprendre de manière plus générale : l’IA devrait être capable d’apprendre à effectuer de nombreuses tâches différentes, y compris celles qui ne sont absolument pas familières. » a écrit l'équipe dans un article de blog. "Nous espérons également que data2vec nous rapprochera d'un monde dans lequel les ordinateurs ont besoin de très peu de données étiquetées pour accomplir leurs tâches."

"Les gens découvrent le monde à travers une combinaison de la vue, du son et des mots, et des systèmes comme celui-ci pourraient un jour comprendre le monde comme nous le faisons", a commenté le PDG Mark Zuckerberg à propos de la recherche.

Il s’agit encore d’un stade précoce de recherche, alors ne vous attendez pas à ce que la légendaire « IA générale » émerge tout d’un coup – mais avoir une IA dotée d’une structure d’apprentissage généralisée qui fonctionne avec une variété de domaines et de types de données semble être une meilleure solution. solution plus élégante que l’ensemble fragmenté de micro-intelligences avec lequel nous nous débrouillons aujourd’hui.

Le code de data2vec est open source ; il et certains modèles pré-entraînés sont disponibles ici.

Source : https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-writing-or-spoken-materials/

Horodatage:

Plus de Techcrunch