Los investigadores de Meta construyen una IA que aprende igualmente bien de materiales visuales, escritos o hablados

Nodo de origen: 1590449

Constantemente surgen avances en el ámbito de la IA, pero tienden a estar limitados a un solo dominio: por ejemplo, un nuevo método genial para producir voz sintética no es también una forma de reconocer expresiones en rostros humanos. Los investigadores de Meta (también conocido como Facebook) están trabajando en algo un poco más versátil: una IA que pueda aprender hábilmente por sí misma, ya sea en materiales hablados, escritos o visuales.

La forma tradicional de entrenar un modelo de IA para interpretar correctamente algo es darle montones y montones (como millones) de ejemplos etiquetados. Una imagen de un gato con la parte del gato etiquetada, una conversación con los oradores y las palabras transcritas, etc. Pero ese enfoque ya no está de moda, ya que los investigadores descubrieron que ya no era factible crear manualmente bases de datos de los tamaños necesarios para entrenar a continuación. -gen IA. ¿Quién quiere etiquetar 50 millones de fotos de gatos? De acuerdo, algunas personas probablemente, pero ¿quién quiere etiquetar 50 millones de imágenes de frutas y verduras comunes?

Actualmente, algunos de los sistemas de IA más prometedores son los que se denominan autosupervisados: modelos que pueden funcionar a partir de grandes cantidades de datos sin etiquetar, como libros o videos de personas interactuando, y construir su propia comprensión estructurada de cuáles son las reglas del sistema. Por ejemplo, al leer miles de libros, aprenderá las posiciones relativas de las palabras y las ideas sobre la estructura gramatical sin que nadie le diga qué objetos, artículos o comas son: lo obtuvo al sacar inferencias de muchos ejemplos.

Intuitivamente, esto se parece más a cómo aprenden las personas, lo cual es parte de por qué a los investigadores les gusta. Pero los modelos aún tienden a ser unimodales, y todo el trabajo que haga para configurar un sistema de aprendizaje semisupervisado para el reconocimiento de voz no se aplicará en absoluto al análisis de imágenes, simplemente son demasiado diferentes. Ahí es donde la última investigación de Facebook/Meta, el nombre pegadizo data2vec, viene en.

La idea de data2vec era construir un marco de IA que aprendiera de una manera más abstracta, lo que significa que, comenzando desde cero, podría darle libros para leer o imágenes para escanear o voz para pronunciar, y después de un poco de entrenamiento, aprender cualquiera de esas cosas. Es un poco como comenzar con una sola semilla, pero dependiendo del alimento vegetal que le des, se convierte en un narciso, un pensamiento o un tulipán.

La prueba de data2vec después de permitir que se entrenara en varios corpus de datos mostró que era competitivo e incluso superaba a modelos dedicados de tamaño similar para esa modalidad. (Es decir, si todos los modelos están limitados a 100 megabytes, data2vec lo hizo mejor; los modelos especializados probablemente aún lo superarían a medida que crecen).

"La idea central de este enfoque es aprender de manera más general: la IA debería poder aprender a realizar muchas tareas diferentes, incluidas aquellas que son completamente desconocidas". escribió el equipo en una publicación de blog. “También esperamos que data2vec nos acerque a un mundo donde las computadoras necesitan muy pocos datos etiquetados para realizar tareas”.

“Las personas experimentan el mundo a través de una combinación de vista, sonido y palabras, y sistemas como este algún día podrían entender el mundo de la manera en que lo hacemos”, comentó el director ejecutivo Mark Zuckerberg sobre la investigación.

Esta es todavía una investigación en etapa inicial, así que no espere que la legendaria "IA general" surja de repente, pero tener una IA que tenga una estructura de aprendizaje generalizada que funcione con una variedad de dominios y tipos de datos parece una mejor opción. solución más elegante que el conjunto fragmentado de microinteligencias con las que nos las arreglamos hoy.

El código de data2vec es de código abierto; él y algunos modelos preentrenados están disponibles aquí.

Fuente: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-write-or-spoken-materials/

Sello de tiempo:

Mas de Techcrunch