I ricercatori Meta costruiscono un'IA che apprende ugualmente bene da materiali visivi, scritti o parlati

Nodo di origine: 1590449

I progressi nel campo dell'intelligenza artificiale emergono costantemente, ma tendono a essere limitati a un singolo dominio: ad esempio, un nuovo metodo interessante per produrre parlato sintetico non è anche un modo per riconoscere le espressioni sui volti umani. I ricercatori di Meta (AKA Facebook) stanno lavorando a qualcosa di un po' più versatile: un'intelligenza artificiale in grado di apprendere abilmente da sola, sia che lo faccia attraverso materiali parlati, scritti o visivi.

Il modo tradizionale per addestrare un modello di intelligenza artificiale a interpretare correttamente qualcosa è fornirgli tantissimi (come milioni) di esempi etichettati. Un'immagine di un gatto con la parte del gatto etichettata, una conversazione con i relatori e parole trascritte, ecc. Ma questo approccio non è più in voga poiché i ricercatori hanno scoperto che non era più fattibile creare manualmente database delle dimensioni necessarie per l'addestramento successivo IA di nuova generazione. Chi vuole etichettare 50 milioni di foto di gatti? Ok, probabilmente alcune persone, ma chi vuole etichettare 50 milioni di immagini di frutta e verdura comuni?

Attualmente alcuni dei sistemi di intelligenza artificiale più promettenti sono quelli cosiddetti auto-supervisionati: modelli che possono funzionare da grandi quantità di dati non etichettati, come libri o video di persone che interagiscono, e costruire una propria comprensione strutturata di quali sono le regole del sistema. Ad esempio, leggendo migliaia di libri imparerà le posizioni relative delle parole e delle idee sulla struttura grammaticale senza che nessuno gli dica cosa siano gli oggetti, gli articoli o le virgole: lo ha ottenuto traendo deduzioni da molti esempi.

Intuitivamente questo sembra più simile al modo in cui le persone apprendono, il che è uno dei motivi per cui piace ai ricercatori. Ma i modelli tendono ancora ad essere monomodali, e tutto il lavoro svolto per impostare un sistema di apprendimento semi-supervisionato per il riconoscimento vocale non si applicherà affatto all’analisi delle immagini: sono semplicemente troppo diversi. È qui che nascono le ultime ricerche di Facebook/Meta, il nome accattivante data2vec, entra.

L'idea alla base di data2vec era quella di costruire un framework AI in grado di apprendere in modo più astratto, il che significa che, partendo da zero, si potevano dargli libri da leggere o immagini da scansionare o parole da scansionare, e dopo un po' di addestramento avrebbe potuto imparare una qualsiasi di queste cose. È un po' come iniziare con un singolo seme, ma a seconda del nutrimento vegetale che gli dai, crescerà fino a diventare un narciso, una viola del pensiero o un tulipano.

Testare data2vec dopo averlo addestrato su vari corpi dati ha dimostrato che era competitivo e addirittura superava i modelli dedicati di dimensioni simili per quella modalità. (Vale a dire, se i modelli fossero tutti limitati a 100 megabyte, data2vec ha fatto meglio: i modelli specializzati probabilmente continuerebbero a superarlo man mano che crescono.)

“L’idea centrale di questo approccio è apprendere in modo più generale: l’intelligenza artificiale dovrebbe essere in grado di imparare a svolgere molti compiti diversi, compresi quelli del tutto sconosciuti”, ha scritto il team in un post sul blog. “Ci auguriamo inoltre che data2vec ci avvicini a un mondo in cui i computer necessitano di pochissimi dati etichettati per svolgere le proprie attività”.

“Le persone sperimentano il mondo attraverso una combinazione di vista, suono e parole, e sistemi come questo potrebbero un giorno comprendere il mondo nel modo in cui lo facciamo noi”, ha commentato il CEO Mark Zuckerberg in merito alla ricerca.

Questa è ancora una ricerca in fase iniziale, quindi non aspettatevi che la leggendaria "IA generale" emerga all'improvviso, ma avere un'IA che ha una struttura di apprendimento generalizzata che funziona con una varietà di domini e tipi di dati sembra una soluzione migliore, soluzione più elegante dell’insieme frammentato di micro-intelligenze con cui ci arrangiamo oggi.

Il codice per data2vec è open source; it e alcuni modelli preaddestrati sono disponibili qui.

Fonte: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-script-or-spoken-materials/

Timestamp:

Di più da Techcrunch