Metaforskere bygger en AI, der lærer lige godt af visuelt, skriftligt eller talt materiale

Genudgivet af Platon

Abonnenter: 0

Fremskridt inden for AI-området kommer konstant ud, men de har tendens til at være begrænset til et enkelt domæne: For eksempel er en cool ny metode til at producere syntetisk tale ikke også en måde at genkende udtryk på menneskelige ansigter. Meta (AKA Facebook) forskere arbejder på noget lidt mere alsidigt: en kunstig intelligens, der kan lære på egen hånd, uanset om den gør det i talt, skriftligt eller visuelt materiale.

Den traditionelle måde at træne en AI-model på til at fortolke noget korrekt, er at give den masser og masser (som millioner) af mærkede eksempler. Et billede af en kat med kattedelen mærket, en samtale med talerne og ord transskriberet osv. Men den tilgang er ikke længere på mode, da forskere fandt ud af, at det ikke længere var muligt manuelt at oprette databaser med de størrelser, der er nødvendige for at træne næste gang -gen AI'er. Hvem ønsker at mærke 50 millioner kattebilleder? Okay, et par mennesker sikkert - men hvem vil mærke 50 millioner billeder af almindelige frugter og grøntsager?

I øjeblikket er nogle af de mest lovende AI-systemer, hvad der kaldes selvovervågede: modeller, der kan arbejde ud fra store mængder umærkede data, som bøger eller video af mennesker, der interagerer, og opbygge deres egen strukturerede forståelse af, hvad reglerne er for systemet. For eksempel vil den ved at læse tusind bøger lære de relative positioner af ord og ideer om grammatisk struktur uden at nogen fortæller den, hvad objekter eller artikler eller kommaer er - den fik det ved at drage slutninger fra masser af eksempler.

Dette føles intuitivt mere som, hvordan folk lærer, hvilket er en del af grunden til, at forskere kan lide det. Men modellerne har stadig en tendens til at være single-modale, og alt det arbejde, du gør for at opsætte et semi-overvåget læringssystem til talegenkendelse, vil slet ikke gælde for billedanalyse – de er simpelthen for forskellige. Det er her Facebook/Metas seneste forskning, den fængende navngivne data2vec, kommer i.

Ideen med data2vec var at bygge en AI-ramme, der ville lære på en mere abstrakt måde, hvilket betyder, at man fra bunden kunne give den bøger at læse eller billeder til at scanne eller tale for at lyde, og efter lidt træning ville den lære nogen af disse ting. Det er lidt ligesom at starte med et enkelt frø, men alt efter hvilken planteføde du giver det, vokser det til en påskelilje, stedmoderblomst eller tulipan.

Test af data2vec efter at have ladet det træne på forskellige datakorpi viste, at det var konkurrencedygtigt med og endda udkonkurrerede dedikerede modeller af samme størrelse til den modalitet. (Det vil sige, at hvis modellerne alle er begrænset til at være 100 megabyte, gjorde data2vec det bedre - specialiserede modeller ville sandsynligvis stadig overgå det, efterhånden som de vokser.)

"Kerneideen med denne tilgang er at lære mere generelt: AI bør være i stand til at lære at udføre mange forskellige opgaver, inklusive dem, der er helt ukendte," skrev holdet i et blogindlæg. "Vi håber også, at data2vec vil bringe os tættere på en verden, hvor computere har brug for meget lidt mærkede data for at udføre opgaver."

"Folk oplever verden gennem en kombination af syn, lyd og ord, og systemer som dette kunne en dag forstå verden, som vi gør," kommenterede CEO Mark Zuckerberg om forskningen.

Dette er stadig forskning på et tidligt stadium, så forvent ikke, at den sagnomspundne "generelle AI" pludselig dukker op - men at have en AI, der har en generaliseret læringsstruktur, der fungerer med en række forskellige domæner og datatyper, virker som en bedre, mere elegant løsning end det fragmenterede sæt af mikrointelligenser, vi klarer os med i dag.

Koden til data2vec er open source; den og nogle fortrænede modeller er tilgængelige her.

Kilde: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-written-or-spoken-materials/

Tidsstempel: Januar 20, 2022