Meta-onderzoekers bouwen een AI die even goed leert van visuele, geschreven of gesproken materialen

Heruitgegeven door Plato

volgers: 0

Er zijn voortdurend vorderingen op het gebied van AI, maar deze zijn meestal beperkt tot een enkel domein: een coole nieuwe methode voor het produceren van synthetische spraak is bijvoorbeeld niet ook een manier om uitdrukkingen op menselijke gezichten te herkennen. Meta (AKA Facebook) onderzoekers werken aan iets veelzijdigers: een AI die zelfstandig kan leren, of het nu gaat om gesproken, geschreven of visuele materialen.

De traditionele manier om een AI-model te trainen om iets correct te interpreteren, is door het heel veel (zoals miljoenen) gelabelde voorbeelden te geven. Een foto van een kat met het kattengedeelte gelabeld, een gesprek met de sprekers en getranscribeerde woorden, enz. Maar die aanpak is niet langer in de mode, omdat onderzoekers ontdekten dat het niet langer haalbaar was om handmatig databases te maken met de afmetingen die nodig zijn om vervolgens te trainen -gen AI's. Wie wil er 50 miljoen kattenfoto's labelen? Oké, waarschijnlijk een paar mensen - maar wie wil er 50 miljoen foto's van gewone groenten en fruit labelen?

Momenteel zijn enkele van de meest veelbelovende AI-systemen zogenaamde self-supervised: modellen die kunnen werken op basis van grote hoeveelheden niet-gelabelde gegevens, zoals boeken of video's van mensen die met elkaar omgaan, en hun eigen gestructureerde begrip opbouwen van wat de regels van het systeem zijn. Door bijvoorbeeld duizend boeken te lezen, leert het de relatieve posities van woorden en ideeën over grammaticale structuur zonder dat iemand het vertelt wat objecten of lidwoorden of komma's zijn - het kreeg het door gevolgtrekkingen te trekken uit tal van voorbeelden.

Dit voelt intuïtief meer aan als hoe mensen leren, wat een deel van de reden is waarom onderzoekers het leuk vinden. Maar de modellen zijn nog steeds single-modaal, en al het werk dat je doet om een semi-gesuperviseerd leersysteem voor spraakherkenning op te zetten, is helemaal niet van toepassing op beeldanalyse - ze zijn gewoon te verschillend. Dat is waar het laatste onderzoek van Facebook/Meta, de pakkende naam data2vec, komt binnen.

Het idee voor data2vec was om een AI-framework te bouwen dat op een meer abstracte manier zou leren, wat inhoudt dat je vanaf het begin boeken zou kunnen geven om te lezen of afbeeldingen om te scannen of spraak om uit te spreken, en na een beetje training zou het leer een van die dingen. Het is een beetje zoals beginnen met een enkel zaadje, maar afhankelijk van welke plantenvoeding je het geeft, groeit het uit tot een narcis, viooltje of tulp.

Het testen van data2vec nadat het op verschillende datacorpi had laten trainen, toonde aan dat het concurrerend was met en zelfs beter presteerde dan speciale modellen van vergelijkbare grootte voor die modaliteit. (Dat wil zeggen, als de modellen allemaal beperkt zijn tot 100 megabytes, deed data2vec het beter - gespecialiseerde modellen zouden het waarschijnlijk nog steeds beter doen naarmate ze groeien.)

"Het kernidee van deze aanpak is om meer in het algemeen te leren: AI zou in staat moeten zijn om veel verschillende taken uit te voeren, ook taken die totaal onbekend zijn." schreef het team in een blogpost. "We hopen ook dat data2vec ons dichter bij een wereld zal brengen waarin computers heel weinig gelabelde gegevens nodig hebben om taken uit te voeren."

"Mensen ervaren de wereld door een combinatie van beeld, geluid en woorden, en dergelijke systemen zouden op een dag de wereld kunnen begrijpen zoals wij dat doen", aldus CEO Mark Zuckerberg over het onderzoek.

Dit onderzoek bevindt zich nog in de beginfase, dus verwacht niet dat de legendarische "algemene AI" plotseling opduikt - maar een AI hebben met een algemene leerstructuur die werkt met een verscheidenheid aan domeinen en gegevenstypen lijkt een betere, elegantere oplossing dan de gefragmenteerde reeks micro-intelligenties waar we vandaag mee rondkomen.

De code voor data2vec is open source; it en enkele voorgetrainde modellen zijn hier beschikbaar.

Bron: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-written-or-spoken-materials/

Tijdstempel: 20 januari 2022