Metaforskere bygger en AI som lærer like godt fra visuelt, skriftlig eller muntlig materiale

Kilde node: 1590449

Fremskritt i AI-området kommer stadig ut, men de har en tendens til å være begrenset til et enkelt domene: For eksempel er en kul ny metode for å produsere syntetisk tale ikke også en måte å gjenkjenne uttrykk på menneskelige ansikter. Meta (AKA Facebook)-forskere jobber med noe litt mer allsidig: en AI som kan lære seg på egenhånd enten den gjør det i muntlig, skriftlig eller visuelt materiale.

Den tradisjonelle måten å trene en AI-modell til å tolke noe riktig, er å gi den massevis (som millioner) av merkede eksempler. Et bilde av en katt med kattedelen merket, en samtale med foredragsholderne og ord som er transkribert, osv. Men den tilnærmingen er ikke lenger på moten da forskere fant ut at det ikke lenger var mulig å manuelt opprette databaser med størrelsene som trengs for å trene videre -gen AIer. Hvem vil merke 50 millioner kattebilder? Ok, noen få mennesker sannsynligvis - men hvem vil merke 50 millioner bilder av vanlige frukter og grønnsaker?

For øyeblikket er noen av de mest lovende AI-systemene det som kalles selvovervåket: modeller som kan arbeide fra store mengder umerkede data, som bøker eller video av mennesker som samhandler, og bygge sin egen strukturerte forståelse av hva reglene for systemet er. For eksempel, ved å lese tusen bøker vil den lære den relative plasseringen av ord og ideer om grammatisk struktur uten at noen forteller den hva objekter eller artikler eller kommaer er - den fikk det ved å trekke slutninger fra mange eksempler.

Dette føles intuitivt mer som hvordan folk lærer, noe som er en del av hvorfor forskere liker det. Men modellene har fortsatt en tendens til å være enkeltmodale, og alt arbeidet du gjør for å sette opp et semi-overvåket læringssystem for talegjenkjenning vil ikke gjelde i det hele tatt for bildeanalyse – de er rett og slett for forskjellige. Det er der Facebook/Metas siste forskning, den fengende navngitte data2vec, kommer inn.

Ideen med data2vec var å bygge et AI-rammeverk som ville lære på en mer abstrakt måte, noe som betyr at du fra bunnen av kunne gi den bøker å lese eller bilder å skanne eller tale for å høres ut, og etter litt trening ville den lære noen av disse tingene. Det er litt som å starte med et enkelt frø, men avhengig av hvilken plantefôr du gir det, vokser det til en påskelilje, stemorsblomst eller tulipan.

Testing av data2vec etter å ha latt den trene på ulike datakorpi viste at den var konkurransedyktig med og til og med utkonkurrerte dedikerte modeller av samme størrelse for den modaliteten. (Det vil si at hvis modellene alle er begrenset til å være 100 megabyte, gjorde data2vec det bedre - spesialiserte modeller vil sannsynligvis fortsatt overgå det etter hvert som de vokser.)

"Kjernen i denne tilnærmingen er å lære mer generelt: AI skal kunne lære å gjøre mange forskjellige oppgaver, inkludert de som er helt ukjente," skrev teamet i et blogginnlegg. "Vi håper også data2vec vil bringe oss nærmere en verden der datamaskiner trenger svært lite merket data for å utføre oppgaver."

"Folk opplever verden gjennom en kombinasjon av syn, lyd og ord, og systemer som dette kan en dag forstå verden slik vi gjør," kommenterte administrerende direktør Mark Zuckerberg om forskningen.

Dette er fortsatt forskning på tidlig stadium, så ikke forvent at den sagnomsuste "generelle AI" plutselig dukker opp - men å ha en AI som har en generalisert læringsstruktur som fungerer med en rekke domener og datatyper virker som en bedre, mer elegant løsning enn det fragmenterte settet med mikrointelligens vi klarer oss med i dag.

Koden for data2vec er åpen kildekode; den og noen forhåndstrente modeller er tilgjengelig her.

Kilde: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-written-or-spoken-materials/

Tidstempel:

Mer fra TechCrunch