Metaforskare bygger en AI som lär sig lika bra från visuellt, skriftligt eller talat material

Källnod: 1590449

Framsteg inom AI-sfären kommer ständigt ut, men de tenderar att vara begränsade till en enda domän: Till exempel är en cool ny metod för att producera syntetiskt tal inte också ett sätt att känna igen uttryck i mänskliga ansikten. Meta (AKA Facebook) forskare arbetar med något lite mer mångsidigt: en AI som kan lära sig skickligt på egen hand oavsett om den gör det i talat, skriftligt eller visuellt material.

Det traditionella sättet att träna en AI-modell för att korrekt tolka något är att ge den massor och massor (som miljoner) av märkta exempel. En bild på en katt med kattdelen märkt, en konversation med högtalarna och orden transkriberade, etc. Men det tillvägagångssättet är inte längre på modet eftersom forskare fann att det inte längre var möjligt att manuellt skapa databaser med de storlekar som behövs för att träna nästa -gen AI. Vem vill märka 50 miljoner kattbilder? Okej, några personer förmodligen - men vem vill märka 50 miljoner bilder på vanliga frukter och grönsaker?

För närvarande är några av de mest lovande AI-systemen vad som kallas självövervakade: modeller som kan arbeta från stora mängder omärkt data, som böcker eller video av människor som interagerar, och bygga sin egen strukturerade förståelse för vad reglerna är för systemet. Till exempel, genom att läsa tusen böcker kommer den att lära sig de relativa positionerna för ord och idéer om grammatisk struktur utan att någon berättar för den vad objekt eller artiklar eller kommatecken är - den fick det genom att dra slutsatser från massor av exempel.

Detta känns intuitivt mer som hur människor lär sig, vilket är en del av varför forskare gillar det. Men modellerna tenderar fortfarande att vara singelmodala, och allt arbete du gör för att sätta upp ett semi-övervakat inlärningssystem för taligenkänning kommer inte att gälla alls för bildanalys – de är helt enkelt för olika. Det är där Facebook/Metas senaste forskning, den catchy namngivna data2vec, kommer in.

Tanken med data2vec var att bygga ett AI-ramverk som skulle lära sig på ett mer abstrakt sätt, vilket innebär att man från början kunde ge den böcker att läsa eller bilder att skanna eller tal för att ljuda ut, och efter lite träning skulle det lär dig någon av dessa saker. Det är lite som att börja med ett enstaka frö, men beroende på vilken växtmat du ger det växer det till en påsklilja, pensé eller tulpan.

Att testa data2vec efter att ha låtit den träna på olika datakorpi visade att den var konkurrenskraftig med och till och med överträffade dedikerade modeller av liknande storlek för den modaliteten. (Det vill säga, om modellerna alla är begränsade till att vara 100 megabyte, gick data2vec bättre — specialiserade modeller skulle förmodligen fortfarande överträffa det när de växer.)

"Kärnidén med detta tillvägagångssätt är att lära sig mer allmänt: AI bör kunna lära sig att utföra många olika uppgifter, inklusive de som är helt obekanta," skrev laget i ett blogginlägg. "Vi hoppas också att data2vec kommer att föra oss närmare en värld där datorer behöver väldigt lite märkt data för att utföra uppgifter."

"Människor upplever världen genom en kombination av syn, ljud och ord, och system som detta kan en dag förstå världen som vi gör", kommenterade vd Mark Zuckerberg om forskningen.

Detta är fortfarande forskning på ett tidigt stadium, så förvänta dig inte att den mytomspunna "allmänna AI" ska dyka upp helt plötsligt - men att ha en AI som har en generaliserad inlärningsstruktur som fungerar med en mängd olika domäner och datatyper verkar vara ett bättre, mer elegant lösning än den fragmenterade uppsättning mikrointelligenser vi klarar oss med idag.

Koden för data2vec är öppen källkod; den och några förtränade modeller finns här.

Källa: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-written-or-spoken-materials/

Tidsstämpel:

Mer från TechCrunch