Datorseende tum mot "sunt förnuft" med Facebooks senaste forskning

Återutgiven av Platon

anhängare: 0

Maskininlärning kan göra alla möjliga saker så länge du har data för att lära det hur. Det är inte alltid lätt, och forskare letar alltid efter ett sätt att lägga till lite "sunt förnuft" till AI så att du inte behöver visa den 500 bilder av en katt innan den får den. Facebooks senaste forskning tar ett stort steg mot att minska dataflaskhalsen.

Företagets formidabla AI-forskningsavdelning har arbetat i flera år nu med hur man kan avancera och skala saker som avancerade datorseendealgoritmer, och har gjort stadiga framsteg, vanligtvis delade med resten av forskarsamhället. En intressant utveckling som Facebook har eftersträvat är det som kallas "semi-övervakat lärande".

Generellt när du tänker på att träna en AI, tänker du på något i stil med de ovannämnda 500 bilderna av katter – bilder som har valts ut och märkts (vilket kan betyda att man skisserar katten, sätter en ruta runt katten eller bara säger att det finns en katt där inne någonstans) så att maskininlärningssystemet kan sätta ihop en algoritm för att automatisera processen för kattigenkänning. Naturligtvis om du vill göra hundar eller hästar behöver du 500 hundbilder, 500 hästbilder etc. — det skalar linjärt, vilket är ett ord du aldrig vill se inom teknik.

Halvövervakat lärande, relaterat till "oövervakat" lärande, innebär att man räknar ut viktiga delar av en datamängd utan några märkta data alls. Det går inte bara vilt, det finns fortfarande struktur; föreställ dig till exempel att du ger systemet tusen meningar att studera och sedan visade det 10 till som saknar flera av orden. Systemet skulle förmodligen kunna göra ett anständigt jobb med att fylla i tomrummen bara baserat på vad det har sett under de föregående tusen. Men det är inte så lätt att göra med bilder och video – de är inte lika enkla eller förutsägbara.

Men Facebook-forskare har visat att även om det kanske inte är lätt, är det möjligt och faktiskt mycket effektivt. DINO-systemet (som står ganska föga övertygande för "DEstillation av kunskap med NO-etiketter") kan lära sig att hitta föremål av intresse i videor av människor, djur och föremål ganska bra utan någon som helst märkt data.

Animation som visar fyra videor och AI-tolkningen av objekten i dem.

Bild Högskolepoäng: Facebook

Den gör detta genom att betrakta videon inte som en sekvens av bilder som ska analyseras en efter en i ordning, utan som en komplex, sammanhängande uppsättning, som skillnaden mellan "en serie ord" och "en mening". Genom att titta på mitten och slutet av videon såväl som början kan agenten få en känsla av saker som "ett föremål med denna allmänna form går från vänster till höger." Den informationen matas in i annan kunskap, som när ett objekt till höger överlappar det första, så vet systemet att de inte är samma sak, bara att röra i dessa ramar. Och den kunskapen kan i sin tur appliceras på andra situationer. Med andra ord utvecklar den en grundläggande känsla av visuell mening, och gör det med anmärkningsvärt lite träning på nya föremål.

Detta resulterar i ett datorseendesystem som inte bara är effektivt - det presterar bra jämfört med traditionellt tränade system - utan mer relaterbart och förklarligt. Till exempel, medan en AI som har tränats med 500 hundbilder och 500 kattbilder kommer att känna igen båda, kommer den inte att ha någon aning om att de är lika på något sätt. Men DINO - även om det inte kunde vara specifikt - får att de liknar varandra visuellt, mer i alla fall än de är för bilar, och att metadata och sammanhang är synliga i dess minne. Hundar och katter är "närmare" i sitt slags digitala kognitiva utrymme än hundar och berg. Du kan se dessa begrepp som små blobbar här - se hur de av en typ håller ihop:

Animerat diagram som visar hur begrepp i maskininlärningsmodellen håller sig nära varandra.

Bild Högskolepoäng: Facebook

Detta har sina egna fördelar, av en teknisk sort som vi inte kommer in på här. Om du är nyfiken, det finns mer detaljer i tidningarna som länkas till Facebooks blogginlägg.

Det finns också ett angränsande forskningsprojekt, en träningsmetod som kallas PAWS, som ytterligare minskar behovet av märkt data. PAWS kombinerar några av idéerna med semi-övervakat lärande med den mer traditionella övervakade metoden, vilket i huvudsak ger utbildningen ett uppsving genom att låta den lära sig av både märkta och omärkta data.

Facebook behöver förstås bra och snabb bildanalys för sina många användarvända (och hemliga) bildrelaterade produkter, men dessa allmänna framsteg till datorseendevärlden kommer utan tvekan att välkomnas av utvecklargemenskapen för andra ändamål.

Källa: https://techcrunch.com/2021/04/30/computer-vision-inches-towards-common-sense-with-facebooks-latest-research/

Tidsstämpel: 30 april 2021