Computer vision tommer mod 'sund fornuft' med Facebooks seneste forskning

Kildeknude: 846161

Maskinlæring er i stand til at gøre alle mulige ting, så længe du har data til at lære det hvordan. Det er ikke altid nemt, og forskere leder altid efter en måde at tilføje en smule "sund fornuft" til AI, så du ikke behøver at vise den 500 billeder af en kat, før den får den. Facebooks nyeste forskning tager et stort skridt i retning af at reducere dataflaskehalsen.

Virksomhedens formidable AI-forskningsafdeling har arbejdet i årevis på, hvordan man kan avancere og skalere ting som avancerede computervisionsalgoritmer, og har gjort konstante fremskridt, generelt delt med resten af ​​forskersamfundet. En interessant udvikling, som Facebook især har forfulgt, er det, der kaldes "semi-supervised learning."

Generelt, når du tænker på at træne en AI, tænker du på noget i retning af de førnævnte 500 billeder af katte - billeder, der er blevet udvalgt og mærket (hvilket kan betyde, at man skitserer katten, sætter en boks rundt om katten eller bare siger, at der er en kat derinde et sted), så maskinlæringssystemet kan sammensætte en algoritme til at automatisere processen med kattegenkendelse. Naturligvis, hvis du vil lave hunde eller heste, skal du bruge 500 hundebilleder, 500 hestebilleder osv. - det skalerer lineært, hvilket er et ord, du aldrig ønsker at se i tech.

Semi-superviseret læring, relateret til "ikke-superviseret" læring, involverer at finde ud af vigtige dele af et datasæt uden nogen mærkede data overhovedet. Det går ikke bare vildt, der er stadig struktur; Forestil dig for eksempel, at du giver systemet tusind sætninger at studere, og så viste det 10 mere, hvor der mangler flere af ordene. Systemet kunne sandsynligvis gøre et anstændigt stykke arbejde med at udfylde de tomme felter bare baseret på, hvad det er set i de foregående tusinde. Men det er ikke så let at gøre med billeder og video - de er ikke ligetil eller forudsigelige.

Men Facebook-forskere har vist, at selvom det måske ikke er nemt, så er det muligt og faktisk meget effektivt. DINO-systemet (som står temmelig overbevisende for "DIstillation of knowledge with NO labels") er i stand til at lære at finde genstande af interesse i videoer af mennesker, dyr og genstande ganske godt uden nogen som helst mærkede data.

Animation, der viser fire videoer og AI-fortolkningen af ​​objekterne i dem.

Billedkreditter: Facebook

Det gør den ved at betragte videoen ikke som en sekvens af billeder, der skal analyseres et efter et i rækkefølge, men som et komplekst, indbyrdes forbundne sæt, som forskellen mellem "en række ord" og "en sætning." Ved at tage hensyn til midten og slutningen af ​​videoen såvel som begyndelsen, kan agenten få en fornemmelse af ting som "et objekt med denne generelle form går fra venstre mod højre." Den information feeds ind i anden viden, som når et objekt til højre overlapper med det første, ved systemet, at det ikke er det samme, bare rører i disse rammer. Og den viden kan igen anvendes i andre situationer. Med andre ord udvikler den en grundlæggende følelse af visuel betydning og gør det med bemærkelsesværdigt lidt træning på nye objekter.

Dette resulterer i et computervisionssystem, der ikke kun er effektivt - det fungerer godt sammenlignet med traditionelt trænede systemer - men mere relateret og forklareligt. For eksempel, mens en AI, der er blevet trænet med 500 hundebilleder og 500 kattebilleder, vil genkende begge, vil den ikke rigtig have nogen idé om, at de ligner hinanden på nogen måde. Men DINO - selvom det ikke kunne være specifikt - får, at de visuelt ligner hinanden, mere end de er for biler, og at metadata og kontekst er synlige i dens hukommelse. Hunde og katte er "tættere" i deres slags digitale kognitive rum end hunde og bjerge. Du kan se disse begreber som små klatter her - se, hvordan de af en type hænger sammen:

Animeret diagram, der viser, hvordan begreber i maskinlæringsmodellen forbliver tæt sammen.

Billedkreditter: Facebook

Dette har sine egne fordele, af en teknisk art, som vi ikke vil komme ind på her. Hvis du er nysgerrig, er der flere detaljer i de aviser, der er linket til i Facebooks blogindlæg.

Der er også et tilstødende forskningsprojekt, en træningsmetode kaldet PAWS, som yderligere reducerer behovet for mærkede data. PAWS kombinerer nogle af ideerne om semi-superviseret læring med den mere traditionelle superviserede metode, hvilket i det væsentlige giver træningen et løft ved at lade den lære af både de mærkede og umærkede data.

Facebook har selvfølgelig brug for god og hurtig billedanalyse for sine mange brugervendte (og hemmelige) billedrelaterede produkter, men disse generelle fremskridt til computervisionsverdenen vil uden tvivl blive hilst velkommen af ​​udviklerfællesskabet til andre formål.

Kilde: https://techcrunch.com/2021/04/30/computer-vision-inches-towards-common-sense-with-facebooks-latest-research/

Tidsstempel:

Mere fra TechCrunch