Nolla-shot Learning, selitetty

Julkaissut Platon

seuraajia: 0

Nolla-shot Learning, selitetty
Bruce Warrington Unsplashin kautta

Syy siihen, miksi koneoppimismalleista yleensä on tulossa älykkäämpiä, johtuu niiden riippuvuudesta käyttää merkittyjä tietoja kahden samanlaisen objektin erottamiseen.

Kuitenkin ilman näitä merkittyjä tietojoukkoja kohtaat suuria esteitä luodessasi tehokkainta ja luotettavinta koneoppimismallia. Merkityt tietojoukot mallin koulutusvaiheessa ovat tärkeitä.

Syväoppimista on käytetty laajalti tehtävien, kuten tietokonenäön, ratkaisemiseen ohjatun oppimisen avulla. Kuitenkin, kuten moniin asioihin elämässä, siihen liittyy rajoituksia. Valvottu luokittelu edellyttää suurta määrää ja laatua merkittyjä harjoitustietoja, jotta voidaan tuottaa vankka malli. Tämä tarkoittaa, että luokittelumalli ei pysty käsittelemään näkymättömiä luokkia.

Ja me kaikki tiedämme, kuinka paljon laskentatehoa, uudelleenkoulutusta, aikaa ja rahaa vaatii syvän oppimismallin kouluttaminen.

Mutta pystyykö malli silti erottamaan kaksi kohdetta käyttämättä harjoitusdataa? Kyllä, sitä kutsutaan nolla-oppimiseksi. Nolla-oppiminen on mallin kykyä suorittaa tehtävä ilman koulutusesimerkkejä.

Ihminen pystyy luonnollisesti oppimaan nollasta ilman paljon vaivaa. Aivomme tallentavat jo sanakirjoja ja antavat meille mahdollisuuden erottaa esineitä tarkastelemalla niiden fyysisiä ominaisuuksia nykyisen tietopohjamme ansiosta. Voimme käyttää tätä tietokantaa nähdäksemme yhtäläisyyksiä ja eroja esineiden välillä ja löytääksemme linkin niiden välillä.

Oletetaan esimerkiksi, että yritämme rakentaa luokitusmallia eläinlajeille. Mukaan OurWorldInData, 2.13 miljoonaa lajia laskettiin vuonna 2021. Siksi, jos haluamme luoda tehokkaimman luokitusmallin eläinlajeille, tarvitsisimme 2.13 miljoonaa eri luokkaa. Myös dataa tarvitaan paljon. Suuren määrän ja laadukkaan tiedon saaminen on vaikeaa.

Joten miten nollasta oppiminen ratkaisee tämän ongelman?

Koska zero-shot-oppiminen ei edellytä, että malli on oppinut harjoitusdataa ja luokkien luokittelua, se antaa meille mahdollisuuden luottaa vähemmän mallin leimattujen tietojen tarpeeseen.

Tietojesi tulee koostua seuraavasta, jotta voit jatkaa nolla-oppimista.

Nähty luokat

Tämä koostuu tietoluokista, joita on aiemmin käytetty mallin kouluttamiseen.

Näkemättömät luokat

Tämä koostuu dataluokista, joita EI ole käytetty mallin kouluttamiseen ja uusi nolla-oppimismalli yleistyy.

Aputiedot

Koska näkymättömien luokkien dataa ei ole merkitty, nolla-oppiminen vaatii aputietoja oppiakseen ja löytääkseen korrelaatioita, linkkejä ja ominaisuuksia. Tämä voi olla sanan upotusten, kuvausten ja semanttisten tietojen muodossa.

Nollakohtaiset oppimismenetelmät

Nolla-oppimista käytetään tyypillisesti:

Luokittelijapohjaiset menetelmät
Instanssipohjaiset menetelmät

harjoittelupaikkoja

Zero-shot-oppimista käytetään mallien rakentamiseen luokille, jotka eivät harjoittele merkittyjen tietojen avulla, joten se vaatii seuraavat kaksi vaihetta:

1. koulutus

Koulutusvaihe on oppimismenetelmän prosessi, jossa yritetään saada mahdollisimman paljon tietoa datan ominaisuuksista. Voimme nähdä tämän oppimisvaiheena.

2. Päätelmä

Päättelyvaiheessa kaikkea koulutusvaiheesta opittua tietoa sovelletaan ja hyödynnetään esimerkkien luokittelemiseksi uuteen luokkasarjaan. Voimme nähdä tämän ennusteiden tekemisen vaiheena.

Miten se toimii?

Nähtyjen luokkien tieto siirretään näkymättömiin luokkiin korkeadimensionaalisessa vektoriavaruudessa; tätä kutsutaan semanttiseksi tilaksi. Esimerkiksi kuvien luokittelussa semanttinen tila yhdessä kuvan kanssa käy läpi kaksi vaihetta:

1. Yhteinen upotustila

Tähän heijastetaan semanttiset vektorit ja visuaalisen piirteen vektorit.

2. Suurin samankaltaisuus

Täällä ominaisuudet verrataan ennennäkemättömän luokan ominaisuuksiin.

Auttaaksemme ymmärtämään kahden vaiheen (koulutus ja päättely) prosessia, sovelletaan niitä kuvien luokittelussa.

koulutus

Nolla-shot Learning, selitetty
Jari Hytönen Unsplashin kautta

Ihmisenä, jos lukisit yllä olevan kuvan oikealla olevan tekstin, olettaisit heti, että ruskeassa korissa on 4 kissanpentua. Mutta oletetaan, että sinulla ei ole aavistustakaan, mikä "kissanpentu" on. Oletat, että siellä on ruskea kori, jonka sisällä on 4 asiaa, joita kutsutaan "pennuiksi". Kun löydät enemmän kuvia, jotka sisältävät jotain, joka näyttää "kissanpennulta", pystyt erottamaan "kissanpennun" muista eläimistä.

Näin käy, kun käytät Kontrastiivinen kielikuvan esikoulutus (CLIP) OpenAI:lta kuvien luokittelun nollakuvan oppimiseen. Se tunnetaan apuinformaationa.

Saatat ajatella, että "se on vain merkittyä dataa". Ymmärrän, miksi luulet niin, mutta he eivät ole. Apuinformaatio ei ole datan nimilappuja, vaan se on eräänlainen ohjaus, joka auttaa mallia oppimaan koulutusvaiheessa.

Kun zero-shot-oppimismalli näkee riittävän määrän kuva-teksti-pareja, se pystyy erottamaan ja ymmärtämään lauseita ja niiden korrelaatiota kuvien tiettyjen kuvioiden kanssa. Käyttämällä CLIP-tekniikkaa "kontrastiivinen oppiminen" nolla-shot-oppimismalli on kyennyt keräämään hyvän tietopohjan luokittelutehtävien ennustamiseen.

Tämä on yhteenveto CLIP-lähestymistavasta, jossa he harjoittelevat kuvakooderia ja tekstienkooderia yhdessä ennustaakseen (kuva, teksti) opetusesimerkkierän oikeat pariliitokset. Katso alla oleva kuva:

Nolla-shot Learning, selitetty
Siirrettävien visuaalisten mallien oppiminen luonnollisen kielen valvonnasta

Päättely

Kun malli on käynyt läpi koulutusvaiheen, sillä on hyvä tietopohja kuva-teksti-pariliitosta ja sitä voidaan nyt käyttää ennustamiseen. Mutta ennen kuin voimme ryhtyä tekemään ennusteita, meidän on määritettävä luokittelutehtävä luomalla luettelo kaikista mahdollisista merkinnöistä, jotka malli voi tuottaa.

Esimerkiksi eläinlajien kuvien luokittelutehtävässä pitäytyessä tarvitsemme luettelon kaikista eläinlajeista. Jokainen näistä tarroista koodataan, T? T:lle? käyttämällä esiopetettua tekstienkooderia, joka tapahtui harjoitusvaiheessa.

Kun tarrat on koodattu, voimme syöttää kuvia valmiiksi koulutetun kuvakooderin kautta. Käytämme etäisyysmetriikan kosinin samankaltaisuutta laskeaksemme yhtäläisyydet kuvakoodauksen ja kunkin tekstitunnisteen koodauksen välillä.

Kuvan luokitus tehdään kuvan kanssa eniten samankaltaisen etiketin perusteella. Ja näin saavutetaan nollakuvausoppiminen, erityisesti kuvien luokittelussa.

Tietojen niukkuus

Kuten aiemmin mainittiin, suuria määriä ja laadukkaita tietoja on vaikea saada käsiisi. Toisin kuin ihmisillä, joilla on jo nolla-oppimiskyky, koneet tarvitsevat syötettäviä merkittyjä tietoja oppiakseen ja pystyäkseen sopeutumaan luonnossa esiintyviin vaihteluihin.

Jos katsomme esimerkkiä eläinlajeista, niitä oli niin paljon. Ja koska luokkien määrä kasvaa jatkuvasti eri aloilla, vaatii paljon työtä pysyäksesi mukana annotoidun tiedon keräämisessä.

Tämän seurauksena nolla-oppimisesta on tullut meille arvokkaampaa. Yhä useammat tutkijat ovat kiinnostuneita automaattisesta attribuuttien tunnistamisesta kompensoimaan saatavilla olevan tiedon puutetta.

Tietojen merkinnät

Toinen zero-shot-oppimisen etu on sen datamerkintäominaisuudet. Tietojen merkitseminen voi olla työlästä ja erittäin työlästä, minkä vuoksi se voi johtaa virheisiin prosessin aikana. Tietojen merkitseminen vaatii asiantuntijoita, kuten lääketieteen ammattilaisia, jotka työskentelevät biolääketieteellisen tietojoukon parissa, mikä on erittäin kallista ja aikaa vievää.

Zero-shot-oppimisesta on tulossa suositumpaa edellä mainittujen datarajoitusten vuoksi. Suosittelen lukemaan muutaman artikkelin, jos olet kiinnostunut sen kyvyistä:

Nisha Arya on datatieteilijä ja freelance-tekninen kirjoittaja. Hän on erityisen kiinnostunut tarjoamaan datatieteen uraneuvoja tai opetusohjelmia ja teoriapohjaista tietoa datatieteestä. Hän haluaa myös tutkia erilaisia tapoja, joilla tekoäly on/voi edistää ihmiselämän pitkää ikää. Innokas oppija, joka haluaa laajentaa teknisiä tietojaan ja kirjoitustaitojaan, samalla kun hän auttaa opastamaan muita.