Julkaissut Platon

seuraajia: 0

Avoimen lähdekoodin tietojoukot Computer Visionille

Tunnisteet: Tietokoneen visio, aineistot, Open Source

Pääsy korkealaatuisiin, meluttomiin ja laajamittaisiin tietojoukkoihin on ratkaisevan tärkeää monimutkaisten syvän hermoverkon mallien kouluttamiselle tietokonenäön sovelluksiin. Monet avoimen lähdekoodin tietojoukot on kehitetty käytettäväksi kuvien luokittelussa, asentoestimoinnissa, kuvatekstissä, itsenäisessä ajamisessa ja objektien segmentoinnissa. Nämä tietojoukot on yhdistettävä asianmukaisiin laitteisto- ja vertailustrategioihin suorituskyvyn optimoimiseksi.

By Kevin Vu, Exxact Corp.

kommentit

Tietokoneen visio (CV) on yksi jännittävimmistä osa -alueista tekoälyn (AI) ja koneoppimisen (ML) alalla. Se on tärkeä osa monia moderneja AI/ML -putkistoja, ja se muuttaa lähes kaikkia teollisuudenaloja, jolloin organisaatiot voivat mullistaa koneiden ja liiketoimintajärjestelmien toimintatavan.

Akateemisesti CV on ollut vakiintunut tietotekniikan alue vuosikymmenien ajan, ja vuosien varrella tällä alalla on tehty paljon tutkimusta sen parantamiseksi. Kuitenkin syvien hermoverkkojen käyttö on äskettäin mullistanut alan ja antoi sille uutta polttoainetta kasvun kiihdyttämiseksi.

Tietokonenäkymälle on laaja valikoima sovellusalueita, kuten:

Autonominen ajo
Lääketieteellinen kuvantamisanalyysi ja diagnostiikka
Kohtauksen havaitseminen ja ymmärtäminen
Automaattinen kuvatekstien luominen
Valokuvien/kasvojen merkitseminen sosiaalisessa mediassa
Kodin turvallisuus
Virheiden tunnistaminen valmistusteollisuudessa ja laadunvalvonta

Tässä artikkelissa keskustelemme joistakin suosituimmista ja tehokkaimmista tietokokonaisuuksista, joita käytetään Deep Learning (DL) -alueella uusimpien ML-järjestelmien kouluttamiseen CV-tehtäviin.

Valitse oikeat avoimen lähdekoodin tietojoukot huolellisesti

Kuva- ja videotiedostojen koulutuskoneet ovat a vakavaa dataa vaativaa toimintaa. Yksittäinen kuvatiedosto on moniulotteinen, usean megatavun digitaalinen kokonaisuus, joka sisältää vain pienen osan "oivalluksesta" koko "älykkään kuvan analysointitehtävän" yhteydessä.

Sitä vastoin samankokoinen vähittäismyyntitietojen taulukko voi antaa paljon enemmän tietoa ML-algoritmista samalla kustannuksella laskentalaitteistoon. Tämä tosiasia kannattaa muistaa, kun puhutaan nykyaikaisten CV -putkilinjojen edellyttämän datan ja tietojenkäsittelyn laajuudesta.

Näin ollen lähes kaikissa tapauksissa sadat (tai jopa tuhannet) kuvat eivät riitä laadukkaan ML-mallin kouluttamiseen CV-tehtäviin. Lähes kaikki nykyaikaiset CV-järjestelmät käyttävät monimutkaisia DL-malliarkkitehtuureja, ja ne jäävät alikuntoisiksi, jos niissä ei ole riittävästi huolellisesti valittuja harjoitusesimerkkejä eli merkittyjä kuvia. Siksi siitä on tulossa erittäin yleinen suuntaus vankat, yleistettävät, tuotantolaatuiset DL-järjestelmät vaativat usein miljoonia huolella valittuja kuvia.

Lisäksi videoanalytiikan osalta harjoitustietojoukon valitseminen ja kokoaminen voi olla monimutkaisempaa, kun otetaan huomioon useista videovirroista saatujen videotiedostojen tai -kehysten dynaaminen luonne.

Tässä luetellaan joitain suosituimmista (jotka koostuvat sekä staattisista kuvista että videoleikkeistä).

Suositut avoimen lähdekoodin tietojoukot Computer Vision -malleille

Kaikki tietojoukot eivät sovi yhtä hyvin kaikenlaisiin CV -tehtäviin. Yleisiä CV -tehtäviä ovat:

Kuvaluokitus
Objektien havaitseminen
Objektien segmentointi
Usean kohteen huomautus
Kuvan tekstitys
Ihmisen asennon arviointi
Videokehyksen analytiikka

Näytämme luettelon suosituista avoimen lähdekoodin tietojoukoista, jotka kattavat suurimman osan näistä luokista.

ImageNet (tunnetuin)

IMAGEnet on jatkuva tutkimus, jonka tarkoituksena on tarjota tutkijoille ympäri maailmaa helposti saatavilla oleva tietokanta. Se on ehkä tunnetuin kuvatiedosto siellä, ja tutkijat ja oppijat lainaavat sitä kultakantaan.

Tämä projekti sai inspiraationsa jatkuvasti kasvavasta tunteesta imago- ja visio-tutkimusalalla-lisätietojen tarpeesta. Se on järjestetty WordNet -hierarkian mukaisesti. Jokaista WordNetin merkityksellistä käsitettä, jota mahdollisesti kuvataan useilla sanoilla tai sanalauseilla, kutsutaan "synonyymijoukkoksi" tai "synsetiksi". WordNetissä on yli 100,000 1000 synsettia. Samoin ImageNet pyrkii tarjoamaan keskimäärin XNUMX kuvaa havainnollistamaan kutakin synsetiä.

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) on maailmanlaajuinen vuosittainen kilpailu, jossa arvioidaan algoritmeja (yliopistojen tai yritysten tutkimusryhmien lähettämät) esineiden havaitsemiseen ja kuvien luokitteluun suuressa mittakaavassa. Yksi korkean tason motivaatio on antaa tutkijoille mahdollisuus verrata havaitsemisen edistymistä useampiin kohteisiin-hyödyntäen melko kalliita merkintöjä. Toinen motivaatio on mitata tietokoneen näkemyksen edistymistä suuren mittakaavan kuvien indeksoinnissa hakua ja merkintöjä varten. Tämä on yksi puhutuimmista vuosikilpailuista koko koneoppimisen alalla.

CIFAR-10 (aloittelijoille)

Tämä on kuvien kokoelma joita alan aloittelijat käyttävät yleisesti koneoppimisen ja tietokonenäköalgoritmien kouluttamiseen. Se on myös yksi suosituimmista aineistoista koneoppimistutkimukselle algoritmien nopea vertailu koska se kuvaa tietyn arkkitehtuurin heikkoutta ja vahvuutta asettamatta kohtuutonta laskennallista taakkaa koulutus- ja hyperparametrien viritysprosessille.

Se sisältää 60,000 32, 32 × 10 värikuvia XNUMX eri luokassa. Luokat edustavat lentokoneita, autoja, lintuja, kissoja, peuroja, koiria, sammakkoja, hevosia, aluksia ja kuorma -autoja.

MegaFace ja LFW (kasvojentunnistus)

Merkityt kasvot luonnossa (LFW) on kasvotietokanta, joka on suunniteltu rajoittamattoman kasvojentunnistuksen ongelman tutkiminen. Se sisältää 13,233 5,749 kuvaa 1,680 ihmisestä, jotka on kaavittu ja havaittu verkosta. Lisähaasteena ML -tutkijat voivat käyttää kuvia XNUMX henkilölle, joilla on kaksi tai useampia erillisiä valokuvia tietojoukossa. Näin ollen se on julkinen vertailukohta kasvojen todentamiseen, joka tunnetaan myös nimellä parien sovitus (vaatii vähintään kaksi kuvaa samasta henkilöstä).

MegaFace on laajamittainen avoimen lähdekoodin kasvojentunnistuskoulutustiedosto, joka toimii yhtenä tärkeimmistä vertailuarvoista kaupalliset kasvojentunnistusongelmat. Se sisältää 4,753,320 672,057 XNUMX kasvot XNUMX XNUMX henkilöllisyydestä ja soveltuu erittäin hyvin suuriin DL -arkkitehtuurikoulutuksiin. Kaikki kuvat on hankittu Flickristä (Yahoon tietojoukko) ja lisensoitu Creative Commonsin alla.

IMDB-Wiki (sukupuolen ja iän tunnistaminen)

IMDB-Wiki on yksi niistä suurimpia ja avoimia tietojoukkoja kasvokuvista, joissa on sukupuoli- ja ikämerkinnät koulutusta varten. Yhteensä tässä aineistossa on 523,051 460,723 kasvokuvaa, joista 20,284 62,328 kasvokuvaa saadaan XNUMX XNUMX IMDB: n julkkikselta ja XNUMX XNUMX Wikipediasta.

MS Coco (objektien tunnistus ja segmentointi)

COCO tai Yleisiä objekteja COntextissä on laajamittainen objektien havaitsemis-, segmentointi- ja tekstitysdatajoukko. Aineisto sisältää valokuvia 91 objektityypistä, jotka on helppo tunnistaa, ja siinä on yhteensä 2.5 miljoonaa merkittyä esiintymää 328 XNUMX kuvassa. Lisäksi se tarjoaa resursseja monimutkaisempiin CV-tehtäviin, kuten useiden kohteiden merkitsemiseen, segmentointimaskien merkintöihin, kuvatekstit ja avainpisteen tunnistus. Sitä tukee hyvin intuitiivinen sovellusliittymä, joka auttaa lataamaan, jäsentämään ja visualisoimaan merkintöjä COCO: ssa. Sovellusliittymä tukee useita merkintämuotoja.

MPII -ihmisen asento (pose -arvio)

Tämä tietojoukko käytetään nivelletyn ihmisasennon arvioinnin arvioimiseen. Se sisältää noin 25 40 kuvaa, joissa on yli XNUMX XNUMX ihmistä huomautetut kehon nivelet. Täällä jokainen kuva poimitaan YouTube-videosta ja siinä on edeltävät ja seuraavat merkitsemättömät kehykset. Kaiken kaikkiaan tietojoukko kattaa 410 ihmisen toimintaa, ja jokainen kuva on varustettu aktiviteettitarralla.

Flickr-30k (kuvateksti)

Se on kuvatekstikokoelma, joka koostuu 158,915 väkijoukoista peräisin olevasta kuvatekstistä, jotka kuvaavat 31,783 kuvaa. Tämä on jatkoa edelliselle Flickr 8k -tietojoukko. Uudet kuvat ja kuvatekstit keskittyvät jokapäiväisiin toimintoihin ja tapahtumiin osallistuviin ihmisiin.

20BN-JOTAINTA (videoleikkeitä ihmisen toiminnasta)

Tämä aineisto on a suuri kokoelma tiheästi merkittyjä videoleikkeitä näin ihmiset suorittavat ennalta määriteltyjä perustoimintoja jokapäiväisten esineiden kanssa. Sen loi suuri joukko väkijoukkoja, minkä ansiosta ML-mallit voivat kehittää hienorakeisen käsityksen fyysisen maailman perustoimista.

Tässä on joukko tavallisia ihmisen toimintoja, jotka on tallennettu tähän tietojoukkoon:

Barkley DeepDrive (autonomiselle ajoneuvokoulutukselle)

- Berkeleyn DeepDrive -tietojoukko UC Berkeley käsittää yli 100 XNUMX videosekvenssiä, joissa on erilaisia huomautuksia, mukaan lukien kohteen rajauslaatikot, ajettavat alueet, kuvatason koodaus, kaistamerkinnät ja koko kehyksen ilmentymän segmentointi. Lisäksi tietojoukon ominaisuudet laaja valikoima erilaisia maantieteellisiä, ympäristö- ja sääolosuhteita.

Tämä on erittäin hyödyllistä itsenäisten ajoneuvojen kestävien mallien kouluttamisessa, jotta ne eivät todennäköisesti yllättyisi jatkuvasti muuttuvista tie- ja ajo-olosuhteista.

Näiden tietojoukkojen oikea laitteisto ja vertailu

On sanomattakin selvää, että vain näiden tietojoukkojen käyttö ei riitä laadukkaan ML-järjestelmän tai liiketoimintaratkaisun rakentamiseen. Optimaalisen ratkaisun löytämiseksi kaikkiin akateemisiin tai liiketoiminnallisiin ongelmiin tarvitaan sekoitus oikeaa tietojoukon valintaa, koulutuslaitteistoa ja älykästä viritys- ja vertailustrategiaa.

Siksi korkean suorituskyvyn grafiikkasuorittimet ovat melkein aina pariksi näiden tietojoukkojen kanssa halutun suorituskyvyn aikaansaamiseksi.

Grafiikkasuorittimet kehitettiin (pääasiassa videopeliteollisuuden tarpeisiin) a suuri määrä rinnakkaisia laskelmia käyttämällä tuhansia pieniä laskentaytimiä. Niissä on myös ominaisuus suuri muistin kaistanleveys käsittelemään näihin laskelmiin tarvittavaa nopeaa datavirtaa (prosessointiyksikkö välimuistiin hitaampaan päämuistiin ja takaisin), kun hermoverkko harjoittelee satojen aikakausien läpi. Tämä tekee niistä ihanteellinen hyödykkeen laitteisto käsitellä tietokonenäkötehtävien laskentakuormaa.

Markkinoilla on kuitenkin monia vaihtoehtoja GPU: ille, ja se voi varmasti hukuttaa keskivertokäyttäjän. Vuosien aikana on julkaistu hyviä vertailustrategioita, jotka ohjaavat tulevaa ostajaa tässä suhteessa. Hyvässä vertailuanalyysissä on otettava huomioon useita eri vaihtoehtoja (a) syvän hermoverkoston (DNN) arkkitehtuuri, (b) GPU ja (c) laajalti käytetyt tietojoukot (kuten ne, joista keskustelimme edellisessä osassa).

Esimerkiksi tämä erinomainen artikkeli katsoo seuraavaa:

Arkkitehtuuri: ResNet-152, ResNet-101, ResNet-50 ja ResNet-18
GPU: EVGA (ei-puhallin) RTX 2080 ti, GIGABYTE (puhallin) RTX 2080 tija NVIDIA TITAN RTX
Aineistot: IMAGEnet, CIFAR-100ja CIFAR-10.

Lisäksi hyvä vertailuarvo on otettava huomioon useita suorituskyvyn ulottuvuuksia.

Suorituskyvyn mitat harkittavaksi

Pääindikaattoreita on kolme:

TOINEN ERÄAIKA: Aika lopettaa toinen harjoituserä. Tämä luku mittaa suorituskykyä ennen kuin grafiikkasuoritin on käynnistynyt tarpeeksi kauan kuumenemaan. Tehokkaasti, ei lämpökaasu.
KESKIMÄÄRÄINEN AIKA: Keskimääräinen eräaika 1 vaiheen jälkeen ImageNetissä tai 15 aikakautta CIFARissa. Tämä toimenpide otetaan huomioon lämpökaasu.
SAMANKERTAINEN KESKI-ERÄ-AIKA: Keskimääräinen eräaika 1 epookin jälkeen ImageNetissä tai 15 aikakautta CIFARissa kaikkien GPU: iden ollessa käynnissä samanaikaisesti. Tämä mittaa järjestelmän lämpökuristuksen vaikutusta kaikkien GPU: iden tuottaman yhdistetyn lämmön vuoksi.

Alkuperäinen. Postitettu luvalla.

Related:

= Edellinen viesti

Seuraava viesti =>

Suosituimmat tarinat viimeisen 30 päivän aikana

Suosituin
6 parasta tietojenkäsittelytieteen verkkokurssia vuonna 2021 Googlen tutkimusjohtajan neuvoja datatieteen oppimiseen 3 syytä, miksi sinun pitäisi käyttää lineaarisia regressiomalleja hermoverkkojen sijaan GitHub Copilotin avoimen lähdekoodin vaihtoehdot Yleisimmät Data Science -haastattelukysymykset ja vastaukset

Eniten jaettu
Ero datatieteilijöiden ja ML -insinöörien välillä Pandas -tietokehyksen kysely Miksi ja miten sinun pitäisi oppia "tuottava datatiede"? 3 mielentilamuutosta paremmaksi analyytikoksi Ei vain syvälliseen oppimiseen: kuinka GPU: t nopeuttavat datatiedettä ja data-analyysia