Ponovno objavil Platon

Spremljevalci: 0

Odprtokodni nabori podatkov za računalniški vid

Tags: Računalniška vizija, Podatkovni nizi, open Source

Dostop do visokokakovostnih obsežnih podatkovnih nizov brez hrupa je ključnega pomena za usposabljanje kompleksnih modelov globokih nevronskih omrežij za aplikacije računalniškega vida. Številni odprtokodni nabori podatkov so razviti za uporabo pri klasifikaciji slik, oceni poze, podnapisih slik, avtonomni vožnji in segmentaciji predmetov. Ti nabori podatkov morajo biti združeni z ustrezno strojno opremo in strategijami primerjalnega preizkušanja za optimizacijo delovanja.

By Kevin Vu, Exxact Corp.

komentarji

Računalniška vizija (CV) je eno najbolj vznemirljivih podpolj znotraj domene umetne inteligence (AI) in strojnega učenja (ML). Je pomemben sestavni del številnih sodobnih cevovodov AI/ML in preoblikuje skoraj vsako industrijo ter organizacijam omogoča revolucijo v načinu delovanja strojev in poslovnih sistemov.

Akademsko je življenjepis že več desetletij dobro uveljavljeno področje računalništva in v preteklih letih je bilo na tem področju veliko raziskav, da bi ga izboljšali. Vendar pa je uporaba globokih nevronskih mrež je nedavno revolucionirala to področje in mu dal novo gorivo za pospešeno rast.

Za računalniški vid obstaja raznolika paleta področij uporabe, kot so:

Avtonomna vožnja
Medicinska slikovna analiza in diagnostika
Zaznavanje in razumevanje prizora
Samodejno ustvarjanje napisov slike
Označevanje fotografij/obrazov na družbenih omrežjih
Varnost doma
Identifikacija napak v proizvodni industriji in kontrola kakovosti

V tem članku razpravljamo o nekaterih najbolj priljubljenih in učinkovitih nizih podatkov, ki se uporabljajo na področju globokega učenja (DL) za usposabljanje najsodobnejših sistemov ML za naloge življenjepisa.

Previdno izberite prave odprtokodne nabore podatkov

Stroji za usposabljanje na slikovnih in video datotekah so a resno operacijo, ki zahteva veliko podatkov. Edinstvena slikovna datoteka je večdimenzionalna, več megabajtna digitalna entiteta, ki vsebuje le majhen delček 'vpogleda' v kontekstu celotne naloge 'inteligentne analize slike'.

Nasprotno pa lahko tabela s podatki o maloprodajni prodaji podobne velikosti omogoči veliko boljši vpogled v algoritem ML z enakimi stroški za računalniško strojno opremo. To dejstvo je vredno zapomniti, ko govorimo o obsegu podatkov in računalništva, potrebnih za sodobne CV cevovode.

Posledično v skoraj vseh primerih na stotine (ali celo tisoče) slik ni dovolj za usposabljanje visokokakovostnega modela ML za naloge življenjepisa. Skoraj vsi sodobni CV sistemi uporabljajo kompleksne arhitekture modelov DL in bodo ostali premalo opremljeni, če ne bodo opremljeni z zadostnim številom skrbno izbranih primerov usposabljanja, torej označenih slik. Zato postaja zelo pogost trend, da robustni, posploševalni, produkcijski kakovostni DL sistemi pogosto zahtevajo na milijone skrbno izbranih slik za usposabljanje.

Tudi pri video analitiki je lahko naloga izbire in sestavljanja nabora podatkov za usposabljanje bolj zapletena glede na dinamično naravo video datotek ali okvirjev, pridobljenih iz množice video tokov.

Tukaj navajamo nekaj najbolj priljubljenih (sestavljenih iz statičnih slik in video posnetkov).

Priljubljeni odprtokodni nabori podatkov za modele računalniškega vida

Vsi nabori podatkov niso enako primerni za vse vrste nalog življenjepisa. Pogoste naloge življenjepisa vključujejo:

Razvrstitev slik
Zaznavanje predmetov
Segmentacija objektov
Zapis z več predmeti
Napisi slike
Ocena človeške poze
Analiza video okvirjev

Prikazujemo seznam priljubljenih, odprtokodnih podatkovnih nizov, ki pokrivajo večino teh kategorij.

ImageNet (najbolj znan)

ImageNet je stalna raziskovalna prizadevanja, da bi raziskovalcem po vsem svetu zagotovili lahko dostopno podatkovno bazo slik. Morda je to najbolj znan nabor slikovnih podatkov tam zunaj in ga tako raziskovalci kot učenci navajajo kot zlati standard.

Ta projekt je navdihnilo vedno večje razpoloženje na področju raziskovanja podob in vizije – potreba po več podatkih. Organiziran je v skladu s hierarhijo WordNet. Vsak smiseln koncept v WordNetu, ki je morda opisan z več besedami ali besednimi besednimi zvezami, se imenuje "nabor sinonimov" ali "synset". V WordNetu je več kot 100,000 sinsetov. Podobno želi ImageNet zagotoviti v povprečju 1000 slik za ponazoritev vsakega sinseta.

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) je globalno letno tekmovanje, ki ocenjuje algoritme (ki jih predložijo skupine univerzitetnih ali korporativnih raziskovalnih skupin) za odkrivanje predmetov in razvrščanje slik v velikem obsegu. Ena motivacija na visoki ravni je omogočiti raziskovalcem, da primerjajo napredek pri odkrivanju pri širšem naboru predmetov – pri čemer izkoristijo precej drago prizadevanje za označevanje. Druga motivacija je merjenje napredka računalniškega vida za obsežno indeksiranje slik za iskanje in beleženje. To je eno najbolj omenjenih letnih tekmovanj na celotnem področju strojnega učenja.

CIFAR-10 (za začetnike)

To je zbirka slik ki jih začetniki na tem področju običajno uporabljajo za usposabljanje algoritmov strojnega učenja in računalniškega vida. Je tudi eden najbolj priljubljenih naborov podatkov za raziskave strojnega učenja hitra primerjava algoritmov saj zajame šibkost in moč določene arhitekture, ne da bi pri tem obremenil proces usposabljanja in hiperparametrov.

Vsebuje 60,000 barvnih slik velikosti 32×32 v 10 različnih razredih. Razredi predstavljajo letala, avtomobile, ptice, mačke, jelene, pse, žabe, konje, ladje in tovornjake.

MegaFace in LFW (prepoznavanje obrazov)

Označeni obrazi v naravi (LFW) je zbirka podatkov obraznih fotografij, namenjena preučevanje problema neomejenega prepoznavanja obrazov. Vsebuje 13,233 slik 5,749 ljudi, postrganih in odkritih s spleta. Kot dodaten izziv lahko raziskovalci ML uporabijo slike za 1,680 ljudi, ki imajo v naboru podatkov dve ali več različnih fotografij. Posledično je to javno merilo uspešnosti za preverjanje obraza, znano tudi kot ujemanje parov (zahteva vsaj dve sliki iste osebe).

MegaFace je obsežen odprtokodni nabor podatkov za usposabljanje za prepoznavanje obrazov, ki služi kot eno najpomembnejših meril za komercialne težave s prepoznavanjem obrazov. Vključuje 4,753,320 obrazov 672,057 identitet in je zelo primeren za veliko usposabljanje arhitekture DL. Vse slike so pridobljene s Flickra (Yahoojev nabor podatkov) in licencirane pod Creative Commons.

IMDB-Wiki (identifikacija spola in starosti)

IMDB-Wiki je ena izmed največji in odprtokodni nizi podatkov slik obraza z oznakami spola in starosti za usposabljanje. Skupno je v tem naboru podatkov 523,051 slik obraza, kjer je 460,723 slik obraza pridobljenih od 20,284 slavnih osebnosti iz IMDB in 62,328 iz Wikipedije.

MS Coco (odkrivanje in segmentacija predmetov)

COCO oz Pogosti predmeti v kontekstu je obsežen nabor podatkov za odkrivanje, segmentacijo in podnapise objektov. Podatkovni nabor vsebuje fotografije 91 vrst predmetov, ki jih je mogoče zlahka prepoznati in ima skupno 2.5 milijona označenih primerkov v 328 slikah. Poleg tega je zagotavlja vire za bolj zapletene naloge življenjepisa, kot so označevanje več predmetov, pripisi maske segmentacije, podnapisi slik in zaznavanje ključnih točk. Dobro je podprt z intuitivnim API-jem, ki pomaga pri nalaganju, razčlenjevanju in vizualizaciji pripisov v COCO. API podpira več formatov pripisov.

MPII Človeška poza (ocena poze)

Ta nabor podatkov se uporablja za vrednotenje ocene artikulirane človeške poze. Vključuje približno 25 slik, ki vsebujejo več kot 40 ljudi označeni telesni sklepi. Tu je vsaka slika izvlečena iz videoposnetka v YouTubu in je opremljena s predhodnimi in naslednjimi okvirji brez opomb. Skupno nabor podatkov zajema 410 človeških dejavnosti, vsaka slika pa je opremljena z oznako dejavnosti.

Flickr-30k (podnapisi slik)

To je korpus napisov slik, sestavljen iz 158,915 napisov iz množice, ki opisujejo 31,783 slik. To je razširitev prejšnjega Nabor podatkov Flickr 8k. Nove slike in napisi se osredotočajo na ljudi, ki so vključeni v vsakodnevne dejavnosti in dogodke.

20BN-NEKAJ-NEKAJ (video posnetki človeškega delovanja)

Ta nabor podatkov je a velika zbirka gosto označenih video posnetkov tako ljudje, ki izvajajo vnaprej določena osnovna dejanja z vsakodnevnimi predmeti. Ustvarilo ga je veliko število množičnih delavcev, kar omogoča modelom ML, da razvijejo natančno razumevanje osnovnih dejanj, ki se dogajajo v fizičnem svetu.

Tukaj je podmnožica običajnih človeških dejavnosti, ki so zajete v tem naboru podatkov:

Barkley DeepDrive (za avtonomno usposabljanje v vozilu)

O Nabor podatkov Berkeley DeepDrive by UC Berkeley obsega več kot 100 video sekvenc z različnimi vrstami opomb, vključno z omejevalnimi okvirji predmetov, območji za vožnjo, označevanjem na ravni slike, oznakami pasov in segmentacijo primerkov v celotnem formatu. Poleg tega so funkcije nabora podatkov široka raznolikost pri predstavljanju različnih geografskih, okoljskih in vremenskih razmer.

To je zelo uporabno za usposabljanje robustnih modelov za avtonomna vozila, tako da je manj verjetno, da bodo presenečeni nad nenehno spreminjajočimi se razmerami na cesti in vožnji.

Ustrezna strojna oprema in primerjalno testiranje za te nabore podatkov

Ni treba posebej poudarjati, da samo te nabore podatkov ni dovolj za izgradnjo visokokakovostnega sistema ML ali poslovne rešitve. Za pridobitev optimalne rešitve za kateri koli akademski ali poslovni problem je potrebna mešanica prave izbire nabora podatkov, strojne opreme za usposabljanje ter pametne strategije prilagajanja in primerjalne analize.

Zato visoko zmogljivi grafični procesorji so skoraj vedno združeni s temi nabori podatkov, da zagotovijo želeno zmogljivost.

GPU-ji so bili razviti (predvsem za industrijo video iger) za obdelavo a velika stopnja vzporednih izračunov z uporabo na tisoče drobnih računalniških jeder. Predstavljajo tudi velika pasovna širina pomnilnika za spopadanje s hitrim pretokom podatkov (obdelovalna enota za predpomnilnik v počasnejši glavni pomnilnik in nazaj), ki je potrebna za te izračune, ko se nevronska mreža usposablja skozi stotine epoh. Zaradi tega so idealna strojna oprema obravnavati računalniško obremenitev nalog računalniškega vida.

Vendar pa je na trgu veliko izbire za grafične procesorje in to lahko zagotovo preseneti povprečnega uporabnika. Obstaja nekaj dobrih strategij primerjalnega preizkušanja, ki so bile objavljene v preteklih letih za usmerjanje bodočega kupca v zvezi s tem. Dobra vaja primerjalne analize mora upoštevati več različic (a) arhitekture globokih nevronskih omrežij (DNN), (b) GPU in (c) široko uporabljenih podatkovnih nizov (kot so tisti, o katerih smo razpravljali v prejšnjem razdelku).

Na primer to odličen članek meni naslednje:

Arhitektura: ResNet-152, ResNet-101, ResNet-50 in ResNet-18
grafični procesorji: EVGA (brez puhala) RTX 2080 ti, GIGABYTE (puhalnik) RTX 2080 tiin NVIDIA TITAN RTX
Nabori podatkov: ImageNet, CIFAR-100in CIFAR-10.

Poleg tega je treba za dobro merilo uspešnosti upoštevati več dimenzij uspešnosti.

Mere zmogljivosti, ki jih je treba upoštevati

Obstajajo trije primarni indeksi:

DRUGI ČAS: Čas je za dokončanje drugega sklopa usposabljanja. Ta številka meri zmogljivost, preden je GPU deloval dovolj dolgo, da se segreje. V bistvu ne termično dušenje.
POVPREČNI ČAS serije: povprečni čas serije po 1 epohi v ImageNet ali 15 obdobjih v CIFAR. Ta ukrep upošteva termično dušenje.
SOČASNI-POVPREČNI-ČAS: povprečni čas serije po 1 epohi v ImageNet ali 15 obdobjih v CIFAR-ju z vsemi grafičnimi procesorji, ki delujejo hkrati. To meri učinek toplotnega zadušitve v sistemu zaradi kombinirane toplote, ki jo oddajajo vsi grafični procesorji.

prvotni. Poročeno z dovoljenjem.

Povezano:

= Prejšnja objava

Naslednji post =>

Najboljše zgodbe preteklih 30 dni

Najbolj popularni
6 najboljših spletnih tečajev o znanosti o podatkih v letu 2021 Nasvet za učenje podatkovne znanosti od Googlovega direktorja za raziskave 3 razlogi, zakaj bi morali uporabiti modele linearne regresije namesto nevronskih omrežij GitHub Copilot odprtokodne alternative Najpogostejša vprašanja in odgovori na področju podatkovne znanosti

Najbolj v skupni rabi
Razlika med znanstveniki za podatke in inženirji ML Kako poizvedovati o podatkovnem okviru Pandas Zakaj in kako bi se morali naučiti produktivne znanosti o podatkih? 3 spremembe miselnosti, da postanete boljši analitik Ne samo za poglobljeno učenje: kako grafični procesorji pospešujejo podatkovno znanost in podatkovno analitiko