Razpakiranje "črne skrinjice" za izdelavo boljših modelov AI

Razpakiranje "črne skrinjice" za izdelavo boljših modelov AI

Izvorno vozlišče: 1885922

Ko so modeli globokega učenja uporabljeni v resničnem svetu, morda za odkrivanje finančnih goljufij pri dejavnostih s kreditnimi karticami ali za prepoznavanje raka na medicinskih slikah, so pogosto sposobni prekašati ljudi.

Toda kaj točno se učijo ti modeli globokega učenja? Ali se model, usposobljen za odkrivanje kožnega raka na kliničnih slikah, na primer, dejansko nauči barv in tekstur rakastega tkiva ali pa označuje nekatere druge značilnosti ali vzorce?

Ti zmogljivi modeli strojnega učenja običajno temeljijo na umetne nevronske mreže ki ima lahko na milijone vozlišč, ki obdelujejo podatke za napovedovanje. Zaradi njihove zapletenosti raziskovalci te modele pogosto imenujejo "črne skrinjice", saj tudi znanstveniki, ki jih izdelujejo, ne razumejo vsega, kar se dogaja pod pokrovom.

Stefanie Jegelka ni zadovoljna s to razlago "črne skrinjice". Novopečeni izredni profesor na Oddelku za elektrotehniko in računalništvo MIT, Jegelka se poglablja v poglobljeno učenje, da bi razumel, kaj se lahko ti modeli naučijo in kako se obnašajo ter kako v te modele vgraditi določene predhodne informacije.

»Na koncu dneva je odvisno od toliko dejavnikov, kaj se bo model poglobljenega učenja naučil. Toda razumevanje, ki je relevantno v praksi, nam bo pomagalo oblikovati boljše modele in tudi razumeti, kaj se dogaja v njih, da bomo vedeli, kdaj lahko uvedemo model in kdaj ne. To je ključnega pomena,« pravi Jegelka, ki je tudi član Laboratorija za računalništvo in umetno inteligenco (CSAIL) in Inštituta za podatke, sisteme in družbo (IDSS).

Jegelka še posebej zanima optimizacija modelov strojnega učenja, ko so vhodni podatki v obliki grafov. Podatki grafov predstavljajo posebne izzive: informacije v podatkih so na primer sestavljene iz informacij o posameznih vozliščih in robovih ter strukture – kaj je s čim povezano. Poleg tega imajo grafi matematične simetrije, ki jih mora model strojnega učenja upoštevati, tako da na primer isti graf vedno vodi do iste napovedi. Vgradnja takšnih simetrij v model strojnega učenja običajno ni enostavna.

Vzemimo na primer molekule. Molekule lahko predstavimo kot grafe z vozlišči, ki ustrezajo atomom, in robovi, ki ustrezajo kemičnim vezem med njimi. Farmacevtska podjetja bodo morda želela uporabiti globoko učenje za hitro napovedovanje lastnosti številnih molekul in tako zmanjšati število, ki ga morajo fizično testirati v laboratoriju.

Jegelka preučuje metode za izgradnjo matematičnih modelov strojnega učenja, ki lahko učinkovito vzamejo podatke grafov kot vhod in izhodijo nekaj drugega, v tem primeru napoved kemijskih lastnosti molekule. To je še posebej zahtevno, saj lastnosti molekule ne določajo samo atomi v njej, ampak tudi povezave med njimi.  

Drugi primeri strojnega učenja na grafih vključujejo usmerjanje prometa, načrtovanje čipov in sisteme priporočil.

Oblikovanje teh modelov je še težje zaradi dejstva, da se podatki, uporabljeni za njihovo usposabljanje, pogosto razlikujejo od podatkov, ki jih modeli vidijo v praksi. Morda je bil model usposobljen z uporabo majhnih molekularnih grafov ali prometnih omrežij, vendar so grafi, ki jih vidi, ko je nameščen, večji ali bolj zapleteni.

Česa lahko v tem primeru raziskovalci pričakujejo, da se bo ta model naučil, in ali bo še vedno deloval v praksi, če so podatki iz resničnega sveta drugačni?

»Vaš model se ne bo mogel naučiti vsega zaradi nekaterih težav s trdoto v računalništvu, a kaj se lahko naučite in česa ne, je odvisno od tega, kako nastavite model,« pravi Jegelka.

K temu vprašanju pristopa tako, da svojo strast do algoritmov in diskretne matematike združi z navdušenjem nad strojnim učenjem.

Od metuljev do bioinformatike

Jegelka je odraščala v majhnem mestu v Nemčiji in se za znanost začela zanimati že kot srednješolka; podporni učitelj jo je spodbudil, da se je udeležila mednarodnega naravoslovnega tekmovanja. Ona in njeni soigralci iz ZDA in Singapurja so prejeli nagrado za spletno stran, ki so jo ustvarili o metuljih v treh jezikih.

»Za naš projekt smo posneli slike kril z vrstičnim elektronskim mikroskopom na lokalni univerzi uporabnih znanosti. Pri Mercedes Benzu sem dobil tudi priložnost uporabiti visokohitrostno kamero – ta kamera je običajno snemala motorje z notranjim izgorevanjem –, s katero sem posnel počasen videoposnetek gibanja metuljevih kril. Takrat sem prvič zares prišla v stik z znanostjo in raziskovanjem,« se spominja.

Ker sta ga zanimali biologija in matematika, se je Jegelka odločil za študij bioinformatike na Univerzi v Tübingenu in Univerzi v Teksasu v Austinu. Imela je nekaj priložnosti za izvajanje raziskav kot dodiplomska študentka, vključno s pripravništvom na področju računalniške nevroznanosti na univerzi Georgetown, vendar ni bila prepričana, kateri karieri naj sledi.

Ko se je vrnila v zadnji letnik fakultete, se je Jegelka preselila k dvema sostanovalcema, ki sta delala kot raziskovalca na inštitutu Maxa Plancka v Tübingenu.

»Delali so na strojnem učenju in to se mi je zdelo zelo kul. Moral sem napisati diplomsko nalogo, zato sem na inštitutu vprašal, ali imajo projekt zame. Začel sem se ukvarjati s strojnim učenjem na Inštitutu Max Planck in to mi je bilo všeč. Tam sem se toliko naučila in bil je odličen kraj za raziskovanje,« pravi.

Ostala je na Inštitutu Max Planck, da bi dokončala magistrsko nalogo, nato pa se je lotila doktorskega študija strojnega učenja na Inštitutu Max Planck in Švicarskem zveznem inštitutu za tehnologijo..

Med doktoratom je raziskovala, kako lahko koncepti iz diskretne matematike pomagajo izboljšati tehnike strojnega učenja.

Učenje modelov za učenje

Bolj ko se je Jegelka učila o strojnem učenju, bolj so jo zanimali izzivi razumevanja, kako se modeli obnašajo, in kako to vedenje usmerjati.

»S strojnim učenjem lahko naredite veliko, vendar le, če imate pravi model in podatke. Ne gre le za črno skrinjico, kjer jo vržete v podatke in deluje. Pravzaprav morate razmišljati o njem, njegovih lastnostih in o tem, kaj želite, da se model nauči in počne,« pravi.

Po končanem podoktorskem študiju na kalifornijski univerzi v Berkeleyju se je Jegelka navdušila nad raziskovanjem in se je odločil za kariero v akademskem svetu. Fakulteti na MIT se je pridružila leta 2015 kot docentka.

»Pri MIT mi je bilo od vsega začetka zelo všeč to, da ljudem res zelo mar za raziskave in ustvarjalnost. To je tisto, kar najbolj cenim pri MIT. Tukajšnji ljudje resnično cenijo izvirnost in globino raziskovanja,« pravi.

Ta osredotočenost na ustvarjalnost je Jegelki omogočila raziskovanje širokega spektra tem.

V sodelovanju z drugimi profesorji na MIT preučuje aplikacije strojnega učenja v biologiji, slikanju, računalniškem vidu in znanosti o materialih.

Toda tisto, kar resnično poganja Jegelko, je raziskovanje osnov strojnega učenja in nazadnje vprašanje robustnosti. Pogosto se model dobro obnese na podatkih za usposabljanje, vendar se njegova zmogljivost poslabša, ko je razporejen na nekoliko drugačnih podatkih. Vgradnja predznanja v model lahko naredi bolj zanesljivega, vendar razumevanje, katere informacije potrebuje model, da bo uspešen in kako ga vgraditi, ni tako preprosto, pravi.

Raziskuje tudi metode za izboljšanje učinkovitosti modelov strojnega učenja za klasifikacijo slik.

Modeli za klasifikacijo slik so povsod, od sistemov za prepoznavanje obrazov na mobilnih telefonih do orodij, ki prepoznajo lažne račune na družbenih medijih. Ti modeli potrebujejo ogromne količine podatkov za usposabljanje, a ker je za ljudi drago ročno označevanje milijonov slik, raziskovalci namesto tega pogosto uporabljajo neoznačene nize podatkov za predhodno usposabljanje modelov.

Ti modeli nato znova uporabijo predstavitve, ki so se jih naučili, ko jih pozneje natančno prilagodijo za določeno nalogo.

V idealnem primeru raziskovalci želijo, da se model nauči čim več med predusposabljanjem, tako da lahko to znanje uporabi pri svoji nadaljnji nalogi. Toda v praksi se ti modeli pogosto naučijo le nekaj preprostih povezav - na primer, da ima ena slika sonce, druga pa senco - in uporabljajo te "bližnjice" za razvrščanje slik.

»Pokazali smo, da je to problem pri 'kontrastivnem učenju', ki je standardna tehnika za predusposabljanje, tako teoretično kot empirično. Pokazali pa smo tudi, da lahko vplivate na vrste informacij, ki se jih bo model naučil predstavljati, tako da spremenite vrste podatkov, ki jih prikažete modelu. To je en korak k razumevanju, kaj bodo modeli dejansko počeli v praksi,« pravi.

Raziskovalci še vedno ne razumejo vsega, kar se dogaja znotraj modela globokega učenja, ali podrobnosti o tem, kako lahko vplivajo na to, kaj se model nauči in kako se obnaša, vendar se Jegelka veseli nadaljnjega raziskovanja teh tem.

»Pogosto pri strojnem učenju vidimo, da se nekaj dogaja v praksi, in to poskušamo teoretično razumeti. To je velik izziv. Želite zgraditi razumevanje, ki se ujema s tem, kar vidite v praksi, da boste lahko boljši. Še vedno smo šele na začetku razumevanja tega,« pravi.

Zunaj laboratorija je Jegelka oboževalec glasbe, umetnosti, potovanj in kolesarjenja. A te dni večino prostega časa rada preživi s svojo predšolsko hčerko.

<!–
->

Časovni žig:

Več od Svetovalci v verigi blokov