Desfacerea „cutiei negre” pentru a construi modele AI mai bune

Desfacerea „cutiei negre” pentru a construi modele AI mai bune

Nodul sursă: 1885922

Atunci când modelele de învățare profundă sunt implementate în lumea reală, poate pentru a detecta frauda financiară din activitatea cărților de credit sau pentru a identifica cancerul în imagini medicale, ele sunt adesea capabile să depășească oamenii.

Dar ce învață exact aceste modele de învățare profundă? Un model instruit să detecteze cancerul de piele în imaginile clinice, de exemplu, învață de fapt culorile și texturile țesutului canceros sau semnalează alte caracteristici sau modele?

Aceste modele puternice de învățare automată se bazează de obicei pe rețele neuronale artificiale care pot avea milioane de noduri care procesează date pentru a face predicții. Datorită complexității lor, cercetătorii numesc adesea aceste modele „cutii negre”, deoarece nici măcar oamenii de știință care le construiesc nu înțeleg tot ce se întâmplă sub capotă.

Stefanie Jegelka nu este mulțumită de acea explicație „cutie neagră”. Un profesor asociat nou titular în cadrul Departamentului de Inginerie Electrică și Informatică al MIT, Jegelka cercetează adânc în învățarea profundă pentru a înțelege ce pot învăța aceste modele și cum se comportă și cum să integreze anumite informații anterioare în aceste modele.

„La sfârșitul zilei, ceea ce va învăța un model de învățare profundă depinde de atât de mulți factori. Dar construirea unei înțelegeri care este relevantă în practică ne va ajuta să proiectăm modele mai bune și, de asemenea, ne va ajuta să înțelegem ce se întâmplă în interiorul lor, astfel încât să știm când putem implementa un model și când nu. Acest lucru este extrem de important”, spune Jegelka, care este, de asemenea, membru al Laboratorului de Informatică și Inteligență Artificială (CSAIL) și al Institutului pentru Date, Sisteme și Societate (IDSS).

Jegelka este interesat în special de optimizarea modelelor de învățare automată atunci când datele de intrare sunt sub formă de grafice. Datele grafice prezintă provocări specifice: de exemplu, informațiile din date constau atât din informații despre noduri și margini individuale, cât și din structură - ce este conectat la ce. În plus, graficele au simetrii matematice care trebuie respectate de modelul de învățare automată, astfel încât, de exemplu, același grafic să conducă întotdeauna la aceeași predicție. Construirea unor astfel de simetrii într-un model de învățare automată nu este de obicei ușoară.

Luați molecule, de exemplu. Moleculele pot fi reprezentate sub formă de grafice, cu vârfuri care corespund atomilor și muchii care corespund legăturilor chimice dintre ele. Companiile de medicamente ar putea dori să folosească învățarea profundă pentru a prezice rapid proprietățile multor molecule, reducând numărul pe care trebuie să le testeze fizic în laborator.

Jegelka studiază metode pentru a construi modele matematice de învățare automată care pot lua în mod eficient datele grafice ca intrare și ieșire altceva, în acest caz o predicție a proprietăților chimice ale unei molecule. Acest lucru este deosebit de dificil, deoarece proprietățile unei molecule sunt determinate nu numai de atomii din ea, ci și de conexiunile dintre ei.  

Alte exemple de învățare automată pe grafice includ rutarea traficului, proiectarea cipurilor și sistemele de recomandare.

Proiectarea acestor modele este făcută și mai dificilă de faptul că datele folosite pentru a le antrena sunt adesea diferite de datele pe care modelele le văd în practică. Poate că modelul a fost antrenat folosind grafice moleculare mici sau rețele de trafic, dar graficele pe care le vede odată implementate sunt mai mari sau mai complexe.

În acest caz, ce se pot aștepta cercetătorii să învețe acest model și va funcționa în continuare în practică dacă datele din lumea reală sunt diferite?

„Modelul tău nu va putea învăța totul din cauza unor probleme de duritate în informatică, dar ceea ce poți învăța și ceea ce nu poți învăța depinde de modul în care ai configurat modelul”, spune Jegelka.

Ea abordează această întrebare combinând pasiunea pentru algoritmi și matematică discretă cu entuziasmul pentru învățarea automată.

De la fluturi la bioinformatică

Jegelka a crescut într-un orășel din Germania și a devenit interesată de știință când era elevă la liceu; un profesor de sprijin a încurajat-o să participe la un concurs internațional de știință. Ea și coechipierii ei din SUA și Singapore au câștigat un premiu pentru un site web pe care l-au creat despre fluturi, în trei limbi.

„Pentru proiectul nostru, am făcut imagini ale aripilor cu un microscop electronic de scanare la o universitate locală de științe aplicate. De asemenea, am avut ocazia să folosesc o cameră de mare viteză la Mercedes Benz - această cameră filma de obicei motoarele cu ardere - pe care am folosit-o pentru a captura un videoclip cu încetinitorul mișcării aripilor unui fluture. A fost prima dată când am intrat cu adevărat în contact cu știința și explorarea”, își amintește ea.

Intrigat atât de biologie, cât și de matematică, Jegelka a decis să studieze bioinformatica la Universitatea din Tübingen și la Universitatea din Texas din Austin. Ea a avut câteva oportunități de a efectua cercetări ca studentă, inclusiv un stagiu în neuroștiință computațională la Universitatea Georgetown, dar nu era sigură ce carieră să urmeze.

Când s-a întors pentru ultimul an de facultate, Jegelka s-a mutat cu doi colegi de cameră care lucrau ca asistenți de cercetare la Institutul Max Planck din Tübingen.

„Lucrau la învățarea automată și asta mi-a sunat foarte bine. A trebuit să-mi scriu lucrarea de licență, așa că am întrebat la institut dacă au un proiect pentru mine. Am început să lucrez la învățarea automată la Institutul Max Planck și mi-a plăcut. Am învățat atât de multe acolo și a fost un loc grozav pentru cercetare”, spune ea.

Ea a rămas la Institutul Max Planck pentru a finaliza o teză de master, apoi s-a angajat într-un doctorat în învățarea automată la Institutul Max Planck și Institutul Federal de Tehnologie Elvețian..

În timpul doctoratului, ea a explorat modul în care conceptele din matematica discretă pot ajuta la îmbunătățirea tehnicilor de învățare automată.

Modele de predare pentru a învăța

Cu cât Jegelka a învățat mai multe despre învățarea automată, cu atât a devenit mai intrigata de provocările legate de înțelegerea modului în care modelele se comportă și de a controla acest comportament.

„Puteți face atât de multe cu învățarea automată, dar numai dacă aveți modelul și datele potrivite. Nu este doar o chestie neagră în care îl aruncați asupra datelor și funcționează. De fapt, trebuie să te gândești la el, la proprietățile sale și la ce vrei să învețe și să facă modelul”, spune ea.

După ce a terminat un post-doctorat la Universitatea din California din Berkeley, Jegelka a fost atras de cercetare și a decis să urmeze o carieră în mediul academic. S-a alăturat facultății de la MIT în 2015 ca profesor asistent.

„Ceea ce mi-a plăcut cu adevărat la MIT, încă de la început, a fost că oamenilor le pasă foarte mult de cercetare și creativitate. Asta apreciez cel mai mult la MIT. Oamenii de aici apreciază cu adevărat originalitatea și profunzimea cercetării”, spune ea.

Accentul pe creativitate i-a permis lui Jegelka să exploreze o gamă largă de subiecte.

În colaborare cu alte facultăți de la MIT, ea studiază aplicații de învățare automată în biologie, imagistică, viziune computerizată și știința materialelor.

Dar ceea ce îl motivează cu adevărat pe Jegelka este să cerceteze fundamentele învățării automate și, cel mai recent, problema robusteței. Adesea, un model funcționează bine pe datele de antrenament, dar performanța sa se deteriorează atunci când este implementat pe date ușor diferite. Integrarea cunoștințelor anterioare într-un model îl poate face mai fiabil, dar înțelegerea de ce informații are nevoie modelul pentru a avea succes și cum să-l integreze nu este atât de simplă, spune ea.

De asemenea, ea explorează metode de îmbunătățire a performanței modelelor de învățare automată pentru clasificarea imaginilor.

Modelele de clasificare a imaginilor sunt peste tot, de la sistemele de recunoaștere facială de pe telefoanele mobile până la instrumente care identifică conturile false pe rețelele sociale. Aceste modele au nevoie de cantități masive de date pentru antrenament, dar deoarece este costisitor pentru oameni să eticheteze manual milioane de imagini, cercetătorii folosesc adesea seturi de date neetichetate pentru a antrena modele.

Aceste modele reutilizează apoi reprezentările pe care le-au învățat atunci când sunt reglate mai târziu pentru o anumită sarcină.

În mod ideal, cercetătorii doresc ca modelul să învețe cât de mult poate în timpul pregătirii preliminare, astfel încât să poată aplica aceste cunoștințe la sarcina sa din aval. Dar, în practică, aceste modele învață adesea doar câteva corelații simple - cum ar fi aceea că o imagine are soare și una are umbră - și folosesc aceste „comenzi rapide” pentru a clasifica imaginile.

„Am arătat că aceasta este o problemă în „învățarea contrastantă”, care este o tehnică standard pentru pre-formare, atât teoretic, cât și empiric. Dar, de asemenea, arătăm că puteți influența tipurile de informații pe care modelul va învăța să le reprezinte modificând tipurile de date pe care le afișați modelului. Acesta este un pas către înțelegerea a ceea ce modelele vor face de fapt în practică”, spune ea.

Cercetătorii încă nu înțeleg tot ce se întâmplă în interiorul unui model de învățare profundă sau detalii despre modul în care pot influența ceea ce învață un model și cum se comportă, dar Jegelka așteaptă cu nerăbdare să exploreze aceste subiecte.

„Adesea, în învățarea automată, vedem că se întâmplă ceva în practică și încercăm să-l înțelegem teoretic. Aceasta este o provocare uriașă. Vrei să construiești o înțelegere care să se potrivească cu ceea ce vezi în practică, astfel încât să poți face mai bine. Suntem încă la începutul înțelegerii acestui lucru”, spune ea.

În afara laboratorului, Jegelka este un fan al muzicii, al artei, al călătoriilor și al ciclismului. Dar în aceste zile, îi place să-și petreacă cea mai mare parte a timpului liber cu fiica ei de vârstă preșcolară.

<!–
->

Timestamp-ul:

Mai mult de la Consultanți Blockchain