Packar upp den "svarta lådan" för att bygga bättre AI-modeller

Packar upp den "svarta lådan" för att bygga bättre AI-modeller

Källnod: 1885922

När modeller för djupinlärning används i den verkliga världen, kanske för att upptäcka ekonomiskt bedrägeri från kreditkortsaktivitet eller identifiera cancer i medicinska bilder, kan de ofta överträffa människor.

Men vad är det egentligen som dessa modeller för djupinlärning lär sig? Lär sig en modell som är utbildad för att upptäcka hudcancer i kliniska bilder, till exempel, faktiskt färgerna och texturerna på cancervävnad, eller flaggar den några andra egenskaper eller mönster?

Dessa kraftfulla maskininlärningsmodeller är vanligtvis baserade på Artificiellt nervsystem som kan ha miljontals noder som bearbetar data för att göra förutsägelser. På grund av deras komplexitet kallar forskare ofta dessa modeller för "svarta lådor" eftersom även forskarna som bygger dem inte förstår allt som pågår under huven.

Stefanie Jegelka är inte nöjd med den "svarta lådan"-förklaringen. En nyligen anställd docent vid MIT-avdelningen för elektroteknik och datavetenskap, Jagelka gräver djupt i djup inlärning för att förstå vad dessa modeller kan lära sig och hur de beter sig, och hur man bygger in viss tidigare information i dessa modeller.

"I slutet av dagen beror vad en djupinlärningsmodell kommer att lära sig på så många faktorer. Men att bygga en förståelse som är relevant i praktiken kommer att hjälpa oss att designa bättre modeller, och också hjälpa oss att förstå vad som händer inuti dem så att vi vet när vi kan distribuera en modell och när vi inte kan. Det är ytterst viktigt, säger Jegelka, som också är medlem i Computer Science and Artificial Intelligence Laboratory (CSAIL) och Institutet för data, system och samhälle (IDSS).

Jegelka är särskilt intresserad av att optimera maskininlärningsmodeller när indata är i form av grafer. Grafdata ställer specifika utmaningar: Till exempel består informationen i datan av både information om enskilda noder och kanter, såväl som strukturen – vad som är kopplat till vad. Dessutom har grafer matematiska symmetrier som måste respekteras av maskininlärningsmodellen så att till exempel samma graf alltid leder till samma förutsägelse. Att bygga in sådana symmetrier i en maskininlärningsmodell är vanligtvis inte lätt.

Ta molekyler till exempel. Molekyler kan representeras som grafer, med hörn som motsvarar atomer och kanter som motsvarar kemiska bindningar mellan dem. Läkemedelsföretag kanske vill använda djupinlärning för att snabbt förutsäga egenskaperna hos många molekyler, vilket minskar antalet de måste fysiskt testa i labbet.

Jegelka studerar metoder för att bygga matematiska maskininlärningsmodeller som effektivt kan ta grafdata som ingång och utmata något annat, i det här fallet en förutsägelse av en molekyls kemiska egenskaper. Detta är särskilt utmanande eftersom en molekyls egenskaper inte bara bestäms av atomerna i den, utan också av kopplingarna mellan dem.  

Andra exempel på maskininlärning på grafer inkluderar trafikdirigering, chipdesign och rekommendationssystem.

Att designa dessa modeller försvåras ännu mer av det faktum att data som används för att träna dem ofta skiljer sig från data som modellerna ser i praktiken. Kanske har modellen tränats med hjälp av små molekylära grafer eller trafiknätverk, men graferna som den ser när den väl har distribuerats är större eller mer komplexa.

I det här fallet, vad kan forskare förvänta sig att den här modellen ska lära sig, och kommer den fortfarande att fungera i praktiken om data från den verkliga världen är annorlunda?

"Din modell kommer inte att kunna lära sig allt på grund av vissa hårdhetsproblem inom datavetenskap, men vad du kan lära dig och vad du inte kan lära dig beror på hur du ställer in modellen", säger Jegelka.

Hon närmar sig denna fråga genom att kombinera sin passion för algoritmer och diskret matematik med sin spänning för maskininlärning.

Från fjärilar till bioinformatik

Jegelka växte upp i en liten stad i Tyskland och blev intresserad av naturvetenskap när hon var gymnasieelev; en stödjande lärare uppmuntrade henne att delta i en internationell vetenskapstävling. Hon och hennes lagkamrater från USA och Singapore vann ett pris för en webbplats de skapat om fjärilar, på tre språk.

”För vårt projekt tog vi bilder av vingar med ett svepelektronmikroskop vid en lokal yrkeshögskola. Jag fick också möjlighet att använda en höghastighetskamera på Mercedes Benz — den här kameran filmade vanligtvis förbränningsmotorer — som jag använde för att fånga en slow-motion-video av rörelsen av en fjärils vingar. Det var första gången jag verkligen kom i kontakt med vetenskap och utforskning”, minns hon.

Jagelka var fascinerad av både biologi och matematik och bestämde sig för att studera bioinformatik vid University of Tübingen och University of Texas i Austin. Hon hade några möjligheter att forska som grundutbildning, inklusive en praktikplats i beräkningsneurovetenskap vid Georgetown University, men var inte säker på vilken karriär hon skulle göra.

När hon kom tillbaka för sitt sista år på college, flyttade Jegelka in med två rumskamrater som arbetade som forskarassistenter vid Max Planck-institutet i Tübingen.

"De arbetade med maskininlärning, och det lät riktigt coolt för mig. Jag var tvungen att skriva min kandidatuppsats, så jag frågade på institutet om de hade något projekt för mig. Jag började arbeta med maskininlärning på Max Planck Institute och jag älskade det. Jag lärde mig så mycket där, och det var en fantastisk plats för forskning, säger hon.

Hon stannade på Max Planck Institute för att slutföra en magisteruppsats, och började sedan på en doktorsexamen i maskininlärning vid Max Planck Institute och Swiss Federal Institute of Technology.

Under sin doktorsexamen undersökte hon hur begrepp från diskret matematik kan hjälpa till att förbättra maskininlärningstekniker.

Lära modeller att lära

Ju mer Jegelka lärde sig om maskininlärning, desto mer fascinerad blev hon av utmaningarna med att förstå hur modeller beter sig och hur man styr detta beteende.

"Du kan göra så mycket med maskininlärning, men bara om du har rätt modell och data. Det är inte bara en black-box-grej där du kastar det på data och det fungerar. Man måste faktiskt tänka på den, dess egenskaper och vad man vill att modellen ska lära sig och göra”, säger hon.

Efter att ha avslutat en postdoc vid University of California i Berkeley, fastnade Jegelka för forskning och bestämde sig för att göra karriär inom den akademiska världen. Hon började på fakulteten vid MIT 2015 som biträdande professor.

"Vad jag verkligen älskade med MIT, från första början, var att folk verkligen bryr sig om forskning och kreativitet. Det är det jag uppskattar mest med MIT. Människorna här värdesätter verkligen originalitet och djup i forskningen, säger hon.

Det fokuset på kreativitet har gjort det möjligt för Jegelka att utforska ett brett spektrum av ämnen.

I samarbete med andra fakulteter vid MIT studerar hon maskininlärningstillämpningar inom biologi, bildbehandling, datorseende och materialvetenskap.

Men det som verkligen driver Jegelka är att undersöka grunderna för maskininlärning, och nu senast, frågan om robusthet. Ofta presterar en modell bra på träningsdata, men dess prestanda försämras när den används på lite olika data. Att bygga in förkunskaper i en modell kan göra den mer tillförlitlig, men att förstå vilken information modellen behöver för att bli framgångsrik och hur man bygger in den är inte så enkelt, säger hon.

Hon undersöker också metoder för att förbättra prestandan hos maskininlärningsmodeller för bildklassificering.

Bildklassificeringsmodeller finns överallt, från ansiktsigenkänningssystem på mobiltelefoner till verktyg som identifierar falska konton på sociala medier. Dessa modeller behöver enorma mängder data för träning, men eftersom det är dyrt för människor att handmärka miljontals bilder använder forskare ofta omärkta datamängder för att förträna modeller istället.

Dessa modeller återanvänder sedan representationerna de har lärt sig när de finjusteras senare för en specifik uppgift.

Helst vill forskare att modellen ska lära sig så mycket den kan under förträning, så att den kan tillämpa den kunskapen på sin nedströmsuppgift. Men i praktiken lär sig dessa modeller ofta bara ett fåtal enkla korrelationer - som att en bild har solsken och en har skugga - och använder dessa "genvägar" för att klassificera bilder.

"Vi visade att detta är ett problem i 'kontrastivt lärande', som är en standardteknik för förträning, både teoretiskt och empiriskt. Men vi visar också att du kan påverka vilken typ av information modellen kommer att lära sig att representera genom att modifiera de typer av data du visar modellen. Det här är ett steg mot att förstå vad modeller faktiskt kommer att göra i praktiken, säger hon.

Forskare förstår fortfarande inte allt som händer i en modell för djupinlärning, eller detaljer om hur de kan påverka vad en modell lär sig och hur den beter sig, men Jegelka ser fram emot att fortsätta utforska dessa ämnen.

"Inom maskininlärning ser vi ofta något hända i praktiken och vi försöker förstå det teoretiskt. Det här är en enorm utmaning. Du vill bygga en förståelse som matchar det du ser i praktiken, så att du kan bli bättre. Vi är fortfarande bara i början av att förstå detta, säger hon.

Utanför labbet är Jegelka ett fan av musik, konst, resor och cykling. Men nu för tiden spenderar hon det mesta av sin fritid med sin dotter i förskoleåldern.

<!–
->

Tidsstämpel:

Mer från Blockchain-konsulter