ML-mallivarastot: seuraava suuri toimitusketjun hyökkäyskohde

ML-mallivarastot: seuraava suuri toimitusketjun hyökkäyskohde

Lähdesolmu: 2518977

Arkistot for koneoppimismalleja, kuten Hugging Face antaa uhkatoimijoille samat mahdollisuudet hiipiä haitallista koodia kehitysympäristöihin kuin avoimen lähdekoodin julkiset tietovarastot, kuten npm ja PyPI.

Huhtikuussa pidettävässä Black Hat Asia -esityksessä otsikolla "Hämmentynyt oppiminen: toimitusketjun hyökkäykset koneoppimismallien kautta”, kaksi Dropboxin tutkijaa esittelee useita tekniikoita, joita uhkatoimijat voivat käyttää haittaohjelmien levittämiseen ML-mallien kautta Hugging Facen kautta. Tekniikat ovat samanlaisia ​​kuin tekniikat, joita hyökkääjät ovat menestyksekkäästi käyttäneet vuosia ladatakseen haittaohjelmia avoimen lähdekoodin tietovarastoihin, ja korostavat, että organisaatioiden on otettava käyttöön hallintalaitteet ML-mallien perusteelliseen tarkastamiseen ennen käyttöä.

"Koneoppimisputkistot ovat upouusi toimitusketjun hyökkäysvektori, ja yritysten on tarkasteltava, mitä analyyseja ja hiekkalaatikkoa ne tekevät suojellakseen itseään", sanoo Dropboxin turvallisuusinsinööri Adrian Wood. ”ML-mallit eivät ole puhtaita toimintoja. Ne ovat täysiä haittaohjelmien vektoreita, jotka ovat kypsiä hyväksikäyttöön."

Tietovarastot, kuten Hugging Face, ovat houkutteleva kohde, koska ML-mallit antavat uhkatoimijoille pääsyn arkaluontoisiin tietoihin ja ympäristöihin. Ne ovat myös suhteellisen uusia, sanoo Mary Walker, Dropboxin turvallisuusinsinööri ja Black Hat Asia -paperin toinen kirjoittaja. Hugging Face on tavallaan melko uusi, Walker sanoo. ”Jos katsot heidän trendikkäitä mallejaan, huomaat usein, että malli on yhtäkkiä tullut suosituksi, jonka joku satunnainen henkilö laittaa sinne. Ihmiset eivät aina käytä luotettavia malleja”, hän sanoo.

Koneoppimisputkistot, uusi kohde

Hugging Face on ML-työkalujen, tietojoukkojen ja mallien arkisto, joita kehittäjät voivat ladata ja integroida omiin projekteihinsa. Kuten monet julkiset koodivarastot, sen avulla kehittäjät voivat luoda ja ladata omia ML-mallejaan tai etsiä malleja, jotka vastaavat heidän vaatimuksiaan. Hugging Facen suojaustoiminnot sisältävät haittaohjelmien, haavoittuvuuksien, salaisuuksien ja arkaluontoisten tietojen skannauksen arkistosta. Se tarjoaa myös muodon nimeltä Turvalaitteet, jonka avulla kehittäjät voivat turvallisemmin tallentaa ja ladata suuria tensoreja – tai koneoppimismallien ydintietorakenteita.

Siitä huolimatta tietovarasto – ja muut ML-mallivarastot – antavat hyökkääjille mahdollisuuden ladata haitallisia malleja, jotta kehittäjät voivat ladata ja käyttää niitä projekteissaan.

Esimerkiksi Wood havaitsi, että oli triviaalia, että hyökkääjä rekisteröi palveluun nimiavaruuden, joka näytti kuuluvan tuotemerkkiorganisaatiolle. Ei ole juurikaan mahdollista estää hyökkääjää käyttämästä tätä nimiavaruutta huijatakseen todellisia käyttäjiä kyseisestä organisaatiosta aloittamaan ML-mallien lataaminen siihen – joita hyökkääjä voi myrkyttää mielensä mukaan.

Wood kertoo, että itse asiassa, kun hän rekisteröi nimitilan, joka näytti kuuluvan tunnetulle brändille, hänen ei tarvinnut edes yrittää saada organisaation käyttäjiä lataamaan malleja. Sen sijaan ohjelmistosuunnittelijat ja ML-insinöörit organisaatioista ottivat häneen suoraan yhteyttä ja pyysivät liittyä nimiavaruuteen, jotta he voisivat ladata siihen ML-malleja, jotka Wood olisi voinut halutessaan avata takaoven.

Tällaisten "namesquatting"-hyökkäysten lisäksi uhkatoimijoilla on myös muita tapoja hiipiä haittaohjelmia ML-malleihin arkistoissa, kuten Hugging Face, Wood sanoo - esimerkiksi käyttämällä malleja, joissa on kirjoitusvirheitä. Toinen esimerkki on mallihakuhyökkäys, jossa uhkatekijä saattaa löytää projektin yksityisten riippuvuuksien nimet ja luoda sitten julkisia haitallisia riippuvuuksia tarkalla nimellä. Aiemmin sellaisia hämmennyshyökkäykset avoimen lähdekoodin arkistoihin, kuten npm ja PyPI ovat johtaneet siihen, että sisäiset projektit ovat laiminlyöneet samannimiset haitalliset riippuvuudet.

Haittaohjelmat ML-tietovarastoissa

Uhkatoimijat ovat jo alkaneet tarkastella ML-varastoja mahdollisena toimitusketjun hyökkäysvektorina. Vasta aiemmin tänä vuonna esimerkiksi JFrogin tutkijat löysi haitallisen ML-mallin Hugging Facessa, joka latautuessaan suoritti haitallisen koodin, joka antoi hyökkääjille täyden hallinnan uhrin koneeseen. Siinä tapauksessa malli käytti jotain nimeltä "pickle"-tiedostomuoto, jota JFrog kuvaili yleiseksi muodoksi Python-objektien sarjoittamiseksi.

"Koodin suorittaminen voi tapahtua, kun tietyn tyyppisiä ML-malleja ladataan epäluotettavasta lähteestä", JFrog huomautti. ”Esimerkiksi jotkin mallit käyttävät 'pickle'-muotoa, joka on yleinen muoto Python-objektien sarjoituksessa. Pickle-tiedostot voivat kuitenkin sisältää myös mielivaltaista koodia, joka suoritetaan, kun tiedosto ladataan."

Woodin esittelyyn kuuluu haittaohjelmien lisääminen malleihin käyttämällä Keras-kirjastoa ja Tensorflowa taustamoottorina. Wood havaitsi, että Keras-mallit tarjoavat hyökkääjille tavan suorittaa mielivaltaista koodia taustalla samalla, kun malli toimii täsmälleen tarkoitetulla tavalla. Toiset ovat käyttäneet erilaisia ​​menetelmiä. Vuonna 2020 esimerkiksi HiddenLayerin tutkijat käyttivät jotain samanlaista kuin steganografia upottaa ransomware-suoritettava tiedosto malliin ja ladata sen sitten pickle-sovelluksella.

Aikaleima:

Lisää aiheesta Pimeää luettavaa