Modello Magika AI di identificazione dei file open source di Google

Modello Magika AI di identificazione dei file open source di Google

Nodo di origine: 2484550

Google ha reso open source Magika, un identificatore di file interno basato sull'apprendimento automatico, come parte della sua AI Cyber ​​Defense Initiative, che mira a fornire ai difensori della rete IT e ad altri strumenti automatizzati migliori.

Capire il vero contenuto di un file inviato dall'utente è forse più difficile di quanto sembri. Non è sicuro dedurre il tipo di file, ad esempio, dalla sua estensione e fare affidamento su euristiche e regole create dall'uomo, come quelle ampiamente utilizzate libmagic – Identificare la reale natura di un documento partendo dai suoi dati è, secondo Google, “dispendioso in termini di tempo e soggetto a errori”.

Fondamentalmente, se qualcuno carica un file .JPG sul tuo servizio online, vuoi essere sicuro che sia un'immagine JPEG e non uno script mascherato da tale, che potrebbe poi morderti nel culo. Inserisci Magika, che utilizza un modello addestrato per identificare rapidamente i tipi di file dai dati dei file, ed è un approccio che Big G ritiene funzioni abbastanza bene da poter essere utilizzato in produzione. Magika, ci viene detto, viene utilizzato da Gmail, Google Drive, Navigazione sicura di Chrome e VirusTotal per identificare e instradare correttamente i dati per ulteriori elaborazioni.

Il tuo chilometraggio può variare. Libmagic, per esempio, potrebbe funzionare abbastanza bene per te. In ogni caso, Magika è un esempio di come Google utilizza internamente l’intelligenza artificiale per rafforzare la propria sicurezza e spera che anche altri possano trarre vantaggio da quella tecnologia. Un altro esempio sarebbe RETVec, che è un modello di elaborazione del testo multilingue utilizzato per rilevare lo spam. Ciò avviene in un momento in cui veniamo tutti avvertiti che i malintenzionati stanno apparentemente facendo un uso maggiore di software di apprendimento automatico per automatizzare le intrusioni e la ricerca sulle vulnerabilità.

I politici, i professionisti della sicurezza e la società civile hanno la possibilità di spostare finalmente l’equilibrio della sicurezza informatica dagli aggressori ai difensori informatici

“L’intelligenza artificiale è a un bivio definitivo, in cui i politici, i professionisti della sicurezza e la società civile hanno la possibilità di spostare finalmente l’equilibrio della sicurezza informatica dagli aggressori ai difensori informatici”, Phil Venables, responsabile della sicurezza informatica di Google Cloud, e Royal Hansen, veep di ingegneria per la privacy, la sicurezza e la protezione, disse il Venerdì. 

“In un momento in cui attori malintenzionati stanno sperimentando l’intelligenza artificiale, abbiamo bisogno di un’azione coraggiosa e tempestiva per modellare la direzione di questa tecnologia”.

La coppia crede Magia può essere utilizzato dai difensori della rete per identificare, rapidamente e su larga scala, il vero contenuto dei file, il che rappresenta un primo passo nell'analisi del malware e nel rilevamento delle intrusioni. Ad essere onesti, questo modello di deep learning potrebbe essere utile per chiunque abbia bisogno di scansionare documenti forniti dall’utente: i video che sono in realtà eseguibili, ad esempio, dovrebbero far scattare qualche allarme e richiedere un’ispezione più attenta. Gli allegati e-mail che non sono ciò che dicono di essere dovrebbero essere messi in quarantena. Hai capito.

Più in generale, nel contesto della sicurezza informatica, i modelli di intelligenza artificiale non solo possono ispezionare i file per verificare la presenza di contenuti sospetti e il codice sorgente per individuare eventuali vulnerabilità, ma possono anche generare patch per correggere i bug, hanno affermato i Googler. Gli ingegneri della mega-corporazione hanno sperimentato Gemini per migliorare il fuzzing automatizzato anche dei progetti open source.

Google afferma che Magika è il 50% più accurato nell'identificare i tipi di file rispetto al precedente sistema di regole artigianali del business, impiega millisecondi per identificare un tipo di file e si dice che abbia almeno il 99% di precisione nei test. Tuttavia, non è perfetto e non riesce a classificare i tipi di file circa il tre per cento delle volte. È concesso in licenza con Apache 2.0, il codice è quie il suo modello pesa 1 MB.

Allontanandosi da Magika, la Fabbrica di cioccolato, nell'ambito di questa nuova iniziativa di difesa informatica dell'intelligenza artificiale, collaborerà con 17 startup nel Regno Unito, negli Stati Uniti e in Europa e le formerà all'utilizzo di questi tipi di strumenti automatizzati per migliorare la loro sicurezza. 

Amplierà inoltre il suo programma di seminari sulla sicurezza informatica da 15 milioni di dollari per aiutare le università a formare un maggior numero di studenti europei sulla sicurezza. Più vicino a casa, ha promesso 2 milioni di dollari in sovvenzioni per finanziare la ricerca sui reati informatici e su grandi modelli linguistici per sostenere gli accademici dell’Università di Chicago, Carnegie Mellon e Stanford.

“La rivoluzione dell’intelligenza artificiale è già in corso. Mentre le persone giustamente applaudono la promessa di nuovi farmaci e scoperte scientifiche, siamo anche entusiasti del potenziale dell’intelligenza artificiale nel risolvere le sfide della sicurezza generazionale avvicinandoci al mondo digitale sicuro e affidabile che meritiamo”, hanno concluso Venables e Hansen. ®

Timestamp:

Di più da Il registro