La nuova intelligenza artificiale di Meta sta scavando nelle proteine ​​più misteriose sulla Terra

La nuova intelligenza artificiale di Meta sta scavando nelle proteine ​​più misteriose sulla Terra

Nodo di origine: 2022738

La corsa per risolvere ogni struttura proteica ha appena dato il benvenuto a un altro gigante della tecnologia: Meta AI.

Un ramo di ricerca di Meta, noto per Facebook e Instagram, il team è entrato nella scena della previsione della forma delle proteine ​​con un obiettivo ambizioso: decifrare la "materia oscura" dell'universo proteico. Spesso presenti in batteri, virus e altri microrganismi, queste proteine ​​si trovano nei nostri ambienti quotidiani ma sono misteri completi per la scienza.

“Queste sono le strutture di cui sappiamo meno. Queste sono proteine ​​incredibilmente misteriose. Penso che offrano il potenziale per una grande comprensione della biologia ", disse autore senior Dr. Alexander Rives a Natura.

In altre parole, sono un tesoro di ispirazione per la biotecnologia. Nascoste nelle loro forme segrete sono le chiavi per la progettazione biocarburanti efficienti, antibiotici, enzimio anche organismi completamente nuovi. A loro volta, i dati delle previsioni sulle proteine ​​potrebbero addestrare ulteriormente i modelli di intelligenza artificiale.

Al centro della nuova intelligenza artificiale di Meta, soprannominata ESMFold, c'è un modello di linguaggio di grandi dimensioni. Potrebbe suonare familiare. Questi algoritmi di apprendimento automatico hanno preso d'assalto il mondo con il chatbot rockstar ChatGPT. Conosciuto per la sua capacità di generare bellissimi saggi, poesie e testi con semplici suggerimenti, ChatGPT e il recentemente lanciato GPT-4—sono addestrati con milioni di testi disponibili al pubblico. Alla fine l'intelligenza artificiale impara a prevedere lettere, parole e persino a scrivere interi paragrafi e, nel caso del chatbot simile di Bing, a tenere Conversazioni che a volte diventano leggermente snervanti.

Il nuovo studio, pubblicato nella Scienze, collega il modello AI con la biologia. Le proteine ​​sono composte da 20 "lettere". Grazie all'evoluzione, la sequenza delle lettere aiuta a generare le loro forme definitive. Se i grandi modelli linguistici possono facilmente interpretare le 26 lettere dell'alfabeto inglese in messaggi coerenti, perché non possono funzionare anche per le proteine?

Spoiler: lo fanno. ESM-2 ha analizzato circa 600 milioni di previsioni sulla struttura delle proteine ​​in sole due settimane utilizzando 2,000 unità di elaborazione grafica (GPU). Rispetto ai tentativi precedenti, l'intelligenza artificiale ha reso il processo fino a 60 volte più veloce. Gli autori inseriscono ogni struttura nell'Atlante metagenomico dell'ESM, che puoi esplorare qui.

Per il Dr. Alfonso Valencia del Barcelona National Supercomputing Center (BCS), che non è stato coinvolto nel lavoro, la bellezza dell'utilizzo di grandi sistemi linguistici è un “semplicità concettuale.” Con un ulteriore sviluppo, l'intelligenza artificiale può prevedere "la struttura delle proteine ​​​​non naturali, espandendo l'universo conosciuto oltre ciò che i processi evolutivi hanno esplorato".

Parliamo di evoluzione

ESMFold segue una semplice linea guida: la sequenza predice la struttura.

Torniamo indietro. Le proteine ​​sono costituite da 20 aminoacidi, ciascuno una "lettera", e appese come perline appuntite su una corda. Le nostre cellule poi li modellano in lineamenti delicati: alcuni sembrano lenzuola spiegazzate, altri come un bastoncino di zucchero vorticoso o nastri sciolti. Le proteine ​​possono quindi aggrapparsi l'una all'altra per formare un multiplex, ad esempio un tunnel che attraversa la membrana delle cellule cerebrali che controlla le sue azioni e, a sua volta, controlla il modo in cui pensiamo e ricordiamo.

Gli scienziati sanno da tempo che le lettere di amminoacidi aiutano a modellare la struttura finale di una proteina. Simile alle lettere o ai caratteri in una lingua, solo alcuni quando messi insieme hanno un senso. Nel caso delle proteine, queste sequenze le rendono funzionali.

"Le proprietà biologiche di una proteina vincolano le mutazioni alla sua sequenza che vengono selezionate attraverso l'evoluzione", hanno detto gli autori.

Simile a come le diverse lettere dell'alfabeto convergono per creare parole, frasi e paragrafi senza sembrare un completo incomprensibile, le lettere proteiche fanno lo stesso. Esiste una sorta di "dizionario evolutivo" che aiuta a legare gli amminoacidi in strutture che il corpo può comprendere.

“La logica della successione degli amminoacidi nelle proteine ​​note è il risultato di un processo evolutivo che le ha portate ad avere la struttura specifica con cui svolgono una particolare funzione”, ha affermato Valencia.

Signor AI, fammi una proteina

Il dizionario relativamente limitato della vita lo è grandi novità per i modelli di linguaggio di grandi dimensioni.

Questi modelli di intelligenza artificiale setacciano testi prontamente disponibili per apprendere e costruire previsioni della parola successiva. Il risultato finale, come si vede in GPT-3 e ChatGPT, sono conversazioni straordinariamente naturali e fantastiche immagini artistiche.

Meta AI ha utilizzato lo stesso concetto, ma ha riscritto il playbook per le previsioni sulla struttura delle proteine. Invece di alimentare l'algoritmo con testi, hanno fornito al programma sequenze di proteine ​​note.

Il modello di intelligenza artificiale, chiamato modello di linguaggio delle proteine ​​​​del trasformatore, ha appreso l'architettura generale delle proteine ​​​​utilizzando fino a 15 miliardi di "impostazioni". Complessivamente ha visto circa 65 milioni di diverse sequenze proteiche.

Nella fase successiva, il team ha nascosto alcune lettere all'IA, spingendola a riempire gli spazi vuoti. In quello che equivale al completamento automatico, il programma alla fine ha imparato come diversi aminoacidi si connettono (o si respingono) l'un l'altro. Alla fine, l'intelligenza artificiale ha formato una comprensione intuitiva delle sequenze proteiche evolutive e di come lavorano insieme per creare proteine ​​funzionali.

Nello sconosciuto

Come prova di concetto, il team ha testato ESMFold utilizzando due noti set di test. Uno, CAMEO, ha coinvolto quasi 200 strutture; l'altro, CASP14, ha 51 forme proteiche rilasciate pubblicamente.

Nel complesso, l'intelligenza artificiale "fornisce un'accuratezza di previsione della struttura all'avanguardia", ha affermato il team, "eguagliando le prestazioni di AlphaFold2 su più della metà delle proteine". Ha anche affrontato in modo affidabile grandi complessi proteici, ad esempio i canali sui neuroni che controllano le loro azioni.

Il team ha quindi portato la propria IA un ulteriore passo avanti, avventurandosi nel mondo della metagenomica.

I metagenomi sono come suonano: un miscuglio di materiale DNA. Normalmente questi provengono da fonti ambientali come lo sporco sotto i piedi, l'acqua di mare o anche prese d'aria termiche normalmente inospitali. La maggior parte dei microbi non può essere coltivata artificialmente nei laboratori, tuttavia alcuni hanno superpoteri come resistere al calore a livello vulcanico, rendendoli una materia oscura biologica ancora da esplorare.

Al momento della pubblicazione dell'articolo, l'IA aveva previsto oltre 600 milioni di queste proteine. Il conteggio è ora fino a oltre 700 milioni con l'ultima versione. Le previsioni sono arrivate veloci e furiose in circa due settimane. Al contrario, i precedenti tentativi di modellazione hanno richiesto fino a 10 minuti per una singola proteina.

Circa un terzo delle previsioni sulle proteine ​​erano di alta affidabilità, con dettagli sufficienti per ingrandire la scala a livello atomico. Poiché le previsioni sulle proteine ​​erano basate esclusivamente sulle loro sequenze, sono spuntati fuori milioni di "alieni", strutture diverse da qualsiasi cosa nei database consolidati o da quelli precedentemente testati.

"È interessante notare che oltre il 10 percento delle previsioni riguarda proteine ​​che non hanno alcuna somiglianza con altre proteine ​​note", ha affermato Valencia. Potrebbe essere dovuto alla magia dei modelli linguistici, che sono molto più flessibili nell'esplorare - e potenzialmente generare - sequenze inedite che compongono le proteine ​​funzionali. "Questo è un nuovo spazio per la progettazione di proteine ​​con nuove sequenze e proprietà biochimiche con applicazioni in biotecnologia e biomedicina", ha affermato.

Ad esempio, ESMFold potrebbe potenzialmente aiutare a scoprire le conseguenze dei cambiamenti di una singola lettera in una proteina. Chiamate mutazioni puntiformi, queste modifiche apparentemente benigne provocano il caos nel corpo, causando sindromi metaboliche devastanti, anemia falciforme e cancro. Un'intelligenza artificiale snella, media e relativamente semplice porta risultati al laboratorio di ricerca biomedica medio, aumentando le previsioni sulla forma delle proteine ​​grazie alla velocità dell'IA.

Biomedicina a parte, un'altra idea affascinante è che le proteine ​​possono aiutare ad addestrare grandi modelli linguistici in un modo in cui i testi non possono. Come ha spiegato Valencia, “Da un lato, le sequenze proteiche sono più abbondanti dei testi, hanno dimensioni più definite e un più alto grado di variabilità. D'altra parte, le proteine ​​hanno un forte 'significato' interno, cioè una forte relazione tra sequenza e struttura, un significato o coerenza che è molto più diffuso nei testi”, collegando i due campi in un virtuoso circuito di feedback.

Immagine di credito: Meta IA

Timestamp:

Di più da Hub di singolarità