Metan uusi tekoäly kaivaa maapallon salaperäisimpiä proteiineja

Metan uusi tekoäly kaivaa maapallon salaperäisimpiä proteiineja

Lähdesolmu: 2022738

Kilpailu jokaisen proteiinirakenteen ratkaisemiseksi toivotti tervetulleeksi toisen teknologiajätin: Meta AI:n.

Facebookista ja Instagramista tunnetun Metan tutkimushaara, tiimi tuli proteiinimuodon ennustamiseen kunnianhimoisella tavoitteella: tulkita proteiiniuniversumin "pimeä aine". Usein bakteereissa, viruksissa ja muissa mikro-organismeissa esiintyviä proteiineja esiintyy jokapäiväisessä ympäristössämme, mutta ne ovat täydellisiä mysteereitä tieteelle.

”Nämä ovat rakenteita, joista tiedämme vähiten. Nämä ovat uskomattoman salaperäisiä proteiineja. Uskon, että ne tarjoavat mahdollisuuden suureen näkemykseen biologiasta. sanoi vanhempi kirjailija Dr. Alexander Rives Nature.

Toisin sanoen ne ovat bioteknologian inspiraation aarreaitta. Niiden salaperäisiin muotoihin piilossa ovat suunnittelun avaimet tehokkaita biopolttoaineita, antibiootit, entsyymit, tai jopa täysin uusia organismeja. Proteiiniennusteista saadut tiedot puolestaan ​​voisivat kehittää tekoälymalleja.

Metan uuden tekoälyn, nimeltään ESMFold, ytimessä on suuri kielimalli. Saattaa kuulostaa tutulta. Nämä koneoppimisalgoritmit ovat valloittaneet maailman myrskyn avulla rockstar-chatbotin ChatGPT:n avulla. Tunnettu kyvystään luoda kauniita esseitä, runoja ja sanoituksia yksinkertaisilla kehotteilla, ChatGPT – ja äskettäin lanseerattu GPT-4- on koulutettu miljoonilla julkisesti saatavilla olevilla teksteillä. Lopulta tekoäly oppii ennustamaan kirjaimia, sanoja ja jopa kirjoittamaan kokonaisia ​​kappaleita ja Bingin samanlaisen chatbotin tapauksessa pitämään keskustelut jotka joskus tuntuvat hieman ahdistavilta.

Uusi tutkimus, julkaistu tiede, yhdistää tekoälymallin biologian kanssa. Proteiinit koostuvat 20 "kirjaimesta". Evoluution ansiosta kirjainsarja auttaa luomaan niiden lopulliset muodot. Jos suuret kielimallit voivat helposti muuttaa englannin aakkosten 26 kirjainta yhtenäisiksi viesteiksi, miksi ne eivät toimisi myös proteiineille?

Spoileri: he tekevät. ESM-2 räjähti noin 600 miljoonan proteiinin rakenneennusteen läpi vain kahdessa viikossa käyttämällä 2,000 60 graafista prosessointiyksikköä (GPU). Aiempiin yrityksiin verrattuna tekoäly nopeuttai prosessia jopa XNUMX kertaa. Kirjoittajat laittavat kaikki rakenteet ESM Metagenomic Atlas -ohjelmaan, jota voit tutkia tätä.

Tohtori Alfonso Valencialle Barcelonan kansallisesta supertietokonekeskuksesta (BCS), joka ei ollut mukana työssä, suurten kielijärjestelmien käytön kauneus on "käsitteellistä yksinkertaisuutta.” Jatkokehityksen myötä tekoäly voi ennustaa "ei-luonnollisten proteiinien rakenteen, mikä laajentaa tunnettua maailmankaikkeutta evoluutioprosessien tutkimista pidemmälle".

Puhutaanpa evoluutiosta

ESMFold noudattaa yksinkertaista ohjetta: järjestys ennustaa rakenteen.

Perääntykäämme. Proteiinit valmistetaan 20 aminohaposta, joista jokainen on "kirjain" ja ne on kietoutunut kuin piikkihelmiä nauhaan. Solumme muotoilevat niistä sitten herkkiä piirteitä: jotkut näyttävät rypistyneiltä lakanoilta, toiset pyörteisiltä karkkiruokilta tai löysiltä nauhoilta. Proteiinit voivat sitten tarttua toisiinsa muodostaen multipleksin – esimerkiksi tunnelin, joka ylittää aivosolukalvon, joka ohjaa sen toimintaa ja puolestaan ​​ohjaa sitä, miten ajattelemme ja muistamme.

Tiedemiehet ovat pitkään tienneet, että aminohappokirjaimet auttavat muokkaamaan proteiinin lopullista rakennetta. Kielen kirjainten tai merkkien tapaan vain tietyt kirjaimet ovat järkeviä, kun ne on yhdistetty toisiinsa. Proteiinien tapauksessa nämä sekvenssit tekevät niistä toimivia.

"Proteiinin biologiset ominaisuudet rajoittavat sen sekvenssin mutaatioita, jotka valitaan evoluution kautta", kirjoittajat sanoivat.

Samalla tavalla kuin aakkosten eri kirjaimet yhtyvät luomaan sanoja, lauseita ja kappaleita kuulostamatta täydelliseltä hölynpölyltä, proteiinikirjaimet tekevät saman. On olemassa eräänlainen "evoluutiosanakirja", joka auttaa yhdistämään aminohapot rakenteiksi, joita keho voi ymmärtää.

"Tunnetuissa proteiineissa olevien aminohappojen peräkkäisyyden logiikka on seurausta evoluutioprosessista, joka on johtanut siihen, että niillä on tietty rakenne, jolla ne suorittavat tietyn toiminnon", Valencia sanoi.

Herra AI, tee minusta proteiini

Elämän suhteellisen rajallinen sanakirja on hyviä uutisia suurille kielimalleille.

Nämä tekoälymallit tutkivat helposti saatavilla olevia tekstejä oppiakseen ja rakentaakseen seuraavan sanan ennusteita. Lopputuloksena, kuten GPT-3:ssa ja ChatGPT:ssä nähdään, on hämmästyttävän luonnollisia keskusteluja ja fantastisia taiteellisia kuvia.

Meta AI käytti samaa konseptia, mutta kirjoitti proteiinirakenteen ennusteiden ohjekirjan uudelleen. Sen sijaan, että ne olisivat syöttäneet algoritmia teksteillä, he antoivat tunnettujen proteiinien ohjelmasekvenssit.

Tekoälymalli, jota kutsutaan muuntajaproteiinikielimalliksi, oppi proteiinien yleisen arkkitehtuurin käyttämällä jopa 15 miljardia "asetusta". Se näki yhteensä noin 65 miljoonaa erilaista proteiinisekvenssiä.

Seuraavassa vaiheessa tiimi kätki tekoälyltä tiettyjä kirjaimia ja kehotti sitä täyttämään kohdat. Missä määrin automaattinen täydennys, ohjelma lopulta oppi kuinka eri aminohapot liittyvät toisiinsa (tai hylkivät) toisiaan. Lopulta tekoäly muodosti intuitiivisen ymmärryksen evolutionaarisista proteiinisekvensseistä ja siitä, kuinka ne toimivat yhdessä muodostaen toiminnallisia proteiineja.

Tuntemattomaan

Todisteeksi konseptista tiimi testasi ESMFoldia kahdella tunnetulla testisarjalla. Yksi, CAMEO, käsitti lähes 200 rakennetta; toisessa, CASP14:ssä, on 51 julkisesti julkaistua proteiinimuotoa.

Kaiken kaikkiaan tekoäly "tarjoaa huippuluokan rakenteen ennustustarkkuuden", tiimi sanoi, "vastaamaan AlphaFold2-suorituskyvyn yli puolella proteiineista". Se torjui myös luotettavasti suuria proteiinikomplekseja – esimerkiksi hermosolujen kanavia, jotka ohjaavat niiden toimintaa.

Sitten tiimi otti tekoälynsä askeleen pidemmälle ja uskaltautui metagenomiikan maailmaan.

Metagenomit ovat sitä, miltä ne kuulostavat: DNA-materiaalia. Normaalisti ne tulevat ympäristön lähteistä, kuten jalkojen alla olevasta liasta, merivedestä tai jopa normaalisti epäystävällisistä lämpöaukoista. Useimpia mikrobeja ei voida kasvattaa keinotekoisesti laboratorioissa, mutta joillakin on supervoimia, kuten vulkaanisen tason lämmön vastustuskyky, mikä tekee niistä biologisen pimeän aineen, jota ei ole vielä tutkittu.

Kun paperi julkaistiin, tekoäly oli ennustanut yli 600 miljoonaa näistä proteiineista. Luku on nyt yli 700 miljoonaa uusimmalla julkaisulla. Ennusteet tulivat nopeasti ja raivokkaasti noin kahdessa viikossa. Sitä vastoin aiemmat mallinnusyritykset kestivät jopa 10 minuuttia vain yhdelle proteiinille.

Noin kolmannes proteiiniennusteista oli erittäin luotettavia, ja niissä oli tarpeeksi yksityiskohtia atomitason asteikolle lähentämiseksi. Koska proteiinien ennusteet perustuivat yksinomaan niiden sekvensseihin, miljoonia "muukalaisia" ilmestyi - rakenteita toisin kuin mikään vakiintuneista tietokannoista tai aiemmin testatuista.

"On mielenkiintoista, että yli 10 prosenttia ennusteista koskee proteiineja, jotka eivät muistuta muita tunnettuja proteiineja", Valencia sanoi. Se saattaa johtua kielimallien taikuudesta, sillä ne ovat paljon joustavampia tutkiessaan – ja mahdollisesti luomaan – aiemmin tuntemattomia sekvenssejä, jotka muodostavat toiminnallisia proteiineja. "Tämä on uusi tila sellaisten proteiinien suunnittelulle, joilla on uusia sekvenssejä ja biokemiallisia ominaisuuksia biotekniikan ja biolääketieteen sovelluksilla", hän sanoi.

Esimerkiksi ESMFold voisi mahdollisesti auttaa selvittämään proteiinin yksikirjaimien muutosten seurauksia. Nämä hyvänlaatuiselta vaikuttavat muutokset, joita kutsutaan pistemutaatioiksi, aiheuttavat tuhoisia metabolisia oireyhtymiä, sirppisoluanemiaa ja syöpää. Laiha, keskinkertainen ja suhteellisen yksinkertainen tekoäly tuo tuloksia keskimääräiseen biolääketieteelliseen tutkimuslaboratorioon ja skaalaa proteiinin muotoennusteita tekoälyn nopeuden ansiosta.

Biolääketieteen lisäksi toinen kiehtova ajatus on, että proteiinit voivat auttaa kouluttamaan suuria kielimalleja tavalla, jota tekstit eivät pysty. Kuten Valencia selitti, "Yhtäältä proteiinisekvenssit ovat runsaampia kuin tekstit, niillä on tarkempi koko ja suurempi vaihtelu. Toisaalta proteiineilla on vahva sisäinen "merkitys" eli vahva suhde sekvenssin ja rakenteen välillä, merkitys tai koherenssi, joka on paljon hajautetumpi teksteissä", yhdistäen nämä kaksi kenttää hyödylliseksi palautesilmukaksi.

Kuva pistetilanne: AI tavoite

Aikaleima:

Lisää aiheesta Singulaarisuus Hub