A Meta új mesterséges intelligencia a Föld legtitokzatosabb fehérjéibe ásott

A Meta új mesterséges intelligencia a Föld legtitokzatosabb fehérjéibe ásott

Forrás csomópont: 2022738

A fehérjeszerkezetek megoldásáért folyó verseny egy másik technológiai óriást fogadott: a Meta AI-t.

A Facebookról és az Instagramról ismert Meta kutatási leszármazottja, a csapat a fehérjeforma előrejelzési színterére ambiciózus céllal érkezett: megfejteni a fehérje-univerzum „sötét anyagát”. A baktériumokban, vírusokban és más mikroorganizmusokban gyakran előforduló fehérjék mindennapi környezetünkben megtalálhatók, de a tudomány számára teljes rejtélyek.

„Ezekről a szerkezetekről tudunk a legkevesebbet. Ezek hihetetlenül titokzatos fehérjék. Úgy gondolom, hogy nagyszerű betekintést kínálnak a biológiába.” mondott vezető szerző Dr. Alexander Rives Nature.

Más szóval, a biotechnológia inspirációjának kincsesbánya. Titkos formáikba rejtve a tervezés kulcsai hatékony bioüzemanyagok, antibiotikumok, enzimek, vagy akár teljesen új organizmusok. A fehérje-előrejelzésekből származó adatok viszont tovább képezhetik az AI-modelleket.

A Meta ESMFold névre keresztelt új mesterséges intelligencia középpontjában egy nagy nyelvi modell áll. Talán ismerősen hangzik. Ezek a gépi tanulási algoritmusok a rocksztár ChatGPT chatbottal meghódították a világot. Arról ismert, hogy egyszerű felszólításokkal gyönyörű esszéket, verseket és dalszövegeket generál, a ChatGPT – és a nemrégiben elindított GPT-4— nyilvánosan elérhető szövegek millióival vannak kiképezve. Végül a mesterséges intelligencia megtanulja megjósolni a betűket, szavakat, sőt egész bekezdéseket írni, és a Bing hasonló chatbotja esetén tartani beszélgetések amelyek néha kissé idegesítővé válnak.

Az új tanulmány, kiadva Tudomány, áthidalja az AI-modellt a biológiával. A fehérjék 20 „betűből” állnak. Az evolúciónak köszönhetően a betűk sorozata segít létrehozni végső alakjukat. Ha a nagy nyelvi modellek könnyen összefüggő üzenetekké alakíthatják az angol ábécé 26 betűjét, miért ne működhetnének a fehérjék esetében is?

Spoiler: igen. Az ESM-2 nagyjából 600 millió fehérjeszerkezeti előrejelzést robbantott át mindössze két hét alatt 2,000 grafikus feldolgozó egység (GPU) segítségével. A korábbi próbálkozásokhoz képest az AI akár 60-szor gyorsabbá tette a folyamatot. A szerzők minden struktúrát belehelyeztek az ESM Metagenomikus Atlaszba, amelyet Ön is felfedezhet itt.

Dr. Alfonso Valencia, a Barcelonai Nemzeti Szuperszámítógép Központ (BCS) munkatársa számára, aki nem vett részt a munkában, a nagy nyelvi rendszerek használatának szépsége:fogalmi egyszerűség.” A további fejlesztésekkel az AI megjósolhatja „a nem természetes fehérjék szerkezetét, kiterjesztve az ismert univerzumot az evolúciós folyamatok által feltárt határokon túl”.

Beszéljünk az evolúcióról

Az ESMFold egy egyszerű irányelvet követ: a sorrend előrejelzi a szerkezetet.

Térjünk vissza. A fehérjék 20 aminosavból állnak – mindegyik egy „betű” –, és tüskés gyöngyökként vannak felfűzve egy madzagra. Sejtjeink finom alakzatokat formálnak belőlük: némelyik gyűrött ágyneműnek, mások kavargó cukornádnak vagy laza szalagnak tűnnek. A fehérjék ezután egymáshoz kapaszkodva multiplexet alkothatnak – például egy alagutat, amely áthalad az agysejt membránján, és szabályozza annak működését, és szabályozza, hogyan gondolkodjunk és emlékezzünk.

A tudósok régóta tudják, hogy az aminosavbetűk segítenek a fehérje végső szerkezetének kialakításában. Hasonlóan egy nyelv betűihez vagy karaktereihez, csak egyes betűknek van értelme, ha összefűzik őket. A fehérjék esetében ezek a szekvenciák teszik működőképessé.

"Egy fehérje biológiai tulajdonságai korlátozzák a szekvenciájának mutációit, amelyeket az evolúció során szelektálnak" - mondták a szerzők.

Hasonlóan ahhoz, ahogy az ábécé különböző betűi konvergálnak szavak, mondatok és bekezdések létrehozására anélkül, hogy teljes halandzsának tűnnének, a fehérjebetűk ugyanezt teszik. Létezik egyfajta „evolúciós szótár”, amely segít az aminosavakból a szervezet által felfogható struktúrákba fűzni.

"Az ismert fehérjékben az aminosavak egymásutániságának logikája egy olyan evolúciós folyamat eredménye, amely arra késztette őket, hogy olyan specifikus szerkezetet kapjanak, amellyel egy adott funkciót ellátnak" - mondta Valencia.

Mr. AI, Make Me a Protein

Az élet viszonylag korlátozott szótára az nagyszerű hír a nagy nyelvű modelleknek.

Ezek a mesterséges intelligencia modellek átkutatják a könnyen elérhető szövegeket, hogy megtanulják, és előre jelezzék a következő szót. A végeredmény, ahogy a GPT-3-ban és a ChatGPT-ben is látható, feltűnően természetes beszélgetések és fantasztikus művészi képek.

A Meta AI ugyanezt a koncepciót használta, de átírta a fehérjeszerkezeti előrejelzések forgatókönyvét. Ahelyett, hogy szövegekkel táplálták volna az algoritmust, ismert fehérjék programsorozatait adták meg.

Az AI-modell – amelyet transzformátorfehérje-nyelvi modellnek neveznek – a fehérjék általános architektúráját 15 milliárd „beállítás” segítségével tanulta meg. Összességében nagyjából 65 millió különböző fehérjeszekvenciát látott.

A következő lépésben a csapat elrejtett bizonyos leveleket a mesterséges intelligencia elől, és arra késztette, hogy töltse ki az üres helyeket. Az automatikus kiegészítés mértékét a program végül megtanulta, hogy a különböző aminosavak hogyan kapcsolódnak egymáshoz (vagy hogyan taszítják el) egymást. A mesterséges intelligencia végül intuitív módon megértette az evolúciós fehérjeszekvenciákat – és azt, hogy ezek hogyan működnek együtt funkcionális fehérjék létrehozásában.

Az Ismeretlenbe

A koncepció bizonyítékaként a csapat két jól ismert tesztkészlettel tesztelte az ESMFoldot. Az egyik, a CAMEO közel 200 struktúrát érintett; a másik, a CASP14, 51 nyilvánosan kiadott fehérjeformát tartalmaz.

Összességében az AI „korszerű szerkezet-előrejelzési pontosságot biztosít” – mondta a csapat, „a fehérjék több mint felénél megfelel az AlphaFold2 teljesítményének”. Megbízhatóan megbirkózott a nagy fehérjekomplexekkel is – például a neuronok működését irányító csatornákkal.

A csapat ezután egy lépéssel tovább vitte mesterséges intelligenciáját, és bemerészkedett a metagenomika világába.

A metagenómák olyanok, amilyennek hangzanak: DNS-anyag tömbje. Általában ezek a környezeti forrásokból származnak, például a láb alatti szennyeződésből, a tengervízből vagy akár az általában nem barátságos hőszellőzőkből. A legtöbb mikrobát nem lehet mesterségesen termeszteni laboratóriumokban, de néhányuk szuperképességekkel rendelkezik, például ellenáll a vulkáni szintű hőnek, így biológiai sötét anyag, amelyet még fel kell fedezni.

A cikk megjelenésekor az MI több mint 600 millió ilyen fehérjét jósolt. A szám a legújabb kiadással már meghaladja a 700 milliót. Az előrejelzések gyorsan és dühösen jöttek nagyjából két hét alatt. Ezzel szemben a korábbi modellezési kísérletek akár 10 percet is igénybe vettek egyetlen fehérje esetében.

A fehérje-előrejelzések nagyjából egyharmada nagy megbízhatóságú volt, és elég részletes volt az atomi szintű skálára való ráközelítéshez. Mivel a fehérje-előrejelzések kizárólag a szekvenciájukon alapultak, „idegenek” milliói bukkantak fel – olyan struktúrák, amelyek nem hasonlítanak semmihez a létrehozott adatbázisokban vagy a korábban teszteltekben.

"Érdekes, hogy az előrejelzések több mint 10 százaléka olyan fehérjékre vonatkozik, amelyek nem hasonlítanak más ismert fehérjékhez" - mondta Valencia. Ez a nyelvi modellek varázslatának köszönhető, amelyek sokkal rugalmasabbak a korábban hallatlan, funkcionális fehérjéket alkotó szekvenciák feltárásában és potenciálisan generálásában. "Ez egy új terep az új szekvenciákkal és biokémiai tulajdonságokkal rendelkező fehérjék tervezésére a biotechnológiában és a biomedicinában" - mondta.

Például az ESMFold potenciálisan segíthet feltárni a fehérjék egybetűs változásainak következményeit. Ezeket a látszólag jóindulatú változásokat pontmutációnak hívják, és pusztító anyagcsere-szindrómákat, sarlósejtes vérszegénységet és rákot okoznak. A karcsú, átlagos és viszonylag egyszerű mesterséges intelligencia eredményeket hoz az átlagos orvosbiológiai kutatólaboratórium számára, miközben a mesterséges intelligencia sebességének köszönhetően felnagyítja a fehérjék alakjának előrejelzéseit.

A biomedicinán kívül egy másik lenyűgöző ötlet az, hogy a fehérjék olyan módon segíthetnek nagy nyelvi modelleket képezni, ahogyan a szövegek nem. Ahogy Valencia kifejtette: „Egyrészt a fehérjeszekvenciák bőségesebbek, mint a szövegek, határozottabb méretük van, és nagyobb a variabilitása. Másrészt a fehérjéknek erős belső „jelentésük” van – vagyis erős kapcsolat van a szekvencia és a szerkezet között, egy jelentés vagy koherencia, amely sokkal szétszórtabb a szövegekben”, áthidalva a két mezőt egy erényes visszacsatolási hurokba.

Kép: Meta AI

Időbélyeg:

Még több Singularity Hub