Meta’s New AI Is Digging Into The Most Mysterious Proteins On Earth

Taasavaldanud Platon

järgijaid: 0

Võistlus iga valgustruktuuri lahendamise nimel tervitas just teist tehnoloogiahiiglast: Meta AI-d.

Facebooki ja Instagrami poolest tuntud Meta uurimistöö rühm tuli valgukuju ennustamise stseenile ambitsioonika eesmärgiga: dešifreerida valguuniversumi "tumeaine". Sageli leidub neid bakterites, viirustes ja muudes mikroorganismides, need valgud levivad meie igapäevastes keskkondades, kuid on teadusele täielikud saladused.

"Need on struktuurid, millest me kõige vähem teame. Need on uskumatult salapärased valgud. Ma arvan, et need pakuvad potentsiaali suurepäraseks ülevaateks bioloogiast. ütles vanemautor dr Alexander Rives Loodus.

Teisisõnu, need on biotehnoloogia inspiratsiooni aardehoidla. Nende salajastesse kujunditesse on peidetud kujundamise võtmed tõhusad biokütused, antibiootikumid, ensüümide, või isegi täiesti uued organismid. Valguennustustest saadud andmed võivad omakorda AI mudeleid edasi treenida.

Meta uue tehisintellekti, nimega ESMFold, keskmes on suur keelemudel. See võib tunduda tuttav. Need masinõppealgoritmid on rockstaari vestlusbotiga ChatGPT maailma vallutanud. Tuntud oma võime poolest luua lihtsate viipade abil kauneid esseesid, luuletusi ja laulusõnu, ChatGPT ja hiljuti käivitatud GPT-4— on koolitatud miljonite avalikult kättesaadavate tekstidega. Lõpuks õpib AI ennustama tähti, sõnu ja isegi kirjutama terveid lõike ning Bingi sarnase vestlusroti puhul hoidma vestlused mis mõnikord muutuvad kergelt ärritavaks.

Uus uuring, avaldatakse teadus, ühendab tehisintellekti mudeli bioloogiaga. Valgud koosnevad 20 "tähest". Tänu evolutsioonile aitab tähtede jada luua nende lõplikke kujundeid. Kui suured keelemudelid suudavad inglise tähestiku 26 tähte hõlpsasti sidusateks sõnumiteks tõlgendada, siis miks ei võiks need töötada ka valkude puhul?

Spoiler: nad teevad seda. ESM-2 läbis 600 graafikaprotsessorit (GPU) kasutades vaid kahe nädalaga ligikaudu 2,000 miljonit valgu struktuuri ennustust. Võrreldes varasemate katsetega muutis AI protsessi kuni 60 korda kiiremaks. Autorid panid kõik struktuurid ESM-i metagenoomilisesse atlasesse, mida saate uurida siin.

Dr. Alfonso Valenciale Barcelona riiklikust superarvutikeskusest (BCS), kes ei osalenud töös, on suurte keelesüsteemide kasutamise ilu "kontseptuaalne lihtsus.” Edasise arenguga suudab AI ennustada "mittelooduslike valkude struktuuri, laiendades teadaolevat universumit kaugemale sellest, mida evolutsiooniprotsessid on uurinud."

Räägime evolutsioonist

ESMFold järgib lihtsat juhist: järjestus ennustab struktuuri.

Lähme tagasi. Valgud on valmistatud 20 aminohappest – igaüks neist on “täht” – ja need on nööri otsas nagu teravad helmed. Meie rakud kujundavad need seejärel õrnadeks elementideks: mõned näevad välja nagu kortsulised voodilinad, teised nagu keerlev kommiroog või lahtised paelad. Valgud võivad seejärel üksteise külge haarata, moodustades multipleksi – näiteks tunneli, mis läbib ajuraku membraani, mis kontrollib selle tegevust ja omakorda kontrollib, kuidas me mõtleme ja mäletame.

Teadlased on juba ammu teadnud, et aminohapete tähed aitavad kujundada valgu lõplikku struktuuri. Sarnaselt keele tähtedele või tähemärkidele on mõtet ainult teatud tähed, kui need on kokku pandud. Valkude puhul muudavad need järjestused need funktsionaalseks.

"Valgu bioloogilised omadused piiravad selle järjestuse mutatsioone, mis valitakse evolutsiooni käigus," ütlesid autorid.

Sarnaselt sellele, kuidas tähestiku erinevad tähed koonduvad, et luua sõnu, lauseid ja lõike ilma täieliku jaburana, teevad sama ka valgutähed. On olemas omamoodi "evolutsiooniline sõnastik", mis aitab aminohappeid kehale arusaadavateks struktuurideks siduda.

"Teadaolevate valkude aminohapete järjestuse loogika on evolutsiooniprotsessi tulemus, mis on viinud nende spetsiifilise struktuurini, millega nad teatud funktsiooni täidavad," ütles Valencia.

Hr AI, tehke minust valk

Elu suhteliselt piiratud sõnastik on suurepärane uudis suurte keelemudelite jaoks.

Need AI-mudelid uurivad hõlpsasti kättesaadavaid tekste, et õppida ja koostada järgmise sõna ennustusi. Lõpptulemus, nagu näha GPT-3 ja ChatGPT puhul, on silmatorkavalt loomulikud vestlused ja fantastilised kunstilised pildid.

Meta AI kasutas sama kontseptsiooni, kuid kirjutas valgu struktuuri prognooside käsiraamatu ümber. Selle asemel, et algoritmi tekstidega toita, andsid nad teadaolevate valkude programmijärjestused.

AI mudel, mida nimetatakse transformervalgu keele mudeliks, õppis valkude üldist arhitektuuri, kasutades kuni 15 miljardit seadet. See nägi kokku ligikaudu 65 miljonit erinevat valgujärjestust.

Järgmises etapis peitis meeskond tehisintellekti eest teatud tähti, ajendades seda lüngad täitma. Kui suures koguses automaattäitmist, sai programm lõpuks teada, kuidas erinevad aminohapped üksteisega ühendavad (või tõrjuvad). Lõppkokkuvõttes kujundas AI intuitiivse arusaama evolutsioonilistest valgujärjestustest ja sellest, kuidas need funktsionaalsete valkude loomisel koos töötavad.

Tundmatusse

Kontseptsiooni tõestuseks testis meeskond ESMFoldi kahe tuntud testikomplekti abil. Üks, CAMEO, hõlmas ligi 200 struktuuri; teisel, CASP14, on 51 avalikult avaldatud valgukuju.

Üldiselt pakub AI "täpsemat struktuuri ennustamise täpsust," ütles meeskond, "vastab AlphaFold2 jõudlusele enam kui pooltel valkudel." Samuti võitles see usaldusväärselt suurte valgukompleksidega, näiteks neuronite kanalitega, mis kontrollivad nende tegevust.

Seejärel astus meeskond oma tehisintellektiga sammu edasi, siirdudes metagenoomika maailma.

Metagenoomid on sellised, nagu nad kõlavad: DNA-materjali pundar. Tavaliselt pärinevad need keskkonnaallikatest, nagu teie jalgade all olev mustus, merevesi või isegi tavaliselt ebasõbralikud termilised ventilatsiooniavad. Enamikku mikroobe ei saa laborites kunstlikult kasvatada, kuid mõnel neist on sellised supervõimed nagu vulkaanilise kuumuse vastupidamine, mis muudab need bioloogiliseks tumeaineks, mida tuleb veel uurida.

Paberi avaldamise ajal ennustas tehisintellekt nendest valkudest üle 600 miljoni. Viimase versiooniga on nende arv nüüd üle 700 miljoni. Ennustused tulid kiiresti ja raevukalt umbes kahe nädalaga. Seevastu varasematel modelleerimiskatsetel kulus ühe valgu puhul kuni 10 minutit.

Ligikaudu kolmandik valgu ennustustest olid suure usaldusväärsusega ja piisavalt üksikasjalikud, et suumida aatomitaseme skaalale. Kuna valkude ennustused põhinesid ainult nende järjestustel, avanesid miljonid "tulnukad" - struktuurid, mis erinevad väljakujunenud andmebaasidest või varem testitud andmebaasidest.

"On huvitav, et enam kui 10 protsenti ennustustest puudutavad valke, mis ei sarnane teiste teadaolevate valkudega," ütles Valencia. See võib olla tingitud keelemudelite võlust, mis on palju paindlikumad funktsionaalseid valke moodustavate, varem ennekuulmatute järjestuste uurimisel ja potentsiaalselt genereerimisel. "See on uus ruum uute järjestuste ja biokeemiliste omadustega valkude kujundamiseks, mida kasutatakse biotehnoloogias ja biomeditsiinis," ütles ta.

Näiteks võib ESMFold potentsiaalselt aidata järeldada valgu ühetäheliste muutuste tagajärgi. Need näiliselt healoomulised muudatused, mida nimetatakse punktmutatsioonideks, põhjustavad kehas kaost, põhjustades laastavaid metaboolseid sündroome, sirprakuline aneemia ja vähk. Lahe, keskmine ja suhteliselt lihtne tehisintellekt toob tulemusi keskmisele biomeditsiinilisele uurimislaborile, suurendades samal ajal valgu kuju prognoose tänu tehisintellekti kiirusele.

Kui biomeditsiin kõrvale jätta, on veel üks põnev idee, et valgud võivad aidata treenida suuri keelemudeleid viisil, mida tekstid ei suuda. Nagu Valencia selgitas: "Ühelt poolt on valgujärjestused tekstidest rikkalikumad, neil on rohkem määratletud suurusi ja suurem varieeruvus. Teisest küljest on valkudel tugev sisemine "tähendus" - see tähendab, et järjestuse ja struktuuri vahel on tugev seos, tähendus või sidusus, mis on tekstides palju hajusam," ühendab need kaks välja vooruslikuks tagasisideahelaks.

Image Credit: Meta AI