Metas nya AI gräver i de mest mystiska proteinerna på jorden

Metas nya AI gräver i de mest mystiska proteinerna på jorden

Källnod: 2022738

Kapplöpet för att lösa varje proteinstruktur välkomnade bara en annan teknikjätte: Meta AI.

En forskningsavläggare av Meta, känd för Facebook och Instagram, kom teamet in på scenen för att förutsäga proteinform med ett ambitiöst mål: att dechiffrera den "mörka materien" i proteinuniversumet. Dessa proteiner finns ofta i bakterier, virus och andra mikroorganismer. Dessa proteiner sitter i våra vardagliga miljöer men är fullständiga mysterier för vetenskapen.

"Det här är de strukturer vi vet minst om. Dessa är otroligt mystiska proteiner. Jag tror att de erbjuder potential för stor insikt i biologi.” sade senior författare Dr Alexander Rives till Nature.

De är med andra ord en guldgruva av inspiration för bioteknik. Gömda i deras hemlighetsfulla former finns nycklar för design effektiva biobränslen, antibiotika, enzymer, eller ens helt nya organismer. I sin tur kan data från proteinförutsägelser ytterligare träna AI-modeller.

I hjärtat av Metas nya AI, kallad ESMFold, finns en stor språkmodell. Det kanske låter bekant. Dessa maskininlärningsalgoritmer har tagit världen med storm med rockstjärnan chatbot ChatGPT. Känd för sin förmåga att skapa vackra essäer, dikter och texter med enkla uppmaningar, ChatGPT – och den nyligen lanserade GPT-4— är utbildade med miljontals allmänt tillgängliga texter. Så småningom lär sig AI att förutsäga bokstäver, ord och till och med skriva hela stycken och, i fallet med Bings liknande chatbot, hålla konversationer som ibland blir lite irriterande.

Den nya studien, som publicerades i Vetenskap, överbryggar AI-modellen med biologi. Proteiner är gjorda av 20 "bokstäver". Tack vare evolutionen hjälper bokstäverna till att skapa deras ultimata former. Om stora språkmodeller lätt kan tolka de 26 bokstäverna i det engelska alfabetet till sammanhängande meddelanden, varför kan de inte också fungera för proteiner?

Spoiler: det gör de. ESM-2 sprängdes igenom ungefär 600 miljoner proteinstrukturförutsägelser på bara två veckor med hjälp av 2,000 60 grafiska bearbetningsenheter (GPU). Jämfört med tidigare försök gjorde AI processen upp till XNUMX gånger snabbare. Författarna lägger in varje struktur i ESM Metagenomic Atlas, som du kan utforska här..

För Dr. Alfonso Valencia vid Barcelona National Supercomputing Center (BCS), som inte var involverad i arbetet, är skönheten med att använda stora språksystem en "konceptuell enkelhet.” Med ytterligare utveckling kan AI förutsäga "strukturen av icke-naturliga proteiner, vilket expanderar det kända universum bortom vad evolutionära processer har utforskat."

Låt oss prata evolution

ESMFold följer en enkel riktlinje: sekvens förutsäger struktur.

Låt oss backa. Proteiner är gjorda av 20 aminosyror - var och en en "bokstav" - och uppträdda som taggiga pärlor på ett snöre. Våra celler formar dem sedan till ömtåliga särdrag: vissa ser ut som rufsiga lakan, andra som en snurrande godis eller lösa band. Proteinerna kan sedan ta tag i varandra för att bilda en multiplex – till exempel en tunnel som korsar hjärnans cellmembran som styr dess handlingar och i sin tur styr hur vi tänker och minns.

Forskare har länge vetat att aminosyrabokstäver hjälper till att forma den slutliga strukturen hos ett protein. På samma sätt som bokstäver eller tecken i ett språk, är det bara vissa som är sammansatta som är vettiga. När det gäller proteiner gör dessa sekvenser dem funktionella.

"De biologiska egenskaperna hos ett protein begränsar mutationerna till dess sekvens som väljs ut genom evolutionen," sa författarna.

Liknande hur olika bokstäver i alfabetet konvergerar för att skapa ord, meningar och stycken utan att låta som fullständigt skratt, gör proteinbokstäverna samma sak. Det finns en sorts "evolutionär ordbok" som hjälper till att sätta upp aminosyror till strukturer som kroppen kan förstå.

"Logiken i följden av aminosyror i kända proteiner är resultatet av en evolutionär process som har lett dem till att ha den specifika struktur med vilken de utför en viss funktion", säger Valencia.

Mr. AI, Gör mig till ett protein

Livets relativt begränsade ordbok är goda nyheter för stora språkmodeller.

Dessa AI-modeller letar igenom lättillgängliga texter för att lära sig och bygga upp förutsägelser om nästa ord. Slutresultatet, som kan ses i GPT-3 och ChatGPT, är slående naturliga samtal och fantastiska konstnärliga bilder.

Meta AI använde samma koncept, men skrev om spelboken för förutsägelser om proteinstruktur. Istället för att mata algoritmen med texter gav de programsekvenserna för kända proteiner.

AI-modellen – kallad en språkmodell för transformatorproteiner – lärde sig den allmänna arkitekturen för proteiner med hjälp av upp till 15 miljarder "inställningar". Den såg ungefär 65 miljoner olika proteinsekvenser totalt.

I nästa steg gömde teamet vissa bokstäver från AI:n, vilket uppmanade den att fylla i tomrummen. I vad som motsvarar autokomplettering lärde sig programmet så småningom hur olika aminosyror kopplas till (eller stöter bort) varandra. Till slut bildade AI en intuitiv förståelse av evolutionära proteinsekvenser – och hur de samverkar för att göra funktionella proteiner.

In i det okända

Som ett bevis på konceptet testade teamet ESMFold med två välkända testset. En, CAMEO, involverade nästan 200 strukturer; den andra, CASP14, har 51 offentligt släppta proteinformer.

Sammantaget ger AI:n "state-of-the-art strukturförutsägelseprecision", sa teamet, "matchar AlphaFold2-prestanda på mer än hälften av proteinerna." Den tacklade också på ett tillförlitligt sätt stora proteinkomplex - till exempel kanalerna på neuroner som kontrollerar deras handlingar.

Teamet tog sedan sin AI ett steg längre och gav sig in i metagenomikens värld.

Metagenomer är vad de låter som: en klunga av DNA-material. Normalt kommer dessa från miljökällor som smuts under dina fötter, havsvatten eller till och med normalt ogästvänliga termiska ventiler. De flesta av mikroberna kan inte odlas på konstgjord väg i laboratorier, men vissa har superkrafter som att motstå värme på vulkanisk nivå, vilket gör dem till en biologisk mörk materia som ännu inte har utforskats.

När tidningen publicerades hade AI förutspått över 600 miljoner av dessa proteiner. Antalet är nu uppe i över 700 miljoner med den senaste versionen. Förutsägelserna kom snabbt och rasande på ungefär två veckor. Däremot tog tidigare modelleringsförsök upp till 10 minuter för bara ett enda protein.

Ungefär en tredjedel av proteinförutsägelserna var av hög tillförlitlighet, med tillräckligt med detaljer för att zooma in på atomär nivåskalan. Eftersom proteinförutsägelserna enbart baserades på deras sekvenser, dök miljontals "utomjordingar" upp - strukturer som inte liknade någonting i etablerade databaser eller de som tidigare testats.

"Det är intressant att mer än 10 procent av förutsägelserna är för proteiner som inte liknar andra kända proteiner", säger Valencia. Det kan bero på magin med språkmodeller, som är mycket mer flexibla när det gäller att utforska - och potentiellt generera - tidigare oerhörda sekvenser som utgör funktionella proteiner. "Detta är ett nytt utrymme för design av proteiner med nya sekvenser och biokemiska egenskaper med tillämpningar inom bioteknik och biomedicin," sa han.

Som ett exempel kan ESMFold potentiellt hjälpa till att reda ut konsekvenserna av enbokstavsförändringar i ett protein. Kallade punktmutationer, dessa till synes godartade redigeringar skapar kaos i kroppen och orsakar förödande metabola syndrom, sicklecellanemi och cancer. En mager, elak och relativt enkel AI ger resultat till det genomsnittliga biomedicinska forskningslabbet, samtidigt som man skalar upp proteinformförutsägelser tack vare AI:s hastighet.

Bortsett från biomedicin är en annan fascinerande idé att proteiner kan hjälpa till att träna stora språkmodeller på ett sätt som texter inte kan. Som Valencia förklarade, "Å ena sidan är proteinsekvenser rikligare än texter, har mer definierade storlekar och en högre grad av variation. Å andra sidan har proteiner en stark inre "betydelse" - det vill säga ett starkt samband mellan sekvens och struktur, en mening eller koherens som är mycket mer diffus i texter", som överbryggar de två fälten till en god återkopplingsslinga.

Image Credit: Meta ai

Tidsstämpel:

Mer från Singularity Hub