Metas nye AI graver inn i de mest mystiske proteinene på jorden

Metas nye AI graver inn i de mest mystiske proteinene på jorden

Kilde node: 2022738

Kappløpet om å løse alle proteinstrukturer ønsket nettopp en annen teknologigigant velkommen: Meta AI.

En forskningsavlegger av Meta, kjent for Facebook og Instagram, kom teamet inn på prediksjonsscenen for proteinform med et ambisiøst mål: å tyde den "mørk materie" i proteinuniverset. Disse proteinene finnes ofte i bakterier, virus og andre mikroorganismer, og disse proteinene ligger i våre daglige miljøer, men er fullstendige mysterier for vitenskapen.

"Dette er strukturene vi vet minst om. Dette er utrolig mystiske proteiner. Jeg tror de tilbyr potensialet for stor innsikt i biologi,» sa seniorforfatter Dr. Alexander Rives til Nature.

Med andre ord, de er en skattekiste av inspirasjon for bioteknologi. Skjult i deres hemmelighetsfulle former er nøkler for design effektivt biodrivstoff, antibiotika, enzymer, eller helt nye organismer. På sin side kan dataene fra proteinspådommer trene AI-modeller videre.

I hjertet av Metas nye AI, kalt ESMFold, er en stor språkmodell. Det høres kanskje kjent ut. Disse maskinlæringsalgoritmene har tatt verden med storm med rockstar-chatboten ChatGPT. Kjent for sin evne til å generere vakre essays, dikt og tekster med enkle oppfordringer, ChatGPT – og den nylig lanserte GPT-4— er opplært med millioner av offentlig tilgjengelige tekster. Etter hvert lærer AI å forutsi bokstaver, ord og til og med skrive hele avsnitt og, i tilfelle av Bings lignende chatbot, holde samtaler som noen ganger blir litt nervepirrende.

Den nye studien, publisert i Vitenskap, bygger bro mellom AI-modellen med biologi. Proteiner er laget av 20 "bokstaver". Takket være evolusjonen bidrar bokstavsekvensen til å generere deres ultimate former. Hvis store språkmodeller enkelt kan tolke de 26 bokstavene i det engelske alfabetet til sammenhengende meldinger, hvorfor kan de ikke også fungere for proteiner?

Spoiler: det gjør de. ESM-2 eksploderte gjennom omtrent 600 millioner proteinstrukturspådommer på bare to uker ved å bruke 2,000 grafiske prosesseringsenheter (GPUer). Sammenlignet med tidligere forsøk, gjorde AI prosessen opptil 60 ganger raskere. Forfatterne legger alle strukturer inn i ESM Metagenomic Atlas, som du kan utforske her..

For Dr. Alfonso Valencia ved Barcelona National Supercomputing Center (BCS), som ikke var involvert i arbeidet, er det fine med å bruke store språksystemer en "konseptuell enkelhet." Med videre utvikling kan AI forutsi "strukturen til ikke-naturlige proteiner, og utvide det kjente universet utover det evolusjonære prosesser har utforsket."

La oss snakke evolusjon

ESMFold følger en enkel retningslinje: sekvens forutsier struktur.

La oss gå tilbake. Proteiner er laget av 20 aminosyrer - hver av dem en "bokstav" - og tredd opp som piggete perler på en snor. Cellene våre former dem deretter til delikate trekk: noen ser ut som krøllete laken, andre som en snurrende sukkerstang eller løse bånd. Proteinene kan deretter gripe tak i hverandre for å danne en multipleks – for eksempel en tunnel som krysser hjernecellemembranen som kontrollerer dens handlinger, og i sin tur kontrollerer hvordan vi tenker og husker.

Forskere har lenge visst at aminosyrebokstaver er med på å forme den endelige strukturen til et protein. I likhet med bokstaver eller tegn i et språk, er det bare visse når de er satt sammen, som gir mening. Når det gjelder proteiner, gjør disse sekvensene dem funksjonelle.

"De biologiske egenskapene til et protein begrenser mutasjonene til sekvensen som velges gjennom evolusjon," sa forfatterne.

I likhet med hvordan forskjellige bokstaver i alfabetet konvergerer for å lage ord, setninger og avsnitt uten å høres ut som fullstendig vrøvl, gjør proteinbokstavene det samme. Det er en slags "evolusjonsordbok" som hjelper til med å sette sammen aminosyrer til strukturer kroppen kan forstå.

"Logikken i rekkefølgen av aminosyrer i kjente proteiner er resultatet av en evolusjonær prosess som har ført til at de har den spesifikke strukturen som de utfører en bestemt funksjon med," sa Valencia.

Mr. AI, lag meg til et protein

Livets relativt begrensede ordbok er gode nyheter for store språkmodeller.

Disse AI-modellene leter etter lett tilgjengelige tekster for å lære og bygge opp spådommer om det neste ordet. Sluttresultatet, som sett i GPT-3 og ChatGPT, er slående naturlige samtaler og fantastiske kunstneriske bilder.

Meta AI brukte det samme konseptet, men omskrev lekeboken for spådommer om proteinstruktur. I stedet for å mate algoritmen med tekster, ga de programsekvensene til kjente proteiner.

AI-modellen - kalt en transformatorproteinspråkmodell - lærte den generelle arkitekturen til proteiner ved å bruke opptil 15 milliarder "innstillinger." Den så omtrent 65 millioner forskjellige proteinsekvenser totalt.

I det neste trinnet gjemte teamet visse bokstaver fra AI, og ba den fylle ut de tomme feltene. I det som utgjør autofullføring, lærte programmet etter hvert hvordan forskjellige aminosyrer kobles til (eller frastøter) hverandre. Til slutt dannet AI en intuitiv forståelse av evolusjonære proteinsekvenser - og hvordan de fungerer sammen for å lage funksjonelle proteiner.

Inn i det ukjente

Som et bevis på konseptet testet teamet ESMFold ved å bruke to velkjente testsett. En, CAMEO, involverte nesten 200 strukturer; den andre, CASP14, har 51 offentlig utgitte proteinformer.

Totalt sett gir AI "state-of-the-art strukturprediksjonsnøyaktighet," sa teamet, "som matcher AlphaFold2-ytelsen på mer enn halvparten av proteinene." Den taklet også pålitelig store proteinkomplekser - for eksempel kanalene på nevronene som kontrollerer deres handlinger.

Teamet tok deretter AI et skritt videre, og begav seg inn i metagenomikkens verden.

Metagenomer er hva de høres ut som: en haug av DNA-materiale. Normalt kommer disse fra miljøkilder som skitt under føttene, sjøvann eller til og med normalt ugjestmilde termiske ventiler. De fleste mikrober kan ikke dyrkes kunstig i laboratorier, men noen har superkrefter som å motstå varme på vulkansk nivå, noe som gjør dem til en biologisk mørk materie som ennå ikke skal utforskes.

På det tidspunktet avisen ble publisert, hadde AI spådd over 600 millioner av disse proteinene. Antallet er nå oppe i over 700 millioner med den siste utgivelsen. Spådommene kom raskt og rasende på omtrent to uker. I kontrast tok tidligere modelleringsforsøk opptil 10 minutter for bare ett enkelt protein.

Omtrent en tredjedel av proteinspådommene var av høy selvtillit, med nok detaljer til å zoome inn på atomnivåskalaen. Fordi proteinspådommene utelukkende var basert på sekvensene deres, dukket det opp millioner av "romvesener" - strukturer som ikke ligner noe annet i etablerte databaser eller de som tidligere er testet.

"Det er interessant at mer enn 10 prosent av spådommene er for proteiner som ikke ligner på andre kjente proteiner," sa Valencia. Det kan være på grunn av magien til språkmodeller, som er langt mer fleksible når det gjelder å utforske – og potensielt generere – tidligere uhørte sekvenser som utgjør funksjonelle proteiner. "Dette er et nytt rom for design av proteiner med nye sekvenser og biokjemiske egenskaper med applikasjoner innen bioteknologi og biomedisin," sa han.

Som et eksempel kan ESMFold potensielt hjelpe til med å finne ut konsekvensene av enkeltbokstavsendringer i et protein. Disse tilsynelatende godartede endringene, kalt punktmutasjoner, skaper kaos i kroppen og forårsaker ødeleggende metabolske syndromer, sigdcelleanemi og kreft. En slank, gjennomsnittlig og relativt enkel AI gir resultater til det gjennomsnittlige biomedisinske forskningslaboratoriet, mens den skalerer opp proteinformprediksjoner takket være AIs hastighet.

Bortsett fra biomedisin, er en annen fascinerende idé at proteiner kan hjelpe til med å trene store språkmodeller på en måte tekster ikke kan. Som Valencia forklarte, "På den ene siden er proteinsekvenser mer tallrike enn tekster, har mer definerte størrelser og en høyere grad av variasjon. På den annen side har proteiner en sterk indre "betydning" - det vil si et sterkt forhold mellom sekvens og struktur, en mening eller sammenheng som er mye mer diffus i tekster," som bygger bro mellom de to feltene til en god tilbakemeldingssløyfe.

Bilde Credit: Meta AI

Tidstempel:

Mer fra Singularity Hub