Nowa sztuczna inteligencja Meta zagłębia się w najbardziej tajemnicze białka na Ziemi

Nowa sztuczna inteligencja Meta zagłębia się w najbardziej tajemnicze białka na Ziemi

Węzeł źródłowy: 2022738

Wyścig mający na celu rozwiązanie każdej struktury białkowej właśnie powitał kolejnego giganta technologicznego: Meta AI.

Zespół badawczy Meta, znany z Facebooka i Instagrama, wkroczył na scenę przewidywania kształtu białek z ambitnym celem: rozszyfrować „ciemną materię” wszechświata białek. Białka te, często spotykane w bakteriach, wirusach i innych mikroorganizmach, są obecne w naszym codziennym środowisku, ale dla nauki stanowią kompletną tajemnicę.

„Są to struktury, o których wiemy najmniej. To niezwykle tajemnicze białka. Myślę, że oferują one potencjał do uzyskania wspaniałego wglądu w biologię” powiedziany starszy autor dr Alexander Rives do Natura.

Innymi słowy, są skarbnicą inspiracji dla biotechnologii. W ich tajemniczych kształtach ukryte są klucze do projektowania wydajne biopaliwa, antybiotyki, Enzymy, lub nawet zupełnie nowe organizmy. Z kolei dane z prognoz białek mogą dalej trenować modele AI.

Sercem nowej sztucznej inteligencji Meta, nazwanej ESMFold, jest duży model językowy. To może brzmieć znajomo. Te algorytmy uczenia maszynowego podbiły świat dzięki chatbotowi ChatGPT, który jest gwiazdą rocka. Znany ze swojej zdolności do generowania pięknych esejów, wierszy i tekstów za pomocą prostych podpowiedzi, ChatGPT — i niedawno uruchomiony GPT-4—są szkoleni z milionami publicznie dostępnych tekstów. W końcu sztuczna inteligencja uczy się przewidywać litery, słowa, a nawet pisać całe akapity, a w przypadku podobnego chatbota Binga rozmowy które czasami stają się nieco denerwujące.

Nowe badanie, opublikowane w nauka, łączy model sztucznej inteligencji z biologią. Białka składają się z 20 „liter”. Dzięki ewolucji kolejność liter pomaga wygenerować ich ostateczne kształty. Jeśli duże modele językowe mogą z łatwością przekształcić 26 liter alfabetu angielskiego w spójne komunikaty, dlaczego nie mogą one również działać w przypadku białek?

Spojler: robią. ESM-2 przeszedł przez około 600 milionów przewidywań struktury białek w ciągu zaledwie dwóch tygodni przy użyciu 2,000 jednostek przetwarzania grafiki (GPU). W porównaniu z poprzednimi próbami sztuczna inteligencja przyspieszyła ten proces nawet 60 razy. Autorzy umieścili każdą strukturę w atlasie metagenomicznym ESM, który możesz zbadać tutaj.

Dla dr Alfonso Valencii z Barcelońskiego Narodowego Centrum Superkomputerowego (BCS), który nie był zaangażowany w tę pracę, piękno używania dużych systemów językowych jest „konceptualna prostota”. Wraz z dalszym rozwojem sztuczna inteligencja może przewidzieć „strukturę nienaturalnych białek, rozszerzając znany wszechświat poza to, co zbadały procesy ewolucyjne”.

Porozmawiajmy o ewolucji

ESMFold kieruje się prostą zasadą: sekwencja przewiduje strukturę.

Cofnijmy się. Białka składają się z 20 aminokwasów – z których każdy jest „literą” – i nawleczonych jak kolczaste koraliki na sznurku. Nasze komórki następnie kształtują je w delikatne cechy: niektóre wyglądają jak zmięte prześcieradła, inne jak wirująca laska cukrowa lub luźne wstążki. Białka mogą następnie chwytać się nawzajem, tworząc multipleks - na przykład tunel, który przechodzi przez błonę komórkową mózgu, który kontroluje jej działania, a z kolei kontroluje sposób, w jaki myślimy i zapamiętujemy.

Naukowcy od dawna wiedzą, że litery aminokwasów pomagają kształtować ostateczną strukturę białka. Podobnie jak litery lub znaki w języku, tylko niektóre połączone ze sobą mają sens. W przypadku białek te sekwencje sprawiają, że są one funkcjonalne.

„Właściwości biologiczne białka ograniczają mutacje w jego sekwencji, które są wybierane w drodze ewolucji” – stwierdzili autorzy.

Podobnie jak różne litery alfabetu łączą się, tworząc słowa, zdania i akapity, nie brzmiąc jak kompletny bełkot, litery białkowe robią to samo. Istnieje coś w rodzaju „słownika ewolucyjnego”, który pomaga łączyć aminokwasy w struktury, które organizm może zrozumieć.

„Logika następstwa aminokwasów w znanych białkach jest wynikiem procesu ewolucyjnego, który doprowadził je do posiadania specyficznej struktury, dzięki której pełnią określoną funkcję” – powiedział Valencia.

Panie AI, zrób mi białko

Słownik życia jest stosunkowo ograniczony świetna wiadomość dla dużych modeli językowych.

Te modele AI przeszukują łatwo dostępne teksty, aby uczyć się i tworzyć przewidywania następnego słowa. Efektem końcowym, jak widać w GPT-3 i ChatGPT, są uderzająco naturalne rozmowy i fantastyczne obrazy artystyczne.

Meta AI zastosowała tę samą koncepcję, ale przepisał podręcznik do przewidywania struktury białek. Zamiast zasilać algorytm tekstami, podali programowi sekwencje znanych białek.

Model sztucznej inteligencji — zwany modelem języka białek transformatora — nauczył się ogólnej architektury białek przy użyciu do 15 miliardów „ustawień”. Widział łącznie około 65 milionów różnych sekwencji białek.

W następnym kroku zespół ukrył przed sztuczną inteligencją pewne litery, co skłoniło ją do wypełnienia pustych miejsc. W tym, co oznacza autouzupełnianie, program ostatecznie nauczył się, w jaki sposób różne aminokwasy łączą się ze sobą (lub odpychają). Ostatecznie sztuczna inteligencja stworzyła intuicyjne zrozumienie ewolucyjnych sekwencji białek – i tego, jak współpracują ze sobą, tworząc funkcjonalne białka.

W nieznane

Jako dowód słuszności koncepcji, zespół przetestował ESMFold przy użyciu dwóch dobrze znanych zestawów testów. Jeden, CAMEO, obejmował prawie 200 struktur; drugi, CASP14, ma 51 publicznie opublikowanych kształtów białek.

Ogólnie rzecz biorąc, sztuczna inteligencja „zapewnia najnowocześniejszą dokładność przewidywania struktury”, powiedział zespół, „dopasowując wydajność AlphaFold2 do ponad połowy białek”. Niezawodnie poradził sobie także z dużymi kompleksami białkowymi — na przykład z kanałami w neuronach, które kontrolują ich działania.

Następnie zespół posunął swoją sztuczną inteligencję o krok dalej, zapuszczając się w świat metagenomiki.

Metagenomy są tym, na co wyglądają: mieszanką materiału DNA. Zwykle pochodzą one ze źródeł środowiskowych, takich jak brud pod stopami, woda morska, a nawet zwykle niegościnne otwory termiczne. Większość drobnoustrojów nie może być sztucznie hodowana w laboratoriach, ale niektóre mają supermoce, takie jak odporność na ciepło na poziomie wulkanicznym, co czyni je biologiczną ciemną materią, która jeszcze nie została zbadana.

W momencie publikacji artykułu sztuczna inteligencja przewidziała ponad 600 milionów tych białek. W najnowszym wydaniu liczba ta wynosi obecnie ponad 700 milionów. Prognozy nadeszły szybko i wściekle w mniej więcej dwa tygodnie. Natomiast poprzednie próby modelowania zajmowały do ​​10 minut tylko dla pojedynczego białka.

Mniej więcej jedna trzecia przewidywań dotyczących białek była wysoce wiarygodna, z wystarczającą ilością szczegółów, aby powiększyć skalę na poziomie atomowym. Ponieważ przewidywania białek opierały się wyłącznie na ich sekwencjach, pojawiły się miliony „kosmitów” – struktur niepodobnych do niczego w ustalonych bazach danych lub wcześniej testowanych.

„To interesujące, że ponad 10 procent przewidywań dotyczy białek, które nie przypominają innych znanych białek” – powiedziała Valencia. Może to być spowodowane magią modeli językowych, które są znacznie bardziej elastyczne w eksploracji – i potencjalnie generowaniu – wcześniej niespotykanych sekwencji składających się na funkcjonalne białka. „To nowa przestrzeń do projektowania białek o nowych sekwencjach i właściwościach biochemicznych z zastosowaniami w biotechnologii i biomedycynie” – powiedział.

Na przykład ESMFold może potencjalnie pomóc w ustaleniu konsekwencji zmian jednoliterowych w białku. Te pozornie łagodne zmiany, zwane mutacjami punktowymi, sieją spustoszenie w organizmie, powodując wyniszczające zespoły metaboliczne, anemię sierpowatą i raka. Szczupła, przeciętna i stosunkowo prosta sztuczna inteligencja przynosi wyniki przeciętnemu laboratorium badań biomedycznych, jednocześnie zwiększając przewidywania kształtu białek dzięki szybkości sztucznej inteligencji.

Odkładając na bok biomedycynę, innym fascynującym pomysłem jest to, że białka mogą pomagać w trenowaniu dużych modeli językowych w sposób, w jaki nie mogą tego robić teksty. Jak wyjaśnił Valencia: „Z jednej strony sekwencje białkowe są bardziej obfite niż teksty, mają bardziej określone rozmiary i wyższy stopień zmienności. Z drugiej strony białka mają silne wewnętrzne „znaczenie” – to znaczy silny związek między sekwencją a strukturą, znaczenie lub spójność, które są znacznie bardziej rozproszone w tekstach”, łącząc te dwie dziedziny w pozytywną pętlę sprzężenia zwrotnego.

Kredytowych Image: Meta sztuczna inteligencja

Znak czasu:

Więcej z Centrum osobliwości