Новый искусственный интеллект Meta копается в самых загадочных белках на Земле

Новый искусственный интеллект Meta копается в самых загадочных белках на Земле

Исходный узел: 2022738

Гонка за раскрытием каждой белковой структуры только что приветствовала другого технологического гиганта: Мета ИИ.

Исследовательское ответвление Meta, известного благодаря Facebook и Instagram, команда вышла на сцену прогнозирования формы белков с амбициозной целью: расшифровать «темную материю» белковой вселенной. Часто встречающиеся в бактериях, вирусах и других микроорганизмах, эти белки обитают в нашей повседневной среде, но представляют собой полную загадку для науки.

«Это структуры, о которых мы знаем меньше всего. Это невероятно загадочные белки. Я думаю, что они предлагают потенциал для глубокого понимания биологии». — сказал старший автор доктор Александр Ривз Природа.

Другими словами, они являются сокровищницей вдохновения для биотехнологии. В их скрытых формах скрыты ключи для проектирования эффективное биотопливо, антибиотики, ферменты, или даже совершенно новые организмы. В свою очередь, данные предсказания белка могут дополнительно обучать модели ИИ.

В основе нового искусственного интеллекта Meta, получившего название ESMFold, лежит большая языковая модель. Это может показаться знакомым. Эти алгоритмы машинного обучения покорили мир благодаря чат-боту Rockstar ChatGPT. Известный своей способностью генерировать красивые эссе, стихи и тексты песен с помощью простых подсказок, ChatGPT и недавно запущенный GPT-4— обучаются на миллионах общедоступных текстов. Со временем ИИ научится предугадывать буквы, слова и даже писать целые абзацы, а в случае аналогичного чат-бота Bing — удерживать Беседы что иногда немного нервирует.

Новое исследование, опубликованной в Наука, соединяет модель ИИ с биологией. Белки состоят из 20 «букв». Благодаря эволюции последовательность букв помогает создавать их окончательные формы. Если большие языковые модели могут легко преобразовать 26 букв английского алфавита в связные сообщения, почему они не могут работать и с белками?

Спойлер: они делают. Всего за две недели ESM-2 выполнил примерно 600 миллионов предсказаний структуры белка, используя 2,000 графических процессоров (GPU). По сравнению с предыдущими попытками ИИ ускорил процесс до 60 раз. Авторы помещают каждую структуру в метагеномный атлас ESM, который вы можете изучить здесь.

Для доктора Альфонсо Валенсии из Национального суперкомпьютерного центра Барселоны (BCS), который не участвовал в работе, красота использования больших языковых систем представляет собой «концептуальная простота». При дальнейшем развитии ИИ может предсказывать «структуру неприродных белков, расширяя известную вселенную за пределы того, что исследовали эволюционные процессы».

Поговорим об эволюции

ESMFold следует простому правилу: последовательность предсказывает структуру.

Давай отступим. Белки состоят из 20 аминокислот, каждая из которых представляет собой «букву», и нанизаны на нитку, как колючие бусины. Затем наши клетки формируют из них изящные черты: одни выглядят как смятые простыни, другие — как закрученная леденец или рыхлые ленточки. Затем белки могут сцепляться друг с другом, образуя мультиплекс — например, туннель, который пересекает клеточную мембрану мозга и контролирует ее действия и, в свою очередь, контролирует то, как мы думаем и запоминаем.

Ученым давно известно, что буквы аминокислот помогают формировать окончательную структуру белка. Подобно буквам или символам в языке, только некоторые из них, соединенные вместе, имеют смысл. В случае белков эти последовательности делают их функциональными.

«Биологические свойства белка ограничивают мутации его последовательности, которые выбираются в процессе эволюции», — говорят авторы.

Подобно тому, как разные буквы в алфавите сливаются, образуя слова, предложения и абзацы, не звучащие как полная тарабарщина, белковые буквы делают то же самое. Существует своего рода «эволюционный словарь», который помогает связывать аминокислоты в структуры, понятные организму.

«Логика последовательности аминокислот в известных белках является результатом эволюционного процесса, который привел к тому, что они имеют специфическую структуру, с помощью которой они выполняют определенную функцию», — сказал Валенсия.

Мистер ИИ, сделайте мне белок

Относительно ограниченный словарь жизни отличные новости для больших языковых моделей.

Эти модели ИИ просматривают легкодоступные тексты, чтобы выучить и предсказать следующее слово. Конечным результатом, как видно из GPT-3 и ChatGPT, являются поразительно естественные разговоры и фантастические художественные изображения.

Мета-ИИ использовал ту же концепцию, но переписал сценарий предсказания структуры белка. Вместо того, чтобы скармливать алгоритму тексты, они давали программе последовательности известных белков.

Модель ИИ, называемая языковой моделью белка-трансформера, изучила общую архитектуру белков, используя до 15 миллиардов «настроек». Всего было обнаружено около 65 миллионов различных белковых последовательностей.

На следующем этапе команда скрыла определенные буквы от ИИ, побуждая его заполнить пробелы. В том, что касается автозаполнения, программа в конечном итоге узнала, как разные аминокислоты соединяются (или отталкиваются) друг от друга. В конце концов, ИИ сформировал интуитивное понимание эволюционных белковых последовательностей и того, как они работают вместе, чтобы создавать функциональные белки.

В неизвестность

В качестве доказательства концепции команда протестировала ESMFold, используя два известных набора тестов. Один, CAMEO, включал около 200 структур; другой, CASP14, имеет 51 общедоступную белковую форму.

В целом, ИИ «обеспечивает современную точность прогнозирования структуры», заявила команда, «соответствуя производительности AlphaFold2 более чем для половины белков». Он также надежно работал с крупными белковыми комплексами, например, с каналами нейронов, которые контролируют их действия.

Затем команда сделала шаг вперед в своем ИИ, отправившись в мир метагеномики.

Метагеномы — это то, на что они похожи: мешанина из материала ДНК. Обычно они поступают из источников окружающей среды, таких как грязь под ногами, морская вода или даже обычно негостеприимные термальные источники. Большинство микробов невозможно искусственно вырастить в лабораториях, но некоторые из них обладают сверхспособностями, такими как сопротивление вулканическому теплу, что делает их биологической темной материей, которую еще предстоит изучить.

На момент публикации статьи ИИ предсказал наличие более 600 миллионов таких белков. В последнем выпуске их число превысило 700 миллионов. Прогнозы пришли быстро и яростно примерно через две недели. Напротив, предыдущие попытки моделирования занимали до 10 минут только для одного белка.

Примерно треть предсказаний белков были с высокой степенью достоверности, с достаточной детализацией, чтобы приблизиться к масштабу атомного уровня. Поскольку предсказания белков были основаны исключительно на их последовательностях, всплыли миллионы «инопланетян» — структур, не похожих ни на что в установленных базах данных или тех, которые были протестированы ранее.

«Интересно, что более 10 процентов предсказаний относятся к белкам, не имеющим ничего общего с другими известными белками», — сказал Валенсия. Возможно, это связано с магией языковых моделей, которые гораздо более гибки в изучении — и потенциальном генерировании — ранее неизвестных последовательностей, составляющих функциональные белки. «Это новое пространство для разработки белков с новыми последовательностями и биохимическими свойствами с применением в биотехнологии и биомедицине», — сказал он.

Например, ESMFold потенциально может помочь выяснить последствия однобуквенных изменений в белке. Названные точечными мутациями, эти, казалось бы, безобидные изменения наносят ущерб организму, вызывая разрушительные метаболические синдромы, серповидноклеточную анемию и рак. Экономичный, средний и относительно простой ИИ приносит результаты в обычную биомедицинскую исследовательскую лабораторию, в то же время увеличивая прогнозы формы белка благодаря скорости ИИ.

Помимо биомедицины, еще одна интересная идея заключается в том, что белки могут помочь обучать большие языковые модели так, как тексты не могут. Как объяснил Валенсия, «с одной стороны, белковых последовательностей больше, чем текстов, они имеют более определенные размеры и более высокую степень изменчивости. С другой стороны, белки обладают сильным внутренним «смыслом», то есть прочной связью между последовательностью и структурой, значением или когерентностью, которая гораздо более расплывчата в текстах», соединяя два поля в действенную петлю обратной связи.

Изображение Фото: Мета ИИ

Отметка времени:

Больше от Singularity Hub