Meta 的新人工智能正在挖掘地球上最神秘的蛋白质

由柏拉图重新发布

关注： 0

解决每个蛋白质结构的竞赛刚刚迎来了另一个科技巨头：Meta AI。

作为以 Facebook 和 Instagram 闻名的 Meta 的研究分支，该团队带着一个雄心勃勃的目标进入了蛋白质形状预测领域：破译蛋白质宇宙的“暗物质”。这些蛋白质经常存在于细菌、病毒和其他微生物中，它们存在于我们的日常环境中，但对科学来说却是完全的谜团。

“这些是我们了解最少的结构。这些是非常神秘的蛋白质。我认为它们提供了深入了解生物学的潜力，” 说过资深作者 Alexander Rives 博士 的性质。

换句话说，它们是生物技术灵感的宝库。隐藏在其神秘形状中的是设计的关键高效生物燃料, 抗生素, 酶，甚至全新的生物. 反过来，来自蛋白质预测的数据可以进一步训练人工智能模型。

Meta 的新人工智能（称为 ESMFold）的核心是一个大型语言模型。这听起来可能很熟悉。这些机器学习算法通过摇滚明星聊天机器人 ChatGPT 风靡全球。 ChatGPT 和最近推出的 GPT-4-接受过数百万公开文本的培训。最终，AI 学会了预测字母、单词，甚至写下整个段落，对于 Bing 的类似聊天机器人，对话有时会变得有些不安。

新研究，发表于科学，将 AI 模型与生物学联系起来。蛋白质由 20 个“字母”组成。由于进化，字母的顺序有助于生成它们的最终形状。如果大型语言模型可以轻松地将英文字母表中的 26 个字母解释为连贯的信息，为什么它们不能对蛋白质起作用？

剧透：他们有。 ESM-2 使用 600 个图形处理单元 (GPU) 在短短两周内完成了大约 2,000 亿个蛋白质结构预测。与之前的尝试相比，AI 使该过程快了 60 倍。作者将每个结构都放入了 ESM 宏基因组图谱中，您可以探索此处.

对于未参与这项工作的巴塞罗那国家超级计算中心 (BCS) 的 Alfonso Valencia 博士来说，使用大型语言系统的美妙之处在于“概念简单” 随着进一步的发展，人工智能可以预测“非天然蛋白质的结构，将已知宇宙扩展到进化过程所探索的范围之外。”

让我们谈谈进化

ESMFold 遵循一个简单的准则：序列预测结构。

让我们回溯。蛋白质由 20 种氨基酸组成——每个氨基酸都是一个“字母”——并且像带尖的珠子一样串起来。然后我们的细胞将它们塑造成精致的特征：有些看起来像皱巴巴的床单，其他的像漩涡状的拐杖糖或松散的丝带。然后这些蛋白质可以相互抓住以形成多重通路——例如，一条穿过脑细胞膜的隧道控制着它的行为，进而控制着我们的思考和记忆方式。

科学家们早就知道氨基酸字母有助于塑造蛋白质的最终结构。类似于语言中的字母或字符，只有特定的字母或字符串在一起才有意义。就蛋白质而言，这些序列使它们发挥作用。

“蛋白质的生物学特性限制了通过进化选择的序列突变，”作者说。

类似于字母表中的不同字母如何汇聚成单词、句子和段落而不听起来像完全胡言乱语，蛋白质字母也是如此。有各种各样的“进化词典”可以帮助将氨基酸串成身体可以理解的结构。

“已知蛋白质中氨基酸序列的逻辑是进化过程的结果，导致它们具有执行特定功能的特定结构，”瓦伦西亚说。

AI先生，让我成为蛋白质

人生相对有限的字典是大型语言模型的好消息.

这些 AI 模型会搜索现成的文本来学习和建立对下一个词的预测。正如在 GPT-3 和 ChatGPT 中看到的那样，最终结果是惊人的自然对话和梦幻般的艺术图像。

Meta AI 使用相同的概念，但重写了蛋白质结构预测的剧本。他们没有向算法提供文本，而是提供了已知蛋白质的程序序列。

AI 模型——称为转化蛋白语言模型——使用多达 15 亿个“设置”学习了蛋白质的一般结构。它总共看到了大约 65 万个不同的蛋白质序列。

在他们的下一步中，该团队隐藏了 AI 的某些字母，提示它填补空白。在相当于自动完成的情况下，该程序最终了解了不同的氨基酸如何相互连接（或排斥）。最终，人工智能形成了对进化蛋白质序列的直观理解——以及它们如何协同工作来制造功能性蛋白质。

进入未知

作为概念验证，该团队使用两个著名的测试集测试了 ESMFold。一是CAMEO，涉及近200个结构；另一个 CASP14 有 51 种公开发布的蛋白质形状。

总体而言，人工智能“提供了最先进的结构预测准确性，”该团队表示，“在超过一半的蛋白质上与 AlphaFold2 的性能相匹配。” 它还可靠地处理了大型蛋白质复合物——例如，神经元上控制其行为的通道。

然后，该团队将他们的人工智能更进一步，冒险进入宏基因组学的世界。

宏基因组顾名思义：DNA 材料的大杂烩。通常这些来自环境来源，例如脚下的泥土、海水，甚至通常是荒凉的热喷口。大多数微生物不能在实验室中人工培养，但有些微生物具有超能力，例如抵抗火山级高温，使它们成为尚待探索的生物暗物质。

在这篇论文发表时，人工智能已经预测了超过 600 亿个这样的蛋白质。最新版本的数字现在已超过 700 亿。这些预测在大约两周内来得又快又猛。相比之下，以前的建模尝试只需要 10 分钟的时间来构建一个蛋白质。

大约三分之一的蛋白质预测具有很高的可信度，其细节足以放大到原子级尺度。由于蛋白质预测完全基于它们的序列，因此出现了数以百万计的“外星人”——与已建立的数据库或之前测试过的数据库中的任何结构都不一样的结构。

“有趣的是，超过 10% 的预测是针对与其他已知蛋白质没有相似之处的蛋白质，”Valencia 说。这可能是由于语言模型的魔力，它在探索和可能生成以前闻所未闻的构成功能蛋白质的序列方面要灵活得多。 “这是一个新的空间，可以设计具有新序列和生化特性的蛋白质，并将其应用于生物技术和生物医学，”他说。

例如，ESMFold 可能有助于确定蛋白质中单个字母变化的后果。这些看似良性的编辑被称为点突变，会对身体造成严重破坏，导致毁灭性的代谢综合征、镰状细胞性贫血和癌症。精简、平均且相对简单的 AI 可为普通生物医学研究实验室带来结果，同时由于 AI 的速度而扩大蛋白质形状预测。

除了生物医学，另一个有趣的想法是蛋白质可以帮助训练大型语言模型，而文本无法做到这一点。正如 Valencia 解释的那样，“一方面，蛋白质序列比文本更丰富，具有更明确的大小和更高程度的可变性。另一方面，蛋白质具有很强的内在“意义”——即序列和结构之间的密切关系，这种意义或连贯性在文本中更为分散，”将这两个领域连接成一个良性反馈循环。

图片来源：元人工智能