编辑 | 萝卜皮
在三十亿年的自然进化历程中,现存蛋白质的形态得以形成,经历了漫长的自然筛选过程。进化如同在地质时间尺度上进行的平行实验,通过随机突变和选择机制,依据蛋白质的序列、结构与功能进行筛选。
在这里,EvolutionaryScale 的研究人员展示了在进化产生的标记上训练的语言模型可以充当进化模拟器,用于生成不同于已知蛋白质序列的功能性蛋白质。
研究人员提出了 ESM3,这是一种前沿的多模态生成语言模型,可推理蛋白质的序列、结构和功能。ESM3 可以结合其模态来遵循复杂的提示,并且对生物学对齐(biological alignment)高度敏感。
研究人员使用 ESM3 生成荧光蛋白。其中一种功能上明亮的荧光蛋白,与已知的荧光蛋白的序列差异很大(58% 同源性)。
该研究的预印版文章「Simulating 500 million years of evolution with a language model」近期将发布在bioRxiv预印平台。
自然进化是如何在超过三十亿年的时间里,雕琢出当前自然界中蛋白质的多样性的呢?
这一过程涉及无数随机突变与自然选择事件,每一个环节都严格考验着蛋白质的序列、结构及其执行的生物功能,只有最适应环境变化的蛋白质才能留存下来。
因此,现存蛋白质序列信息中实质上是蕴含着生物学变量对几十亿年漫长进化路径的影响。
EvolutionaryScale 团队中提出了一种创新方法,即利用名为 ESM3 的多模态生成语言模型,可以模拟这一宏大的进化过程。
视频链接:https://mp.weixin.qq.com/s/S_BRIJcFKuKk111Gomo7xQ
视频:ESM3 概述。(来源:公司官网)
ESM3 不仅能够理解和生成蛋白质序列,还能综合考虑蛋白质的结构与功能,成为一个强大的进化模拟工具。该模型设计有独特的几何注意力机制,能高效处理蛋白质的三维结构信息,这对于理解及预测蛋白质行为至关重要。
图示:ESM3 可以同时推理蛋白质序列、结构和功能。(来源:论文)
语言模型基于离散单元或标记进行操作。为了创建一个能够推理蛋白质的三个基本生物学特性(序列、结构和功能)的模型,研究人员必须将三维结构和功能转换为离散字母表,并构建一种将每个三维结构写成字母序列的方法。
这使得 ESM3 能够进行大规模训练,从而释放新兴的生成能力。ESM3 的词汇表将序列、结构和功能都整合在同一个语言模型中。
图示:ESM3 通过序列、结构和功能的多模态提示为 PETase 活性位点设计了一个支架。(来源:论文)
ESM3 的训练目标很简单。对于每种蛋白质,提取、标记和部分屏蔽其序列、结构和功能。ESM3 的任务是使用受自然语言处理模型启发的屏蔽语言建模目标来预测屏蔽位置。
为了完成这项任务,ESM3 必须学习深入了解进化规模数据中序列、结构和功能之间的联系。当扩展到数十亿种蛋白质和数十亿个参数时,ESM3 学会模拟进化。
ESM3 能够生成不同于现有已知蛋白质序列的功能性蛋白质。此模型的特点在于其能够理解和响应复杂的多模式提示,同时对生物学对齐有很高的敏感度。
ESM3 对生物学对齐的高度敏感,意味着它能精准地识别并遵循生物进化和功能相关的模式。通过这种对齐,模型能够更好地理解蛋白质如何根据其生物学角色和环境需求进化,从而在设计新蛋白质时,更准确地反映自然界的生物逻辑和进化约束。
它可以按照提示生成新的蛋白质。ESM3 的多模态推理能力使科学家能够以前所未有的控制程度生成新蛋白质。例如,可以提示模型结合结构、序列和功能,为 PETase 的活性位点提出潜在的支架,PETase 是一种降解聚对苯二甲酸乙二醇酯 (PET) 的酶,这是蛋白质工程师分解塑料废物的研究目标。
解决了更难的生成问题
图示:ESM3 模型在生成满足原子配位提示的蛋白质的任务上进行了评估。(来源:论文)
ESM3 解决具有挑战性的蛋白质设计任务的能力,会随着蛋白质规模的扩大而显现。其中一项任务是原子协调,即根据指定序列中距离较远但结构中距离较近的氨基酸原子位置的提示来设计蛋白质。
这衡量了模型在结构生成中实现原子级精度的能力,这对于设计功能性蛋白质至关重要。ESM3 解决这些任务的能力随着规模的扩大而提高,也就是说,ESM3 解决了更难的生成问题,而规模是其中的一个函数。
ESM3 通过使用类似于 LLM 中应用的人类反馈强化学习 (RLHF) 的对齐方法,通过反馈进一步改进。ESM3 无需接收人类的反馈,而是可以自我改进,提供有关其自身生成质量的反馈。湿实验室实验或现有实验数据的反馈也可用于使 ESM3 的生成与生物学保持一致。
跨越 5 亿年的自然进化距离
研究人员利用 ESM3 设计了一种名为 esmGFP 的新荧光蛋白,它与已知最相似的荧光蛋白序列同源性仅为 58%,这在以往的人工设计中是极为罕见的。
通过指导 ESM3 关注荧光蛋白形成和催化色素体反应所必需的序列和结构特征,模型经过一系列迭代设计,最终产生了具有明亮荧光效果的 esmGFP。
图示:esmGFP 与已知荧光蛋白比较。(来源:论文)
该蛋白不仅在序列上与已知蛋白有显著差异,而且在实验中展现出与常见荧光蛋白相似的荧光强度。这相当于跨越了超过 5 亿年的自然进化距离。
EvolutionaryScale 是一家非盈利公司。他们的使命是通过与科学界合作以及开放、安全和负责任的研究,开发人工智能来理解生物学,造福人类健康和社会。自成立以来,ESM 项目一直致力于通过代码和模型发布来开放科学,该团队承诺将继续坚持下去。
该公司成立于 2023 年 7 月已经完成 1.42 亿美元种子轮融资,并已经与亚马逊(Amazon)和英伟达(NVIDIA)公司达成合作。
ESM相关代码:https://github.com/evolutionaryscale/esm
论文链接:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
https://www.evolutionaryscale.ai/blog/esm3-release
https://twitter.com/ylecun/status/1805634811773571496
https://twitter.com/ylecun/status/1805581310548697360
https://x.com/ebetica/status/1805599844246884677
https://www.businesswire.com/news/home/20240625717839/en/
热门跟贴