基因组基础模型Evo重磅发布，AI解码分子、DNA、RNA和蛋白质|dna|rna|基础模型|序列|蛋白质

编辑|X_X

ChatGPT 可以写小说、编写计算机代码、给出食谱，它的硅片上包含了互联网上的大部分信息。如果它能对 DNA 做同样的事情会怎么样？

今天，刊登在《Science》封面上一项最新研究，美国 Arc 研究所（Arc Institute）和斯坦福大学的研究团队提出了一种机器学习模型「Evo」，其能够以无与伦比的准确性解码和设计从分子到基因组规模的 DNA、RNA 和蛋白质序列。

Evo 预测、生成和设计整个基因组序列的能力，可能会改变合成生物学的运作方式。

Evo 模型以数十亿条基因序列为基础，可以推断出细菌和病毒基因组的运作方式，并利用这些信息设计新的蛋白质甚至整个微生物基因组。

Evo 可以帮助科学家探索进化、研究疾病、开发新的治疗方法，并可能解答许多其他生物医学问题。

「该研究意义重大，作者对 Evo 进行的测试为 AI 提供了一个很好的应用展示。」阿贡国家实验室的计算生物学家 Arvind Ramanathan 看到论文后评价道。

该研究以「Sequence modeling and design from molecular to genome scale with Evo」为题，于 2024 年 11 月 15 发布在《Science》。

论文链接：https://www.science.org/doi/10.1126/science.ado9336

众所周知，AlphaFold可以根据蛋白质的氨基酸序列预测其结构。但 ChatGPT 和许多其他 AI 都是通用程序，即基础模型。基础模型的多功能性很有优势，科学家不必为每个任务构建和训练不同的模型，从而节省时间和金钱。ChatGPT 被称为大型语言模型(LLM)，因为它适用于几乎任何包含文字的文档，无论是政府报告还是食谱。

在分子生物学中，没有什么比 DNA 更基础的了，科学家们已经开发了一些基础模型，可以像分析 LLM 中的单词一样分析 DNA 序列。然而，这些 AI 只能解释和预测相对较短的 DNA 片段。

基因组基础模型 Evo

Evo 是为了克服这些限制而开发的，它是斯坦福大学计算生物学家 Brian Hie 团队的心血结晶，其中包括一些来自新成立的 Arc 研究所的研究人员。

基因组基础模型 Evo 是一个基于 StripedHyena 的基础模型，该模型在 270 万个进化多样的原核生物和噬菌体基因组上进行了预训练，从而获得对 DNA 语言的基本理解，可以预测 DNA 的功能或生成新的 DNA 序列。StripedHyena 架构混合了密集二次 Transformer 算子和次二次型 Hyena 算子。

为了确定 Evo 的最佳架构和缩放比例，研究比较了在计算最优边界上预训练的不同模型的缩放率，即在数据集大小和模型大小之间进行最佳计算分配。

图示：基因组基础模型 Evo。（来源：论文）

该团队的一项改进是增加所谓的上下文长度，即模型在尝试寻找 DNA 模式时使用的搜索窗口。更大的上下文长度可以提高模型识别基因或其他 DNA 序列之间联系的能力。这种设计还使团队能够将 Evo 的分辨率提高到单个核苷酸（DNA 的组成部分）的水平，而之前的模型只能处理核苷酸组。

研究人员在构建 Evo 后对其进行了 4 周的训练，在此期间，该模型对 80,000 个微生物基因组以及数百万个针对细菌的病毒序列和质粒进行了自我学习。

Hie 说，理论上，恶意用户可以利用像 Evo 这样的模型来设计生物武器，因此研究人员从 AI 的训练集中删除了任何攻击人类或其他真核生物的病毒序列。总的来说，Evo 从 3000 亿个核苷酸的序列信息中学习。

图示：对原核生物的基因组基础模型进行预训练。（来源：论文）

从分子到基因组的序列建模和设计

为了测试 Evo，研究人员要求它预测突变对蛋白质性能的影响。这些知识对于理解 DNA 「故障」如何导致疾病以及设计新药非常重要。

研究小组通过将 Evo 的预测与其他科学家在细菌细胞中诱发相同突变的已发表实验进行比较，来检查 Evo 的准确度。Evo 胜过之前从 DNA 序列数据推断突变效应的人工智能模型；其工作效果与其他依赖蛋白质序列的 AI 模型一样好。

像 ChatGPT 这样的 AI 模型如此有用的一个原因是它们可以创建新内容。「我们想证明我们的模型有这种能力，」Hie 说。因此，他的团队让 Evo 设计新版本的 CRISPR 基因组编辑器。这项任务很有挑战性，因为 CRISPR 包括两种必须协同工作的组件：DNA 切片 Cas 蛋白和将酶引导到要编辑的基因组位置的 RNA 分子。

Evo 首先研究了 70,000 多个编码 Cas 蛋白及其伴侣 RNA 的细菌 DNA 序列。然后，该模型设计了数百万个分子的潜在版本。研究人员挑选了 11 个最有前途的 Cas9 变体，并在实验室中合成了这些蛋白质。

研究人员发现，在试管实验中，Evo 设计的 Cas9 酶中最好的一种，在切割 DNA 方面与商业版本的蛋白质一样好。为了改进 Cas 蛋白，科学家们传统上一直在寻找具有更有效酶版本的细菌。

图示：对 CRISPR-Cas 序列进行微调可以实现蛋白质-RNA 复合物的生成设计。（来源：论文）

Evo 还擅长多模态生成任务，团队通过生成合成的 CRISPR-Cas 分子复合物和转座系统证明了这一点。研究人员实验验证了 Evo 生成的 CRISPR-Cas 分子复合物以及 IS200 和 IS605 转座系统的功能活性，这是使用语言模型进行蛋白质-RNA 和蛋白质-DNA 协同设计的第一个实例。