撰文丨王聪
编辑丨王多鱼
排版丨水成文
近年来,人工智能(AI)在生命科学领域的最重要的突破莫过于AlphaFold,这款由 DeepMind 推出的 AI 工具能够仅根据氨基酸序列就实现对蛋白质三维结构的精准预测,并获得了诺贝尔奖的认可。
而最近,DeepMind 推出了一款新型 AI 工具——AlphaGenome,这是一个全新的DNA 序列模型,能够更全面、更准确地预测人类 DNA 序列中的单碱基突变如何影响调控基因的多种生物学过程,该模型能够处理高达 100万碱基对的长 DNA 序列,高精度地预测广泛的基因组特征和突变效应,从而有助于查明遗传疾病的病因,指导合成 DNA 的设计,加速对基因组(尤其是非编码基因组)的基本理解。
该研究于 2026 年 1 月 28 日发表于Nature期刊,论文题为:Advancing regulatory variant effect prediction with AlphaGenome,并被选为当期封面论文。
DeepMind表示,相信 AlphaGenome 能够成为科学界的一项宝贵资源,帮助科学家更好地理解基因组功能、疾病生物学,最终推动新的生物学发现以及新疗法的开发。
基因组是我们的细胞操作手册。它是完整的 DNA 集合,几乎指导着生物体的每一个部分,从外观和功能到生长和繁殖。基因组 DNA 序列的细微变化可能会改变生物体对环境的反应或其对疾病的易感性。但要解读基因组指令在分子层面是如何被读取的——以及当 DNA 发生微小变化时会发生什么——仍是生物学最大的谜团之一。
实际上,在科学家完成人类基因组草图近 25 年后的今天,人类基因组中绝大部分对我们来说仍然是个谜,占基因组98%的非编码序列尤其令人困惑,它们不编码蛋白质,但发挥着重要的调控作用。这就好比我们拥有了一本“生命之书”,但只认识其中 2% 的文字,对于剩下的 98%,我们虽然知道其很重要,却不知其含义。
2020 年,DeepMind 推出AlphaFold2,大大推进了解决困扰研究人员数十年的问题的进程:蛋白质序列如何影响其三维结构。
而要弄清楚 DNA 序列的作用则有所不同,因为不像 AlphaFold2 提供的蛋白质三维结构那样只有一个答案。实际上,一段 DNA 序列会有众多相互关联的作用——从吸引一组细胞机制附着到染色体的特定部分并将附近的基因转录成 RNA 分子,到吸引影响基因表达位置、时间和程度的蛋白质转录因子。例如,许多 DNA 序列通过改变染色体的 3D 形状来影响基因活性,要么限制要么促进转录机制的接近。
几十年来,生物学家们一直在利用各种计算工具来研究这个问题。在过去十年左右的时间里,科学家们开发了数十种 AI 模型来解读基因组。其中许多模型专注于单一任务,比如预测基因表达水平或确定单个基因中的外显子是如何被剪切和拼接成不同蛋白质的。但科学家们越来越对能够“All in One”解读 DNA 序列的工具感兴趣。
AlphaGenome 为何与众不同
在这项研究中,研究团队推出了一个统一的 DNA 序列模型——AlphaGenome,该模型能够处理高达 100万碱基对的长 DNA 序列,高精度地预测广泛的基因组特征和突变效应。
与之前的基因组模型相比,AlphaGenome 在三个方面实现了重大突破——
第一,兼顾“远景”与“近景”
以前的模型只能在“看远景”和“察细节”之间二选一:要么分析长序列但失去精细度,要么保持精细度但只能看短序列。AlphaGenome 通过创新的算法架构,首次实现了在 100 万个碱基对长度上保持单碱基分辨率的分析能力。
第二,多任务统一处理
AlphaGenome 可以同时预测数千种分子特性,包括基因的起止位置、RNA 剪接位点、DNA 可及性、蛋白质结合位点等。这意味着研究人员不再需要为不同任务使用多个专用模型,一个 AlphaGenome 就能全面解析。
第三,高效的突变影响评估
AlphaGenome 能在一秒钟内评估基因突变对所有这些分子特性的影响,通过比较突变序列与正常序列的预测结果,快速识别可能导致疾病的遗传变异。
技术核心:卷积与 Transformer 的完美结合
AlphaGenome 的架构设计巧妙结合了两种先进的神经网络技术。
卷积神经网络如同微距镜头,负责识别 DNA 序列中的局部模式——比如那些短暂的调控信号和蛋白质结合位点。这就像在文本中识别单词和短语一样,卷积层能够捕捉 DNA 中的“遗传词语”。
随后,Transformer 模块扮演广角镜头的角色,在整个序列的任意位置之间建立联系,理解全局语境。这使得模型能够把握长距离的调控关系,比如当一个增强子远离它调控的基因时,这种关系依然能被识别。
这种设计让 AlphaGenome 既见树木,又见森林。
AlphaGenome 模型架构
性能卓越:全面超越现有模型
在严格的基准测试中,AlphaGenome 表现惊人。
在 24 项 DNA 序列功能预测任务中,AlphaGenome 在 22 项中实现了最先进性能(SOTA);在 26 项遗传变异影响预测任务中,AlphaGenome 在 24 项中实现了最先进性能(SOTA)。
特别值得注意的是,比较对象包括许多专门为特定任务优化的“专用模型”,而AlphaGenome 作为一个“通用模型”,在绝大多数任务中都表现更优。这打破了“专用模型总是优于通用模型”的传统认知。
AlphaGenome 模型的架构、训练方案及全面性能评估
从实验室到现实:AlphaGenome 的实际应用
AlphaGenome 不仅理论性能卓越,在实际生物医学研究中也展现出强大应用价值。
疾病机制解析:研究团队使用 AlphaGenome 来探究一种与癌症相关的突变的潜在机制。在一项现有的T 细胞急性淋巴细胞白血病(T-ALL)患者研究中,研究团队观察到基因组中非编码区域存在突变。AlphaGenome 预测这些非编码基因突变会通过引入一个 MYB DNA 结合基序,激活附近的一个名为TAL1的基因,而
TAL1是一个已知的致癌基因,这突显了 AlphaGenome 将特定非编码基因突变与疾病基因相关联的能力。
罕见遗传病研究:许多罕见遗传病(例如脊髓性肌萎缩症和某些形式的囊性纤维化)由 RNA 剪接错误引起。AlphaGenome 能够直接从 DNA 序列预测剪接位点的位置和表达水平,为理解这些疾病提供了新工具。
合成生物学设计:AlphaGenome 的预测能力可用于指导设计具有特定调控功能的合成 DNA 序列,例如设计仅在神经细胞中激活、在肌肉细胞中保持沉默的基因开关,为精准基因治疗奠定基础。
未来展望:生命科学的新纪元
AlphaGenome 的出现,标志着基因组 AI 模型从“单项专家”向“通用翻译官”的重要转变。
结合 DeepMind 之前的突破性成果(例如蛋白质结构预测模型 AlphaFold 和编码区突变预测模型 AlphaMissense),科学界正在构建一个前所未有的“基因组集成开发环境”。这种发展代表了生物学研究范式的根本转变——从描述性科学转向预测性科学。未来,研究人员不仅可以观察生命现象,还可以预测遗传改变的影响,甚至设计特定的生命功能。
如果说 DNA 是生命的代码,那么 AlphaGenome 就是我们理解和编辑这一代码的强大解码器(DNA Decoder)。AlphaGenome 为分析调控基因组提供了一个强大且统一的模型,它提升了我们从 DNA 序列预测分子功能和突变效应的能力,为生物学发现提供了有价值的新工具,并在生物技术领域开启了应用之门。最终,AlphaGenome 成为了朝着更广泛的科学目标——解读 DNA 序列中编码的复杂细胞过程迈出的基础性一步。
论文链接:
https://www.nature.com/articles/s41586-025-10014-0
热门跟贴