打开网易新闻 查看精彩图片

导语

从 DNA 序列预测功能基因组学数据的深度学习模型,是解析遗传(基因)调控密码的强大工具。现有方法需要在输入序列长度与预测分辨率之间进行权衡,从而限制了其适用模态范围和预测性能。这篇2026年1月发表于Nature的文章提出AlphaGenome—— 一种统一的 DNA 序列模型,它以 1 Mb 的 DNA 序列为输入,可在单碱基分辨率水平预测数千条功能基因组学轨迹,覆盖多种模态。这些模态包括:基因表达、转录起始、染色质可及性、组蛋白修饰、转录因子结合、染色质相互作用图谱、剪接位点使用情况及剪接接点的坐标与强度。基于人类和小鼠基因组训练的 AlphaGenome,在 26 项变异效应预测评估中,有 25 项达到或超过目前最先进的外部模型。该模型能够同时精准评估所有模态下的变异效应,可准确复现 TAL1 癌基因附近临床相关变异的作用机制。为方便更广泛的应用,我们提供了可从序列出发生成基因组轨迹及预测变异效应的工具套件。

关键词:AlphaGenome,深度学习,功能基因组学,遗传调控密码(Genetic Regulatory Code),单碱基分辨率(Single-Base-Pair Resolution),多模态,变异效应预测(Variant Effect Prediction),基因表达

魏云初丨作者

赵思怡丨审校

打开网易新闻 查看精彩图片

论文题目:Advancing regulatory variant effect prediction with AlphaGenome 论文链接:https://www.nature.com/articles/s41586-025-10014-0 发表时间:2026年1月28日 论文来源:Nature

基因调控的“圣杯”:从序列到功能的预测

自人类基因组计划完成以来,一个核心的生物学挑战始终存在:我们拥有了完整的DNA序列“天书”。超过98%的人类基因组是非编码区,它们如同基因世界的“暗物质”,复杂而难以解读。近期,Google DeepMind团队在Nature发表重磅研究,推出全新AI模型——AlphaGenome。它不仅能够处理长达1 Mb的DNA序列,还能以单碱基分辨率,同时预测基因表达、剪接、染色质状态等数千种功能图谱,在绝大多数变异效应预测任务上达到目前最优水平。这项技术或将为罕见病诊断、药物靶点发现和合成生物学带来新的可能。 近年来,深度学习为破解这一难题带来曙光。"序列到功能"模型能够从DNA序列直接预测染色质开放性、转录因子结合、基因表达量等多种分子表型。通过比较参考序列和变异序列的预测结果,这些模型就能推断变异的分子效应。 然而,现有模型普遍面临两个难以调和的矛盾。首先是"长度"与"精度"的矛盾。像SpliceAI这类模型能以单碱基分辨率进行精准预测,但其关注的上下文窗口通常只有10 kb左右,容易遗漏远端的调控元件。而Enformer、Borzoi等模型虽然能处理长达200-500 kb的序列,捕捉更广阔的调控语境,输出分辨率却降低到32 bp或128 bp的区间,模糊了剪接位点等关键细节。其次是"广度"与"深度"的矛盾。一些模型在各自擅长的单一领域表现出色,但无法提供变异影响的全面视图;而现有的多模态模型虽然在通用性上更胜一筹,但在某些具体任务上又可能落后于专用模型。

AlphaGenome:统一框架下的“全能选手”

正是在这样的背景下,Google DeepMind团队推出了AlphaGenome,其核心设计理念可以概括为长序列、高精度和多模态三个关键词,通过一个统一的框架来解决现有模型所面临的矛盾。

我们可以把AlphaGenome理解成一个非常聪明的基因“侦探”,它解读DNA长文的过程主要分三步:

第一步,输入——阅读长篇“基因小说”。DNA序列就像一本很长的书。过去的技术只能一次读一个短句,很容易漏掉前后文的联系。但AlphaGenome能一口气读完长达1百万个字母的篇章。这个长度,足以覆盖绝大部分基因调控的“远距离对话”,为理解基因之间如何互相影响提供了充足的上下文。

第二步,模型结构——分工明确的“阅读小组”。为了高效处理这本“长篇小说”,模型内部有一个巧妙的团队分工:

  • 卷积层:像一位专注的“词汇学家”,负责扫描文本,找出关键的“词语”和“短语”,也就是像转录因子结合位点这样的局部模式。

  • Transformer模块:像一位宏观的“剧作家”,负责理清前后章节的逻辑联系,理解远距离的“剧情”如何呼应。它擅长捕捉增强子如何远程激活启动子这类长程相互作用。

得益于底层的U型架构和并行计算策略,它在处理海量信息时,依然能精准到每一个“字母”(单碱基分辨率)。

第三步,输出——预测11种不同的“阅读笔记”。经过训练,这个“阅读小组”已经学习了人类和小鼠的数千个实验数据。因此,它在读完一段DNA序列后,能同时预测出11种不同的实验结果,相当于一次性生成5,930种人类或1,128种小鼠的基因组图谱。这些图谱包括:基因的表达水平、RNA的剪接方式、染色质的开放状态,甚至是DNA在三维空间里的折叠方式。

简单来说,AlphaGenome就是一个能从海量DNA序列中,一次性解读出多层次生物信息的强大工具。

整个训练过程分为两个阶段:先使用4折交叉验证训练出具有强泛化能力的“教师”模型,再通过“知识蒸馏”将这些教师模型的“知识”浓缩到一个高效的“学生”模型中。这个经过蒸馏的学生模型不仅性能更强、更鲁棒,还能在一次计算中完成对所有模态和细胞类型的预测,极大地便利了大规模变异效应分析。

打开网易新闻 查看精彩图片

图 1 AlphaGenome 整体架构示意,图中展示了 DeepMind 新一代基因组预测模型的核心设计:以1 Mb DNA 序列为输入,通过跨设备序列并行化与类 U-Net 编解码架构(编码器 + Transformer 塔 + 解码器)高效捕捉长距离调控信息;输出覆盖11 类功能基因组学模态,并根据任务特性提供从“单碱基(1 bp)到多尺度(128/2048 bp)”的精准分辨率。该架构首次实现 “长序列输入 — 精细分辨率输出 — 多模态统一预测” 的协同,是功能基因组学领域的里程碑式突破。

性能验证:全面超越,细节惊人

一个模型的设计再精巧,最终也要用性能说话。研究团队设计了极其严苛的基准测试,将AlphaGenome与现有的顶尖模型进行了正面交锋。

在基因组信号预测的多项测试中,AlphaGenome表现出了明显优势:在24项评估任务中,它在22项上取得了最好成绩。无论是预测基因表达,还是模拟染色质三维结构,抑或识别转录起始位点和染色质开放区域,它都优于目前主流的模型。 AlphaGenome实现变异效应预测的范式突破,在25/26项任务中问鼎SOTA。 该模型的核心优势在于对基因调控“语法”的深度解码能力。在剪接预测领域,它不再局限于定位剪接位点,而是能够精准预测变异对剪接过程的影响,成功捕捉从外显子跳跃到新剪接产物形成的完整致病链条。在基因表达调控上,它能以高达90%的准确率,判断一个DNA变异究竟是“打开”还是“关闭”某个基因,并且其识别出的这类功能性变异的数量,是此前最佳模型的两倍有余。这一能力对于解读“致病基因在哪里”的全基因组关联研究(GWAS)至关重要,因为它能为这些区域内的变异赋予一个明确的功能性方向。 模型在长程调控与机制可解释性上也展现出卓越性能。 AlphaGenome在零样本条件下,连接远端“增强子”(相当于基因的远程遥控器)与其目标基因的表现,即可比肩专门为此训练的模型,证明其真正习得了三维空间下的长程调控逻辑。此外,在预测影响DNA“开放程度”或调控蛋白结合的变异时,其预测结果与实验观测高度一致;通过计算机模拟变异,研究人员能清晰地看到,预测效应大的变异往往破坏了或创建了关键调控蛋白的结合密码,这为预测结果提供了直接、可验证的分子机制解释。

打开网易新闻 查看精彩图片

图 2 AlphaGenome在基因表达层面的变异效应预测能力示意。该图聚焦eQTL预测核心场景,清晰呈现模型对eQTL效应大小与方向的精准预测结果,以及在GWAS可信区间解读、增强子-基因连接预测中的落地应用。其完整覆盖从eQTL分子机制分析到复杂疾病关联研究的表达调控链条,直观体现了模型从基础科研到临床相关应用的转化价值。

不止于预测:多模态视角下的机制解读

AlphaGenome真正的强大之处,在于它能用一个统一的视角,看清整个调控网络的全貌。研究团队用一个经典的癌症案例验证了这一点:在T细胞急性淋巴细胞白血病中,TAL1癌基因附近有三个不同位置的突变——有的在基因上游,有的在内部,有的在下游。它们位置迥异,却都导致了同一个结果:TAL1基因被异常“激活”了。 当团队在相关细胞上运行AlphaGenome时,模型就像一台“时间回溯相机”,完整还原了这起基因调控案的作案全过程: 对于上游的那个突变,模型“看到”原本沉睡的DNA区域突然亮起了“激活”的指示灯——染色质变得开放,增强子标记出现,这意味着这里新生成了一个“远程开关”。与此同时,TAL1基因本身的“活跃生产”标记显著增强,而“静默关闭”的抑制标记则随之减弱。这些来自不同层面的变化,最终都汇聚到一个可观测的结果上:TAL1基因的“产量”明显增加了。 通过一次模型调用,AlphaGenome就提供了一条完整的证据链:它同时“观测”了染色质状态(DNA是封闭还是开放)、表观修饰(哪些开关被按下),以及最终的基因表达(生产是否启动),将三个位置迥异的突变如何通过不同路径殊途同归的过程,清晰地串联了起来。后续的模拟分析进一步指出,那个上游突变很可能是在DNA上“画”出了一个名为MYB的转录因子的“落脚点”,从而触发了整个连锁反应。

打开网易新闻 查看精彩图片

图 3 AlphaGenome跨模态解读TAL1癌基因变异效应示意。该图聚焦T-ALL中TAL1癌基因激活场景,通过示意图呈现三类非编码突变位点分布,并以经典插入突变为例详细展示其在多模态表观修饰与表达水平上的REF-ALT变化。ISM分析揭示该突变引入MYB转录因子基序,多模态聚类热图进一步将致癌突变与对照突变在调控特征上明显区分。通过整合多维度调控信号,该图直观揭示了非编码突变驱动TAL1异常表达的分子机制,是本研究跨模态解读能力的核心示例。

探索模型设计的“黑箱”:关键要素的消融研究

一个复杂的深度学习模型就像一个黑盒,其卓越性能究竟来源于哪些设计?研究团队通过一系列的“消融实验”来探究这个问题。

  • 分辨率是关键:对于剪接、ATAC-seq这类需要精细定位的任务,1 bp的分辨率是不可或缺的。降低分辨率会直接导致性能下降。而对于染色质接触图谱或组蛋白修饰这类本身信号就较粗糙的任务,对分辨率的敏感度则较低。

  • 长序列训练至关重要:在1 Mb全长上训练的模型,即使只在较短的序列上进行推断,其表现也优于或相当于那些用短序列训练和评估的模型。这表明,在训练阶段接触长序列上下文,能让模型学习到更普适的调控语法。

  • 蒸馏技术的价值:蒸馏技术能将多个“教师”模型的知识浓缩进一个“学生”模型中,使其性能接近甚至超过简单的模型集成,但计算成本却大大降低,是实现高效大规模应用的关键。

  • 多模态学习的协同效应:虽然在单一任务(如预测可及性变异)上,仅用可及性数据训练的模型表现不错,但一个整合了所有模态的完全多模态模型,在绝大多数任务,特别是像eQTL预测这样需要综合多种调控线索的复杂任务上,表现更佳。这说明不同模态的数据之间存在协同效应,共同促进了模型对调控语言更深层次的理解。

打开网易新闻 查看精彩图片

图7 AlphaGenome消融实验结果总览。图中展示了模型核心设计要素的性能影响,系统呈现目标分辨率、序列长度、集成与蒸馏、多模态学习四大维度的实验数据,直观揭示各设计要素对基因组轨迹预测、变异效应预测性能的作用规律。通过量化分析明确关键优化方向,是解读模型性能优势来源的核心可视化支撑。

结论与展望:通往可编程基因组的新工具

AlphaGenome的出现,标志着我们向真正“读懂”基因组迈出了坚实的一步。它提供了一个强大的统一框架,能够从序列出发,以前所未有的广度、深度和精度预测基因组的多样功能,并在解读致病性非编码变异方面展现出了巨大的潜力。

当然,它并非终点。研究团队也坦诚地指出了当前模型的局限性,例如对超远端(>100 kb)调控的捕捉仍有提升空间,对非编码基因的覆盖不足,以及对个人基因组变异的预测仍是挑战。未来的发展方向可能包括:整合更多样的物种和单细胞数据,融入DNA语言模型,以及开发更完善的偏差校正方法。

尽管如此,AlphaGenome作为一款基础性工具,其应用前景依然广阔。在基础生物学研究中,它可以作为计算机模拟实验的引擎,快速生成假设,指导湿实验的验证。在罕见病诊断中,它的预测可以为那些意义不明的非编码变异提供关键的功能证据。在生物技术领域,它有望用于理性设计具有特定功能的合成序列,如组织特异性增强子或治疗性反义寡核苷酸。

正如研究团队所言,AlphaGenome向着“破译DNA序列中编码的复杂细胞过程”这一宏大目标,提供了一个强大的新起点。它不仅是一个预测工具,更是一个帮助我们理解生命之书的新透镜。

生命复杂性读书会:

生命复杂系统的构成原理

在生物学中心法则的起点,基因作为生命复杂系统的遗传信息载体,在生命周期内稳定存在;而位于中心法则末端的蛋白质,其组织构成和时空变化的复杂性呈指数式增长。随着分子生物学数十年来的突飞猛进,尤其是生命组学(基因组学、转录组学、蛋白质组学和代谢组学等的集合)等领域的日新月异,当代生命科学临近爆发的边缘。如此海量的数据如何帮助我们揭示宇宙中最复杂的物质系统——“人体”的构成原理和设计原理?阐释人类发育、衰老和重大疾病的发生机制?

集智俱乐部联合西湖大学理学院及交叉科学中心讲席教授汤雷翰,国家蛋白质科学中心(北京)副研究员常乘、李杨,香港浸会大学助理教授唐乾元,北京大学前沿交叉学科研究院研究员林一瀚,中国科学院分子细胞科学卓越创新中心博士后唐诗婕,共同发起,从微观细胞尺度、介观组织器官尺度到宏观人体尺度,梳理生命科学领域中的重要问题及重要数据,由生物学家提问,希望促进统计物理、机器学习方法研究者和生命科学研究者之间的深度交流,建立跨学科合作关系,激发新的研究思路和合作项目。读书会目前共进行10期,现在报名参与读书会可以加入读书会社群,观看视频回放,解锁完整读书会权限。

详情请见:

1.

2.

3.

4.

5.

6.

7.