撰文 | 啾啾椰
在人类基因组中,超过 98% 的遗传变异发生在非编码区【1】。它们并不直接改变蛋白序列,却通过一系列间接路径影响生命过程。过去二十年里,随着 ENCODE、GTEx、4D Nucleome 等大型计划的推进,我们已经积累了海量功能基因组数据,但一个核心问题始终悬而未决:当一个碱基发生改变时,它究竟会先扰动哪一个调控层级,又是通过怎样的调控路径,最终造成我们在 RNA-seq 或表型中观察到的变化?
在这一背景下,计算方法逐渐成为理解非编码变异的核心工具。通过从大规模实验数据中学习规律,计算模型可以用来预测并解释遗传变异的分子效应。其中一类被广泛采用的方法被称为 sequence-to-function 模型【2】。这类模型直接以 DNA 序列作为输入,预测变异可能带来的分子层面后果。
然而, 此前几乎所有 sequence-to-function 模型,都不得不在三个维度之间做出取舍:序列长度(能否覆盖远端增强子等长程调控元件)、空间分辨率(是否精确到单个碱基),以及调控模态的完整性(剪接、表达与染色质是否能在同一模型中建模)。例如,SpliceAI 和 BP Net 能够在单碱基分辨率上预测剪接效应,但只能利用约 10 kb 的局部上下文【3,4】;而 Enformer 和 Borzoi 则可以建模 200–500 kb 的长程调控,却必须将输出压缩到 32–128 bp 的 bins 中,剪接位点的细节也被抹去【1,5】。
2026年1月28日 ,来自谷歌 DeepMind 的研究团队在Nature上发表了题为Advancing regulatory variant effect prediction with AlphaGenome的研究论文,提出了一个试图同时解决序列长度、预测分辨率与调控模态整合问题的统一模型——AlphaGenome,重新组织了非编码变异效应的建模方式。
AlphaGenome 第一次在同一框架中同时实现了三件事:输入长达 1 Mb 的 DNA 序列、保持单碱基分辨率,并覆盖多模态调控输出。具体而言,模型能够预测 RNA-seq、CAGE、PRO-cap 信号,剪接位点、剪接使用率与剪接连接(splice junction)水平,以及 ATAC-seq、DNase、组蛋白修饰、转录因子结合和染色质三维接触图(Hi-C / Micro-C)等共计 11 大类调控模态。这使得模型不再需要在“是否纳入远端调控信息”和“是否保留碱基级细节”之间做出权衡,而是首次在单一 sequence-to-function 框架中同时保留了二者。
图1:模型总览。 AlphaGenome 将 1 Mb DNA 序列拆分并行处理,通过 U-Net 结构与 transformer 整合长程信息,在单一模型中多分辨率预测覆盖多模态的功能基因组信号。
图2: 训练过程。 先在的预训练阶段学习实验数据生成教师模型,再通过蒸馏将其预测压缩为单一学生模型。
这一突破对剪接变异的建模尤为关键。剪接相关变异一直是非编码变异中最难解释、却最常致病的一类。过去的模型通常只能回答一个问题:某个位置是否“像” donor 或 acceptor 位点;然而真实的剪接过程至少包含三个层级:一个碱基能否形成潜在剪接位点,它在多个竞争位点中是否会被选择,以及最终形成的是哪一条具体的 splice junction。
AlphaGenome 是第一个同时对这三层结果进行预测的模型,并且直接预测 splice junction 的 read counts,而不是通过 motif 分数间接推断剪接结果。剪接在这里首次被明确建模为一个竞争性、配对性和结构化的过程,而不再是彼此独立的位点打分。
在 GTEx、ClinVar 和 MFASS 等多个基准数据集中,AlphaGenome 在 sQTL、深内含子变异以及同义突变等任务上均显著优于现有方法。然而,作者在文中也反复强调模型的边界。AlphaGenome 预测的是分子层面的后果,而非完整的因果链。它可以预测某个变异会降低 exon usage、改变 splice junction 或影响 RNA abundance,但并不知道具体是哪些 RNA 结合蛋白在竞争,是否触发了核内 RNA 降解,也无法刻画时间依赖或细胞状态依赖的动态过程。
AlphaGenome的意义并不仅在于模型规模的扩大,而在于它采用了一种不同于以往的调控视角。传统 sequence-to-function 方法往往将剪接、表达和染色质状态拆解为彼此独立的预测任务,而在真实细胞中,这些过程被一条隐含的因果路径连接着。AlphaGenome使研究者首次能在同一模型中,同时追踪非编码变异在多个调控层级上的连锁扰动,从而更接近一个核心问题:单个碱基的改变,究竟如何沿着调控体系逐层放大并产生功能后果。
https://www.nature.com/articles/s41586-025-10014-0
制版人: 十一
参考文献
1. Halldorsson, B. V. et al. The sequences of 150,119 genomes in the UK Biobank.Nature607,732–740 (2022).
2. Avsec, Ž. et al. Effective gene expression prediction from sequence by integrating long-range interactions.Nat. Methods18, 1196–1203 (2021).
3. Jaganathan, K. et al. Predicting splicing from primary sequence with deep learning.Cell176, 535–548 (2019).
4. Avsec, Ž. et al. Base-resolution models of transcription-factor binding reveal soft motif syntax.Nat. Genet.53, 354–366 (2021).
5. Linder, J., Srivastava, D. & Yuan, H. Predicting RNA-seq coverage from DNA sequence as a unifying model of gene regulation.Nat. Genet.57, 949–961 (2025).
学术合作组织
(*排名不分先后)
战略合作伙伴
(*排名不分先后)
转载须知
【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐
点击主页推荐活动
关注更多最新活动!
热门跟贴