Nature | 单碱基分辨率解析复杂性状遗传变异的调控机制|位点|变异|基序|性状|染色质|细胞

撰文|阿童木

全基因组关联研究（GWAS）在过去十余年间迅速发展。借助大规模人群数据，研究者已经鉴定出数万条与复杂性状和疾病相关的遗传位点，为理解人类疾病的遗传基础提供了重要框架【1】。然而，统计关联并不等同于生物学机制。真正关键的问题在于：在每一个关联位点中，究竟是哪一个具体变异驱动了信号，并通过何种分子途径影响表型。

这一问题之所以难以解答，首先源于复杂性状遗传结构本身的特点。大多数相关变异效应量极小，而且超过80%位于非编码区域，尤其集中在顺式调控元件（CREs）中【2】。这类变异通常不会改变蛋白质序列，而是通过影响转录因子结合或染色质状态来调控基因表达。与此同时，由于连锁不平衡（LD）的存在，同一基因组区域内往往存在多个高度相关的变异，使统计信号难以区分真正的功能变异与仅仅“搭便车”的标记。

为缓解LD带来的干扰，遗传学研究发展出精细定位（fine-mapping）方法，为每个变异计算后验包含概率（PIP），以评估其成为因果变异的可能性【3】。尽管这一策略显著缩小了候选范围，但目前只有约10–20%的关联位点能够被定位到单一变异，大多数位点仍需要在包含多个候选变异的可信集中进行进一步验证【4】。因此，如何在统计关联与功能实验之间建立高通量、可扩展的验证体系，成为复杂性状遗传学研究的重要挑战。

近日, 杰克逊实验室 Ryan Tewhey 、博德研究所 Jacob C. Ulirsch 和 Hilary K. Finucane 以及耶鲁大学 Steven K. Reilly 实验室等在 Nature 杂志发表了题为 Functional dissection of complex trait variants at single-nucleotide resolution 的研究文章，作者利用大规模MPRA（massively parallel reporter assay）系统检测超过22万个精细定位变异，在多种细胞类型中评估其转录调控功能，并最终鉴定出13,121个高置信度的性状相关调控变异（TARVs）。研究进一步发现，仅约69%的变异可以通过传统转录因子基序破坏来解释，其余变异需要结合深度突变扫描与机器学习模型才能解析其作用机制。此外，约11%的邻近变异之间存在非加性调控效应，揭示了复杂性状调控机制中更为复杂的遗传结构。

在实验设计上，研究整合了UK Biobank、Biobank Japan以及GTEx项目的精细定位结果，共选取22万余个候选变异，并为每个变异合成约200 bp的DNA序列元件，通过MPRA在五种细胞类型中检测其转录活性。结果显示，大约三分之一的元件具有明显的转录活性，其中绝大多数表现为增强作用。这些活性元件显著富集于已知CRE区域和转录因子结合位点，其活性在不同细胞类型之间具有较高一致性，并与染色质开放程度呈中等相关。

在所有具有活性的元件中，约40%的变异能够产生显著的等位基因差异效应，被定义为表达调控变异（emVars）。这些变异的转录效应通常较为温和，但往往在多个细胞类型中同时出现。与此同时，高PIP变异更容易出现在活性元件中，也更可能表现为emVar。更重要的是，MPRA检测到的等位基因效应与内源基因表达差异、染色质可及性以及转录因子结合强度的预测变化均表现出一致趋势，说明 MPRA 能够较为真实地捕获调控变异的功能效应。

在变异优先排序方面，研究发现emVar状态已经能够有效区分高PIP与低PIP变异，而当这一指标与CRE注释信息结合时，预测精度进一步提升。通过这种整合策略，作者最终鉴定出13,121个TARVs。这些变异主要富集于与特定性状相关的细胞类型特异性CRE中，也有部分分布在多组织共享的CRE或启动子区域。研究还结合多种 CRE-to-gene 预测方法，为这些调控变异提供了潜在靶基因的推测。

在机制层面，作者系统评估了传统转录因子基序分析的解释能力。结果表明，虽然约69%的TARVs会破坏某些已知转录因子基序，但类似的基序破坏在许多非功能变异中也同样普遍存在，说明仅凭基序信息难以准确判断调控功能。当进一步引入转录因子真实占据证据，例如DHS足迹或ChIP-seq峰时，功能变异与背景变异之间的区分能力有所提高，但仍无法解释全部调控机制。随后，研究利用深度学习模型Enformer 对变异影响进行预测，发现该模型能够更有效地区分功能性调控变异，并在许多未破坏经典基序的位点中预测到染色质或转录因子占据变化。

复杂性状的遗传结构还可能包含多个相互作用的调控变异。为此，研究在同一CRE区域内系统测试了不同变异组合的效应。结果发现，一部分邻近变异之间并不符合简单的线性叠加关系，而是表现出明显的非加性调控效应。总体而言，大约11%的变异对显示出这种上位性作用，而且这种现象在距离更近的变异之间更为常见。许多情况下，两个单独增强转录的等位基因在组合后反而产生较弱的转录效应，这一现象与“连锁掩蔽”（ linkage masking ）理论相一致。

为了进一步解析单个变异的分子机制，作者对部分CRE进行了饱和突变扫描，通过MPRA检测每一个核苷酸替换对转录活性的影响。结果显示，大多数元件内部都存在若干关键的 “活性块”（activity blocks），这些区域通常只有数个碱基长度，却对转录活性具有决定性作用，并与转录因子足迹高度重叠。部分活性块对应激活性转录因子结合位点，而另一些则与抑制因子相关，其破坏反而会增强转录。某些变异通过破坏抑制位点释放潜在激活因子的结合，也有一些变异会在不同转录因子之间切换调控状态。饱和突变实验能够为约91%的TARVs提供明确的分子解释，其中包括大量此前无法通过传统方法识别的非经典调控机制。这一结果表明，复杂性状相关变异的功能往往依赖于更精细的序列“语法”，而不仅仅是单一转录因子基序的存在或缺失。

综上所述，本研究在单碱基分辨率下系统测定了超过22万个复杂性状相关变异的调控效应，构建了目前规模最大的功能验证图谱之一。通过将统计精细定位、大规模MPRA实验、深度突变扫描以及机器学习模型相结合，研究不仅显著提高了因果调控变异的识别能力，也揭示了非编码遗传变异在调控“语法”层面的复杂性，为从GWAS关联信号走向具体分子机制提供了重要框架。

https://doi.org/10.1038/s41586-026-10121-6

制版人：十一

参考文献

1. Loos, R. J. F. 15 years of genome-wide association studies and no signs of slowing down.Nat. Commun.11, 5900 (2020).

2. Cano-Gamez, E. & Trynka, G. From GWAS to function: using functional genomics to identify the mechanisms underlying complex diseases.Front. Genet.11, 424 (2020).

3. Lappalainen, T. & MacArthur, D. G. From variant to function in human disease genetics.Science373, 1464–1468 (2021).

4. Farh, K. K.-H. et al. Genetic and epigenetic fine mapping of causal autoimmune disease variants.Nature518, 337–343 (2015).

学术合作组织

（*排名不分先后）