打开网易新闻 查看精彩图片

撰文丨

解读全基因组关联研究(GWAS)和罕见变异负担测试所识别出的、与人类复杂性状和疾病相关的成千上万个遗传关联信号,是当前遗传学研究的一项核心挑战。尽管这些研究成功找到了许多潜在的药物靶点和生理通路,但绝大多数关联背后的具体生物学机制仍然模糊不清。一个关键难点在于,许多基因并非直接影响性状,而是通过复杂的基因调控网络,以间接的、跨层级的方式(即全基因模型中的核心基因与外周基因概念)发挥作用。此前,由于缺乏能够在基因组尺度上、在特定细胞类型中系统性地测量基因间因果调控关系的工具, 大家 无法有效描绘出从基因变异到细胞功能程序,再到最终表型的完整因果路径。因此,开发一种整合了基因调控网络信息和基因-性状效应大小的新方法,来推断这些因果通路,是填补遗传关联与生物学机制之间鸿沟的迫切需求。

近日,美国斯坦福大学Jonathan K. Pritchard、Mineto Ota和格拉德斯通-UCSF基因组免疫学研究所Alexander Marson联合在Nature期刊发表题为Causal modelling of gene effects from regulators to programs to traits的研究论文,通过整合基因敲除的功能丧失效应(LoF负担测试)与基因扰动后的调控网络数据(Perturb-seq),首次构建了一个能够解释基因如何通过调控特定细胞功能程序来影响复杂性状的因果模型,为从遗传关联解读具体生物学机制提供了可推广的分析框架。

打开网易新闻 查看精彩图片

该研究创新性地将两种数据集相结合,以构建从基因到性状的因果模型。第一步是数据整合:一方面, 作者 利用英国生物库(UKB)的全外显子组测序数据,通过功能丧失性(LoF)变异负担测试,获得了基因对表型(如平均血红蛋白含量MCH)定量化的效应大小估计(用γ表示)。另一方面,利用在白血病细胞系K562中进行的、覆盖了几乎所有表达基因的Perturb-seq实验数据,测量了每个基因敲低对细胞中其他所有基因表达的因果调控效应(用β表示)。第二步是功能模块识别:为了避免直接推断整个基因调控网络的巨大复杂性, 作者 对Perturb-seq得到的单细胞表达谱进行了共识非负矩阵分解,将共表达的基因归为不同的功能程序,并量化了每个基因对每个程序的调控效应。第三步是建模与因果推断:通过将基因的LoF效应(γ)与该基因在Perturb-seq中表现出的程序调控效应(β)进行关联分析, 作者 筛选出与目标性状显著相关的程序及其调控因子。随后,建立了联合回归模型,将这些程序及其调控因子整合到一个统一的因果图中,其中,基因通过调控一个或多个功能程序,进而对性状产生方向一致或相反的效应,从而解释了复杂的多向性关联。

首先, 本研究 成功识别并连接了性状背后的核心调控程序及其 “ 主调控因子 ” 。模型显示,红细胞平均血红蛋白含量(MCH)主要受五个核心程序(包括血红蛋白合成、自噬、细胞周期G2/M期等)的联合调控。Perturb-seq数据清晰地揭示了这些程序之间的交叉对话关系,例如,细胞周期的S期和G2/M期程序被同一组调控基因以相反的方向调控,而大部分细胞周期调控因子又会一致性地激活自噬程序。将这些共调控关系纳入模型后,能够精确地解释为什么看似矛盾的调控效应最终能汇聚成对性状的净效应。例如,基因SUPT5H被识别为一个关键的主调控因子,它通过同时激活血红蛋白合成、抑制自噬和抑制G2/M期这三个途径,共同推高MCH水平。这一模型预测与已知的遗传学证据高度吻合 —— SUPT5H的功能丧失性突变是导致地中海贫血表型的原因之一,并且其LoF效应对MCH的影响程度在所有基因中名列前茅。

其次,这个模型不仅解释了单个性状,还阐明了多个相关性状之间复杂关联模式的分子基础。 作者 构建了一个涵盖三个红细胞性状(MCH、RDW、IRF)的调控图谱,揭示了共享与独立的调控通路。这个图谱为理解性状间的遗传相关性提供了机制性解释:例如,MCH与RDW在全基因组层面呈负相关,模型将此归因于自噬和细胞周期程序对这两个性状产生了方向相反的效应。相反,RDW与IRF的正相关,则是因为它们都受到祖细胞维持程序的正向调控。更精妙的是,模型还解释了少数例外基因,如CAD和CALR,它们为何会对通常负相关的MCH和RDW产生同方向效应。模型显示,这两个基因通过两条独立的通路发挥作用 —— 抑制祖细胞维持程序(主要影响RDW)和抑制血红蛋白合成程序(主要影响MCH),从而实现了对两个性状的同向影响。

最后, 本研究 通过多种独立数据交叉验证了模型和生物学意义,并证明了方法的普适性。

模型不仅用内部数据自洽,还利用独立的跨组织表达数量性状位点(trans-eQTL)数据进行了验证。结果显示,GWAS显著位点对关键程序(如血红蛋白合成、自噬)的调控方向,与模型基于Perturb-seq和LoF效应推断出的方向高度一致。这表明,尽管GWAS和LoF负担测试发现的关联基因集合不完全重叠,但它们最终汇聚于调控相同的核心生物学通路。此外,通过将模型应用于其他细胞系(如肝脏细胞系HepG2)和其他复杂性状(如高密度脂蛋白胆固醇),发现了细胞类型特异性的调控关联,例如肝脏相关性状的信号在HepG2细胞中富集程度更高。这既证明了该建模框架可推广至不同细胞类型和性状,也强调了在性状相关细胞类型中进行扰动研究对于准确解读遗传信号至关重要。

总而言之 ,研究的核心成果在于,它超越了过去仅能识别与性状相关的基因列表富集的通路的阶段,首次在基因组尺度上,构建了一个能够定量描绘基因如何通过调控特定细胞功能程序来影响复杂性状的因果网络,为从遗传关联到具体生物学机制的黑箱投射进了一束强光。

https://doi.org/10.1038/s41586-025-09866-3

制版人: 十一

学术合作组织

(*排名不分先后)

打开网易新闻 查看精彩图片


战略合作伙伴

(*排名不分先后)

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

转载须知

【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。

BioArt

Med

Plants

人才招聘

近期直播推荐

打开网易新闻 查看精彩图片

点击主页推荐活动

关注更多最新活动!

打开网易新闻 查看精彩图片