近年来,全基因组关联研究(GWAS)已确定了数千个复杂疾病的致病位点。研究人员已经整理了具有高可信度的致病基因列表,这些列表为我们提供了系统且直接探究致病基因在人体何处活跃的机会,有助于深入了解疾病的起始过程、致病机制以及治疗途径。但以往将GWAS与基因表达数据相结合以推断疾病所涉及的组织/细胞的研究方法较为间接,不能直接回答“致病基因是如何、在何处表达的”这一核心问题,并且大多数方法仅关注特异性(相对)基因表达,无法全面反映基因的表达情况。
近日,西奈山伊坎医学院研究团队在
Genome Biology发表最新研究“The gene expression landscape of disease genes”。研究通过整合GWAS数据、基因优先级结果及来自46种组织和204种细胞类型的RNA-seq数据,直接分析了8种主要疾病和3种癌症中推定致病基因在人体内的基因表达情况。分析结果显示,在具有明确疾病相关性的组织和细胞类型中,致病基因相较于对照基因表现出更高且更特异的基因表达。此外,在与相应疾病无既往关联的组织和细胞类型中检测到基因表达水平升高。为支持致病基因的功能性后续研究,研究鉴定了影响其表达的技术与生物学因素。最后,研究重点分析了组织 - 疾病对中基因表达显著升高的情况。
主要研究内容
为了确定致病基因在人体内的具体作用部位,研究团队采用三种基于GWAS和RNA-seq数据的方法来推断致病基因的表达位置:第一种称为‘GWAS to Gene Expression’的新方法,通过分析近期大规模GWAS数据,检测假定的致病基因是否在人体内呈现与对照基因不同的表达水平(图1a)。第二种方法称为‘Gene Expression to GWAS’,通过MAGMA计算GWAS信号富集情况,分析高表达基因是否富集(图1b)。第三种方法通过系统检索PubMed文献,评估文献报道的组织-疾病关联证据(图1c)。研究分析了通过三种策略在不同组织中的基因表达情况,然后将这些分析扩展到细胞类型层面,以在相关组织内进一步完善研究结果。
研究团队使用开发的系统性计算框架检测了来自GTEx、ARCHS4和Tabula Sapiens数据集的46种组织和204种细胞类型(图1d),并分析了不同预测因素(批次编号、受试者编号、年龄、性别等)对基因表达的影响(图1e),以及基因表达如何对其被纳入药物开发计划的几率产生影响(图1f)。研究针对8种主要疾病和3种癌症进行,包括精神分裂症(SCZ)、炎症性肠病(IBD)、阿尔茨海默病(AD)、冠状动脉疾病(CAD)、双相情感障碍(BD)、2型糖尿病(T2D)、多动障碍(ADHD)、血清25-羟基维生素D(维生素D)以及乳腺癌、前列腺癌和结直肠癌等。
图1.研究概述。
1
创新方法:GWAS to Gene Expression
这是该研究的关键创新点,采用“自上而下”的直观策略:从高置信度致病基因分析基因表达位置。研究团队利用三种不同方法来定义从GWAS结果中推导出的“致病基因”:(i)最接近致病基因:聚类分析为每种疾病/特征平均确定了162个“最接近致病基因”;(ii)精细定位基因:文献搜索得到了所研究8种疾病的平均基因数量为126个,得到BD的49个基因和IBD的281个基因的基因列表;(iii)多基因优先评分(PoPS)基因,研究提取了每个特征PoPS分数排名前1%的基因,对应184个蛋白质编码基因。其余蛋白质编码基因被用作对照基因。
分析发现,SCZ基因在大脑中的表达更为显著。CAD基因在主动脉、冠状动脉和胫动脉中的表达更为丰富。IBD相关基因主要在小肠和横结肠中表达。维生素D基因在皮肤和肝脏中表达最为丰富。
其他重要研究结果揭示了与相应疾病通常无关的组织特征:AD基因在血液、脾脏和脂肪组织中的表达量最高,但在大脑中未检测到;SCZ基因在垂体中高表达;CAD基因在生殖系统、脂肪组织、消化系统及肺部等多个组织中表达水平较高;IBD基因在肺、血液和脾脏中的表达量最高;T2D基因与对照基因的差异在乳腺组织中最为显著,这并非由性别差异或某些仅在特定性别中高表达的基因所驱动。研究人员对每种疾病均进行了t检验,致病基因在与相应疾病有已知关联的组织中表现出更高的表达水平(图2)。
2
经典方法验证:Gene Expression to GWAS
该部分分析了组织中绝对表达量与相对表达量均较高的基因是否富集GWAS信号,结果总体上与GWAS to Gene Expression分析结果一致(图2)。对于SCZ、BD和ADHD,MAGMA信号在多个脑组织中具有统计学显著性,包括皮层、海马体、杏仁核、小脑,其中皮层等组织与SCZ的关联性最为显著。在CAD分析中,多种组织在绝对表达量和相对表达量上均显示出显著的P值,其中动脉、乙状结肠和食管在其最特异性基因中GWAS信号富集度最高。对于IBD,肠道、血液、睾丸、肝脏、肺和脾脏是富集度最高的组织,AD在脾脏和血液中表现最强。维生素D分析中,肝脏是最具相关性的组织。对于T2D分析,所有组织均未显示显著结果。总体而言,相对基因表达的MAGMA富集程度较绝对基因表达更为显著。
3
文献验证:PubMed检索
研究团队通过在PubMed上进行系统性的文献检索研究了疾病-组织的关联,使用医学主题词(MeSH)和疾病-组织对进行检索查询,获得了一致的结果(图2)。
图2.每个GTEx组织中基因表达与研究病症之间的关联结果。
研究分析了以上结果之间的相关性,发现这三种方法之间的结果相关性因疾病而异,其中SCZ、CAD和IBD的相关性最高,而T2D的相关性最低。
4
构建细胞类型水平的基因表达图谱
为了进一步探究致病基因在人体内的具体作用位置,研究团队对来自Tabula Sapiens(来自24种不同组织和器官的近50万个细胞数据)和ARCHS4(来自Gene Expression Omnibus和Sequence Read Archive的RNA-seq数据)的细胞和组织数据重复了该检测框架分析。
图3展示了Tabula Sapiens不同组织中维生素D、IBD和CAD的分析结果,图4展示了使用ARCHS4(图4a)和Tabula Sapiens(图4b)组织区域及细胞类型数据进行AD分析的结果。总体而言,ARCHS4、Tabula Sapiens和GTEx的结果一致。例如,针对IBD的GWAS结果表明,在源自小肠、大肠和肺部的细胞类型中,IBD相关基因在T细胞、B细胞、中性粒细胞和树突状细胞中的相对表达量更高。Gene expression to GWAS分析的结果在很大程度上与这些发现一致。
图3.Tabula Sapiens数据集中每种细胞类型的基因表达结果之间的关联情况。
图4a展示了使用ARCHS4进行的AD分析结果,显示AD基因在免疫细胞类型(包括树突状细胞、巨噬细胞和中性粒细胞)中具有较高的绝对表达量和相对表达量。图4b展示了使用Tabula Sapiens获得的类似结果,其中巨噬细胞(在脾脏、血液和脂肪组织中)和中性粒细胞(在脂肪组织中)表现出显著表达。小胶质细胞在AD36中起关键作用,是唯一在绝对表达量和相对表达量上均显著相关的脑组织。对于SCZ、BD和ADHD,疾病相关基因在运动神经元中显示出显著的绝对和相对表达,但在更广泛的神经元类别中未见显著表达。
图4.ARCHS4数据集中每种细胞类型的基因表达情况之间的关联结果。
5
癌症基因表达图谱
研究团队利用扩展的分析框架分析了8种常见癌症类型的基因表达情况,其中乳腺癌、前列腺癌和结直肠癌已在GTEx、ARCHS4和Tabula Sapiens数据集中进行了完整的检测流程。对另外五种癌症(膀胱癌、肾癌、肺癌、卵巢癌和胰腺癌)使用GWAS to gene expression的方法在GTEx上进行分析。与前3种完整分析的癌症相比,后5种癌症的GTEx结果显示了与各自癌症相关组织之间最为显著且一致的关联。
6
基因表达与疾病基因药物研发
研究最后分析了基因表达对药物开发项目中致病基因纳入情况的影响。在CAD、SCZ和IBD的研究结果显示,例如,在皮下脂肪、内脏脂肪(网膜)、乳腺乳腺组织、肝脏和肺部中表达量绝对值和相对值较高的CAD基因更有可能被纳入药物开发项目中,虽然这些项目往往与CAD本身无关(图5a)。在552个CAD基因中,有180个作为518种不同病症(包括癌症、神经系统疾病、心血管疾病和其他病理状况)的潜在药物靶点(图5b)。
图5.基因表达特征对药物靶点开发中致病基因纳入情况的影响。
结 语
该研究系统分析了基于GWAS的致病基因在人体内的表达位置,确定了与疾病可能存在因果关系的已知及新类型的组织和细胞类型,并探讨了基因表达与将疾病基因纳入药物开发计划之间的潜在关联。研究发现,致病基因在广泛的组织和细胞类型中高度表达,包括一些与疾病无明确关联的组织。在其中一些组织中,致病基因的高表达与被纳入药物开发计划的几率呈正相关。
研究使用的GWAS to Gene Expression这一创新方法,通过专注于最有可能的致病基因,为药物研发提供了一个比更广泛富集分析更具针对性的框架。该研究开辟新的途径,有助于增进我们对疾病机制和治疗反应的理解,为预测药物副作用和重新利用针对致病基因的药物提供策略指导。
原文信息:
García-González, J., Cote, A.C., Garcia-Gonzalez, S. et al. The gene expression landscape of disease genes. Genome Biol (2026). https://doi.org/10.1186/s13059-026-03958-7
01
02
03
04
05
快点亮"在看”吧
热门跟贴