责编 | 兮

基因如何控制性状?基因型和表型之间存在着怎样的关联性?这是遗传学乃至整个生物学长期以来的一个重要研究方向。对于一些简单的质量性状/表型(discrete characters),例如人类的镰刀形红细胞贫血症,ABO血型系统等,是由单碱基位点或者单基因突变所决定的。然而,对于绝大多数复杂数量性状(quantitative traits),却是由许多个基因位点共同控制的,而且往往确切的基因位点数目是未知的。以研究最为广泛的成人身高为例,目前我们已经知道人群中的身高差异至少有80%是由遗传因素控制的【1】。基于数以万计样本的全基因组关联分析研究(GWAS),研究人员已经鉴定出来数百个甚至上千个与成人身高差异相关的碱基位点(SNP)和相对应的基因位点。但是这里存在一个重大的问题:这些碱基位点的变异往往具有极小的表型效应,而且所有位点变异累加起来仍然不足以解释超过5%的成人身高差异,这个现象也被称为消失的遗传率(missing heritability)【2】。

针对这一现象,科学家给出了多种可能的解释,例如当前GWAS的样本量仍然不够大,GWAS无法检测稀有遗传变异(rare variants)对表型的贡献,以及无法涵盖上位效应(epistasis)以及其其它基因之间的相互作用等。此外,另外一个存在的重要问题是:基于不同研究群体(比如亚洲人群和欧洲人群)的GWAS往往得到重叠度很低的关联碱基位点集和对应关联基因集。

2017年,Cell期刊发表的一篇文章针对上述现象提出了一个较为大胆但在生物学上合理的理论模型,即复杂数量性状的“全基因遗传模型”(omnigenic model)【3】。该模型指出,基因组中几乎所有的基因位点,尤其是在那些与研究性状相关的器官或者发育时期中有表达的基因,都和研究的目标复杂数量性状有显著的关联性。这些与表型相关的基因构成了一个复杂的基因调控网络。网络中对表型影响比较大的基因或者和研究性状有直接生物学关联的基因称为核心基因(core genes)。而另外一种数量繁多的一类基因,需要通过和核心基因之间的链接从而影响个体的性状,因而被称为外围基因(peripheral genes)。根据“全基因遗传模型”,消失的遗传率这一现象的出现是由于GWAS中无法囊括所有基因的有效分离变异(segregating variants)。同时,不同群体中存在的有效分离变异往往也是不同的,因而采用不同研究群体的GWAS得到的关联碱基位点及其相应基因自然也会非常不同。虽然“全基因遗传模型”具有理论上的合理性,但是一直没有直接的实验证据来支持这一模型。

近日,Current Biology在线发表了德国马克斯-普朗克演化生物研究所张文宇博士及其合作者的研究工作“Testing implications of the omnigenic model for the genetic analysis of loci identified through genome-wide association”该研究从实验的角度检验了“全基因遗传模型”的一个推论,即基因组中的大多数基因,尤其是在那些与研究性状相关的器官或者发育时期中有表达的基因,对研究的数量性状的表型差异具有显著的贡献。

打开网易新闻 查看精彩图片

该课题中,研究人员采用了一种基于图像分析的高通量表型检测方法,对黑腹果蝇(Drosophila melanogaster)结蛹期的两个数量性状进行了分析:1)形态学性状 – 蛹表壳长度;2)行为学性状 – 结蛹位置高度。该高通量表型检测手段可以同时对数以百计的来源于同一品系(相同基因型)的果蝇蛹个体进行表型测定,从而在最大程度上降低了表型检测的随机误差和环境因素的干扰。

打开网易新闻 查看精彩图片

基于图像分析的高通量表型(果蝇蛹表壳长度以及结蛹位置高度)测定方法图示

由于果蝇结蛹位置高度性状的GWAS结果已经由同一研究团队在2020年发表在了分子生态学期刊(Molecular Ecology)上【4】,因而在该课题中研究人员着重对果蝇蛹表壳长度这一性状进行了GWAS遗传分析。该研究同样采用了果蝇数量性状遗传研究中常用的自交群体品系资源Drosophila Genetic Reference Panel(DGRP)。和来自全球各地的野生杂交果蝇品系相比,DGRP的自交品系果蝇具有相似的蛹表壳长度表型测量值分布范围,表明了DGRP的自交品系果蝇中至少具备了果蝇群体中大部分的蛹表壳长度表型变异。因而可以推测,DGRP的自交品系果蝇中也应该存在着丰富的和蛹表壳长度表型变异相关联的基因型变异。通过GWAS遗传分析,研究人员总共找到了50个与蛹表壳长度表型变异有显著关联的50个SNPs,对应了90个蛋白质编码基因。通过对比进行(转座子插入)基因敲除(knock-out)的果蝇品系和未进行基因敲除的同一果蝇品系的蛹表壳长度表型差异值,研究人员对上述GWAS分析得到的其中9个显著关联基因进行了表型功能验证,结果发现有8个基因(89%)在基因敲除后对果蝇的蛹表壳长度表型具有显著影响。值得一提的是,由于采用了可以对大样本个体进行表型测量的高通量表型测定方法,研究人员可以检测到由于基因敲除所导致的细微表型变化。

由于蛹表壳长度这一性状是在果蝇的结蛹期进行观测的,因而一个很自然的假设是和蛹表壳长度性状关联的基因会在果蝇的结蛹期附近的发育时期具有较高的富集表达。为了验证这一假设,研究人员分析了果蝇生命周期中的27个发育时期的基因转录组表达(RNA-Seq)数据。结果表明,和随机选取的相同数目的基因相比较,GWAS获得的和蛹表壳长度性状相关的基因在结蛹期附近的发育时期具有显著的富集表达。这些发育时期(即从幼虫末期到整个结蛹期)被称为蛹表壳长度性状相关的发育时期。

打开网易新闻 查看精彩图片

蛹表壳长度性状GWAS关联基因在果蝇生命周期的不同发育时期的基因表达富集结果

根据数量性状的“全基因遗传模型”,研究人员预测在蛹表壳长度性状相关的发育时期内具有表达的大多数基因会对该性状的表型变异具有显著贡献。为了证实这一预测,研究人员在果蝇的基因组中随机选取了45个不存在于GWAS获得的关联基因数据集,但在蛹表壳长度性状相关的发育时期中有表达的蛋白质编码基因,然后采用同样的研究策略分析了基因敲除对于果蝇蛹表壳长度表型的影响。研究人员发现其中有34个随机选取的基因(76%)在基因敲除后对果蝇的蛹表壳长度表型具有显著的影响,这和之前GWAS获得的9个显著关联基因实验验证的比率相比没有显著的统计差异(p = 0.67, Fisher’s exact test)。同时,两者在对果蝇的蛹表壳长度表型的绝对影响程度(absolute effect size)上也没有显著差异。这里需要特别指出的是,上述基因敲除实验验证的9个GWAS获得的显著关联基因同样都在果蝇蛹表壳长度性状相关的发育时期中有表达。

由于结蛹位置高度性状同样是在果蝇的结蛹期进行观测的,因而和蛹表壳长度性状具有相同的性状相关发育周期。此外,结蛹位置高度和蛹表壳长度两者被证实为不相关联的性状【4】,因而上述蛹表壳长度性状研究中的所有基因敲除实验的用到的54个基因对于结蛹位置高度性状来讲都会是“随机”选取基因。研究人员发现,其中有37个“随机”选取的基因(69%)在基因敲除后对果蝇的结蛹位置高度性状具有显著的影响。同样,这和之前对蛹表壳长度性状随机选取的45个基因的实验验证的比率相比并没有显著的统计差异(p = 0.51, Fisher’s exact test)。

打开网易新闻 查看精彩图片

蛹表壳长度性状GWAS关联基因和随机选取基因的基因敲除对表型影响值比较

总结起来,该文章应该是目前为止首个对复杂数量性状的“全基因遗传模型”进行直接实验检验的研究工作。这里的研究结果证实了数量性状“全基因遗传模型”的一个推论,即基因组中大多数在与研究性状相关的发育时期中有表达的基因对研究性状的表型变异具有显著的贡献。此外,该研究发现有望引发领域内研究人员对当前数量性状关联基因鉴定的研究策略,尤其是果蝇数量性状关联基因位点鉴定的方法论(GWAS筛选候选基因 + 基因敲除/敲低实验验证)的重新审视。这里的研究结果表明,基因组中随机选取的基因和GWAS筛选的候选基因在基因敲除实验中对研究性状具有类似的表型效应。需要特别注意的是,GWAS研究的群体中自然存在的基因位点变异(SNP)和基因敲除/敲低实验中的基因变异(转座子插入或RNA干扰)是截然不同的变异形式,因而两者对研究性状的表型影响非常可能会有显著不同。因而,相关研究人员应当考虑舍弃当前广泛采用的这种GWAS筛选出候选基因的后续实验验证手段,同时去设计更加合理的对候选基因进行功能验证的研究策略。当然,该研究并没有否定GWAS作为数量性状的遗传研究的主流研究范式,GWAS仍然会是寻找在特定的研究群体中与数量性状有显著关联的自然状态下存在的碱基/基因位点的重要研究手段。

https://www.cell.com/current-biology/fulltext/S0960-9822(20)31873-X

制版人:嘉

参考文献

1. Visscher,P.M. (2008). Sizing up human height variation.Nat Genet40, 489-490.

2. Maher, B. (2008). Personal genomes: The case ofthe missing heritability.Nature456,18-21.

3. Boyle, E.A., Li, Y.I., and Pritchard, J.K.(2017). An Expanded View of Complex Traits: From Polygenic to Omnigenic.Cell169, 1177-1186.

4. Zhang, W., Reeves, G.R., and Tautz, D. (2020).Identification of a genetic network for an ecologically relevant behaviouralphenotype in Drosophila melanogaster.Mol Ecol29, 502-518.