打开网易新闻 查看精彩图片

撰文|

揭示自然种群中显著表型多样性的遗传基础,仍然是生物学的一项核心挑战【1-2】。尽管已取得重大进展【3-4】,但目前尚未有任何物种拥有真正完整的遗传变异图谱。而要全面理解表型多样性背后的遗传结构,我们需要除单核苷酸多态性(SNPs)外,全谱系的遗传变异信息【5】。全基因组关联研究(GWASs)已经发现了数千个与复杂性状相关的基因座,但这些研究历来主要集中于小型变异,特别是SNPs。而同样有潜力产生重大表型影响的结构变异(SVs)却因为技术限制未得到充分探索【6】。新兴的长读长测序策略和泛基因组方法使得在群体水平进行高分辨率的结构变异检测成为可能【7-8】,但为大型队列组装完整的、端粒到端粒的基因组仍然是一个挑战。

近日,来自法国斯特拉斯堡大学的Anne FriedrichJoseph Schacherer团队合作,共同在Nature上发表了一篇题为From genotype to phenotype with 1,086 near telomere-to-telomere yeast genomes的文章。基于对1,086个自然分离株进行的近完整端粒到端粒基因组组装,为酵母提供了一个广泛的基因组和表型资源,深化了我们对遗传变异如何驱动表型多样性的理解。

打开网易新闻 查看精彩图片

研究团队首先对989株天然酵母分离株进行了牛津纳米孔长读长测序,平均测序深度为95x,读取N50为19.1 kb。结合已有的数据,总共对1,027个分离株使用混合组装流程,并整合了71个来自酵母参考组装面板的基因组,最终获得了1,086个分离株的1,482个高质量组装(包括对396个杂合二倍体分离株进行了单倍型分型组装)。97.2%的染色体被组装成单个contig,组装大小在11.17 Mb 到 12.95 Mb之间,准确性高,且连续性和完整性上已接近参考基因组,达到了近端粒至端粒的水平。

通过将1,482个组装的基因组与 S288c 参考基因组两两比对,作者鉴定了262,629个冗余SV,对应6,587个非冗余SV事件。这些SV被分为四类:存在/缺失变异(4,755个)、片段拷贝数变异(1,207个)、倒位(231个)和易位(394个)。对这些SV在染色体上的分布进行分析,作者发现基因组分布高度不均,在亚端粒区域显著富集。作者定义了46个SV热点,其中21个是易位热点,且几乎全部位于亚端粒区。随后,作者开始探究SV多样性如何与物种的群体遗传结构和进化历史相关联。他们分别使用SNP和SV基因型构建系统发育树,并通过等位基因富集分析鉴定谱系特异的SV特征,共鉴定出1,933个SV等位基因在至少一个谱系中显著富集,且不同谱系富集的SV类型不同。尽管每个分离株的SV数量与SNP数量总体相关,但存在偏差。

随后,作者基于高质量组装,通过同源性比较和基于序列深度的基因存在/缺失分析,构建了基因泛基因组。这一泛基因组包含8,541个基因家族,由5,047个核心基因和3,494个附属基因组成,其中2,199个是参考基因组中不存在的新基因。附属基因高度富集于亚端粒区域,且表达水平低于核心基因。新基因中,56.1%源于近缘物种的基因渗入,16.3%可能来自水平基因转移,23.5%被归类为快速进化基因,4.2%可能为从头起源基因。

为评估包括SV在内的全频谱遗传变异对表型多样性的相对贡献,以更全面地解析基因型-表型关系,作者整合了包含140万SNP、56,086个 indel 和 44,804个SV的基因型数据,与8,391个表型(包括转录组、蛋白质组和生长性状)进行全基因组关联分析。发现在加入SV和indel后,性状遗传力估计平均提升了14.3%。作者共鉴定出4,564个QTL(数量性状位点),而SV在QTL中显著富集,SV-QTL表现出更强的多效性,且同样富集在亚端粒区域。进一步地,作者对不同类型的SV进行分析,发现缺失(20.9%)和CNV(19.2%)比插入(13.5%)更频繁地与性状关联,且缺失-QTL的平均效应大小是插入-QTL的2.2倍。

最后,作者对分子表型和 organismal表型的遗传架构进行比较,发现organismal性状平均每个性状有1.7个QTL,而分子性状为0.9个,表明organismal性状由更多基因座控制,遗传上更复杂。SV-QTL在organismal性状中的富集程度远高于在分子性状中的富集,但分子性状QTL的效应大小显著高于organismal性状QTL。于是作者想到,图形泛基因组能更完整地捕获所有类型的变异,相较于线性参考基因组,更有利于进行更准确的基因分型。他们使用500个单倍型(包括参考基因组)构建了基于Minigraph和Minigraph-Cactus的图形泛基因组,去除冗余后,图形包含11.9 Mb序列,其中2.5 Mb(21%)是线性参考基因组中不存在的新序列。能准确基因分型97.5%的低频SNP和98.8%的常见SNP,并相比线性参考,将8,153个性状的遗传力估计平均提高了10%。

打开网易新闻 查看精彩图片

综上所述,文章通过大规模、高质量的基因组组装,首次在物种层面系统性地揭示了结构变异和基因内容多样性在塑造表型多样性中的核心作用。这项研究填补了我们在理解不同类型遗传变异如何共同促成表型多样性方面的一个关键空白,为在其他真核生物系统中进行整合性的、基因组规模的研究奠定了基础。

https://doi.org/10.1038/s41586-025-09637-0

制版人: 十一

参考文献

1. Mackay, T. F. C., Stone, E. A. & Ayroles, J. F. The genetics of quantitative traits: challenges and prospects.Nat. Rev. Genet.10, 565–577 (2009).

2. Manolio, T. A. et al. Finding the missing heritability of complex diseases.Nature461, 747–753 (2009).

3. Liao, W.-W. et al. A draft human pangenome reference.Nature617, 312–324 (2023).

4. Lian, Q. et al. A pan-genome of 69 Arabidopsis thaliana accessions reveals a conserved genome structure throughout the global species range.Nat. Genet.56, 982–991 (2024).

5. Harris, L. et al. Genome-wide association testing beyond SNPs.Nat. Rev. Genet.26, 156–170 (2025).

6. Alonso-Blanco, C. et al. 1,135 genomes reveal the global pattern of polymorphism in Arabidopsis thaliana.Cell166, 481–491 (2016).

7. Chen, J. et al. Pangenome analysis reveals genomic variations associated with domestication traits in broomcorn millet.Nat. Genet.55, 2243–2254 (2023).

8. De Coster, W., Weissensteiner, M. H. & Sedlazeck, F. J. Towards population-scale longread sequencing.Nat. Rev. Genet.22, 572–587 (2021).

学术合作组织

(*排名不分先后)

打开网易新闻 查看精彩图片


战略合作伙伴

(*排名不分先后)

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

转载须知

【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。

BioArt

Med

Plants

人才招聘

近期直播推荐

打开网易新闻 查看精彩图片

点击主页推荐活动

关注更多最新活动!

打开网易新闻 查看精彩图片