撰文 | 十一月

人类泛基因组联盟耗时五年,共计4000万美元旨在创立人类泛基因组参考、优化DNA测序技术并创建泛基因组资源使用数据资源平台。美国加州大学Benedict Paten研究组、丹娜-法伯癌症研究所研究所Heng Li研究组、耶鲁大学医学院Ira M. Hall研究组、德国海因里希海涅大学Tobias Marschall研究组与美国田纳西大学Erik Garrison研究组合作领导了人类泛基因组计划参考草图,于2023年5月10日在Nature总结发文题为A draft human pangenome reference该泛基因组参考文献包括47个二倍体集合,为人类基因组计划增加了新的数据库资源。BioArt将该泛基因组计划参考进行全面报道,共包含3篇Nature工作以及一篇Nature Biotechnology工作。

一、人类泛基因组参考草图

人类参考基因组的最初骨架来自于20多年前发表的人类基因组计划,主要是每个染色体单倍型具有代表性的序列【1】。当时所得到的最终序列有210Mb的间隙,其中151Mb的序列未知。最近T2T(Telomere-to-Telomere)联盟完成了完整的基因组序列T2T-CHM13。T2T-CHM13改进了基因组分析,发现了370万个新的单核苷酸多态性【2】(6篇详解丨Science人类基因组特刊 —— 人类基因组之“更上一层楼”计划)。尽管T2T-CHM13已经在人类基因组优化方面有所进益,但是还没能确定人群中所具有的多态性结构变体。泛基因组学方法迅速进展,泛基因组学可以对基因组多样性进行更好地捕捉。

作者们从所关注的基因组中对47个二倍体基因组信息进行组装,能够对全球来自非洲、美洲、亚洲和欧洲等区域的遗传多样性进行表征(图1)。所有数据信息全部公开,数据包括29个长读测序样本以及18份其他测序样本。另外参与者的父母也均进行了全基因组测序,所获的数据可以用于单倍型鉴定。该项目所建立HiFi序列实现对序列的深度覆盖,能够用于全面发现结构变体。

图1 人类泛基因组组装

进一步地,作者们开发了一个新的Ensembl方法对泛基因组信息进行注释。蛋白质编码的基因以及对转录本注释中位数分别为99.07%以及99.42%,证明了该方法的准确性。另外,作者们发现每个组装中无义突变数目为25个,移码突变中位数为72个。相较于GRCh38,在可预测区域中平均有36个基因拷贝数增加。总得来说,58个基因存在拷贝数变化,这一现象在10%的单倍体组装中存在,其中16个基因在多数个体中扩增。

为了对泛基因组测序结果进行表示,作者们使用了如下的序列图(图2),节点对应不同的DNA片段。每个节点具有两种可能的方向正向和反向,反映了不同的组合方式。潜在的单倍型序列可以表示为途中不同的行走路径。

图2 泛基因组序列表征方式

最后,作者们对泛基因组的应用进行了阐述。泛基因组学通过建立全面的拷贝数变体图谱可以对群体遗传学进行分析。另外,通过RNA-seq与泛基因组数据库的对比,可以提高RNA-seq基因表达对比的结果,ChIP-seq与ATAC-seq的对比结果也更加优化。

二、人类基因组重复片段内突变和基因转换增加

人类基因组重复片段(Segmental duplications,SDs)中单核苷酸变异的特征尚未得到验证。为此,美国华盛顿大学医学院Evan E. Eichler研究组发文题为Increased mutation and gene conversion within human segmental duplications系统性地对人类基因组中重复片段内的单核苷酸变变异进行了表征。作者们通过不同身份的102个人类单倍型基因组中重复片段区域的单核苷酸变异模式进行比较,发现在重复片段中单核苷酸变异增加了60%,其中估计23%的增加位于位点内基因转换(Interlocus gene conversion,IGC)。另外,作者们对IGC区域中受体热点区域与供体热点区域进行鉴定并建立了全基因组图谱,对800个蛋白质编码基因外显子存在影响。这一工作对于单核苷酸突变的认识提供了新的认识。

三、近端着丝粒染色体重组

人类人类第13、14、15、21和22号染色体短臂共享较大的同源区域,其中包括核糖体DNA重复以及延伸的重复片段序列。T2T联盟已经对基因组进行了完整组装,但是对于同源区域的模式是来自于祖先还是持续的重组所造成的仍然不得而知。为此,美国田纳西大学Erik Garrison研究组发文题为Recombination between heterologous human acrocentric chromosomes通过对染色体共享同源区域的比较,将重叠组建立成为一个同源共享区域数据库。作者们发现在大多数重叠组在着丝粒染色体之间几乎相同,而且这些区域重组率较高。这些重复序列是近端着丝粒罗伯逊易位的基础。

四、泛基因组组装方法论

美国加州大学Benedict Paten研究组在Nature Biotechnology发文题为Pangenome graph construction from genome alignments with Minigraph-Cactus对泛基因组的组装方式Minigraph-Cactus进行了介绍。泛基因组参考数据库对于不同参考基因组单倍型以及排列方式构建成为图表。作者们提出了Minigraph-Cactus泛基因组建立方法,通过与全基因组的比对,将泛基因组扩展到90个人类单倍型参考数据库。该方法可以作为图谱建立与基因分型的遗传工具。通过对T2T联盟的CHM13分析证明了该方法的准确性。另外,通过此方法也可以建立果蝇内的泛基因组数据库。

总得来说,作者们通过公开的由全球47人组成的、94个单倍体基因组组装建立了泛基因组集合,该数据库具有高结构准确性,为先前未能涉及的基因组区域提供了新的参考数据库,为遗传变异的发生机制提供了新的见解

原文链接:

https://doi.org/10.1038/s41586-023-05896-x

https://doi.org/10.1038/s41586-023-05895-y

https://doi.org/10.1038/s41586-023-05976-y

https://doi.org/10.1038/s41587-023-01793-w

制版人:十一

参考文献

1. International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860–921 (2001).

2. Aganezov, S. et al. A complete reference genome improves analysis of human genetic variation. Science 376, eabl3533 (2022)