打开网易新闻 查看精彩图片

撰文丨十一月、雪月

责编丨酶美

打开网易新闻 查看精彩图片

人类基因组计划(Human Genome Project,HGP)最初由美国政府牵头,由美国、英国、日本、法国、德国以及中国超过20所大学和的研究中心联合进行的生物合作项目。该项目1990年正式启动,并于2003年宣布完成较为完整的基因组组装。这一项目有着深远的影响,让我们能够从全基因组的角度、通过进行多种多样的基因操作深入理解人体内那些精妙的生物学过程。

打开网易新闻 查看精彩图片

图1 人类基因组计划的标志

但2003年所得到的是一个非最终版本,只覆盖了基因组中常染色质的部分,而非常重要的异染色质区域尚未完成。但异染色质区域在当时未完成是可以理解的,异染色质区域高度凝缩,测序难以完成;同时该区域也充满重复序列,因此也很难对测序结果进行组装。针对剩余8%的基因组,端粒到端粒T2T联盟(Telomere-to-Telomere)联盟的提供了人类基因组完整的30.55亿碱基对序列T2T-CHM13,包括除了Y染色体之外所有染色体的“无缝衔接”组装的基因组,纠正了之前多个参考文献中的错误装配,对2亿个碱基序列进行介绍,其中包括1956个预测基因(Science 特刊,6篇长文齐发|已历20载,进一步完善人类基因组)。这一完整的基因组计划包括着丝粒卫星阵列、重复区域和所有五个近端着丝粒染色体的短臂,同时也对这些基因组区域的功能以及基因变异进行了研究。

一、人类基因组之“更上一层楼”计划总论

为了完成基因组的最后剩余区域,科学家们利用PacBio HiFi和Oxford Nanopore超长测序的互补方面来组装均匀纯合CHM13hTERT细胞系中的人类基因组。由此产生的T2T-CHM13参考装配弥补了这20多年来人类基因组中8%的空白,最终汇总为The complete sequence of a human genome

打开网易新闻 查看精彩图片

首先作者们对一个完整的葡萄胎(Complete hydatidiform mole)进行了深度测序,包括30个PacBio循环共识HiFi测序、120个Oxford Nanopore超长读测序、100个Illumina PCRFree测序、70个Illumina Arima Genomics Hi-C测序、BioNano光学图谱以及单细胞DNA模板链测序,从而实现了的组装高度重复的为向心粒卫星阵列,并进行了基因组的组装(图2)

打开网易新闻 查看精彩图片

图2 高分辨率人类基因组组装

CHM13中的最复杂基因组区域组装是人类rDNA阵列及其周围序列,其中具有45kbp的近相同重复序列,并以大型串联重复序列排列,嵌入端粒染色体的短臂中。为了组装这些高度动态的基因组区域并克服序列重复所带来的局限性,作者们构建了识别重复序列的方法,将其分割为单个rDNA单元进行组装。进一步的,作者们对所得到的组装基因组序列进行评估和优化。为此,作者们所有可用的主要测序数分别据映射到CHM13基因组组装之中,从而得到最终版本,实现了人类基因组端粒到端粒的组装版本T2T-CHM13v1.1。

二、人类基因组之“更上一层楼”计划促进人类基因组变体的认识

在得到了人类的基因组端粒到端粒的组装T2T-CHM13v1.1后,作者们进一步利用该完整基因组促进对于单核苷酸多态性以及基因组插入、删除等特征的认识,题为A complete reference genome improves analysis of human genetic variation

打开网易新闻 查看精彩图片

在基因组样本汇总后,作者们发现了超过100万个高质量的基因组变体(图3),这一发现为人类进化以及生物医学的发现提供了新的平台和机会。该端粒到端粒的新基因组数据库对以前的一些错误注释进行了修正,也对一些不准确的区域进行了调整。使用该基因组作者们得到了更为全面的基因组变体,为全球不同基因组研究提供了的高质量的参考模型。

打开网易新闻 查看精彩图片

图3 人类基因组完整计划揭示更多基因组变体

三、类基因组之“更上一层楼”计划揭开着丝粒的前世今生

异染色质区域中的“最后一公里”难题是着丝粒。为了在细胞分裂过程中忠实地将遗传物质分配给子细胞,纺锤体纤维必须通过着丝粒的结构与DNA结合。人类着丝粒中存在大量串联重复序列,这些序列通常跨越每条染色体上的数百万个碱基对。这些重复序列的功能知之甚少,由于卫星区域的规模和重复性,以前的基因组测序工作无法生成完整的卫星区域组装,限制了研究它们的组织、变异和功能的能力。为此,端粒到端粒人类全基因组测序计划通过高精度的测序,绘制了重复区域,揭示出了这些卫星阵列不同尺度上的组织和进化模式,题为Complete genomic and epigenetic maps of human centromeres

打开网易新闻 查看精彩图片

作者们的工作通过详细的研究对不同染色体上着丝粒的序列进行了研究,同时发现发现了全基因组范围内人类着丝粒通过分层扩张进化,进一步地通过实验对重复序列与着丝粒蛋白之间的相互作用进行了刻画,另外也对着丝粒区域的表观遗传特征等进行了揭示(图4)

打开网易新闻 查看精彩图片

图4 着丝粒的前世今生

此外,还有另外三篇文章主要完善了人类表观基因组和重复序列。包括来自Johns Hopkins大学的Winston Timp团队发表题为Epigenetic patterns in a complete human genome的文章;来自Connecticut大学的Rachel J. O’Neill团队发表题为From telomere to telomere: The transcriptional and epigenetic state of human repeat elements的文章;来自华盛顿大学的Evan E. Eichler团队发表题为Segmental duplications and their variation in a complete human genome这些文章探索了以前基因组中未阐明的区域,包括近端染色体短臂、节段重复基因和人类着丝粒在内的重复序列,构建了完整的从端粒到端粒的人类基因组合集T2T-CHM13,包含了2.25亿附加的碱基对序列,全面研究基因组结构,拓宽了人类表观基因组,这为以前缺失的8%人类基因组生成完整的表观基因组。这一成就为解析这些基因组元件的作用奠定了基础。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

作者用短读长测序技术,作者确定了3-19%的表观遗传富集位点。但是短读长的测序方法无法正确解析基因组中高度相似的序列,包括片段重复或大型重复阵列。利用长读长测序技术,作者可以锚定到侧翼或者不常见的独特区域,从而解决这些区域的表观遗传模式。T2T-CHM13组装的长读取甲基化CpG位点的数量增加了10%,这解决了以前难处理的基因组区域的表观遗传模式。作者利用这一技术获取了不同发育时间点的长读长甲基化组,共分析了超过99%的基因组CpG。

打开网易新闻 查看精彩图片

关于重复序列,作者开发了人类重复序列更新目录。最终作者总共发现了43个以前未知的重复序列,并阐释了19个复杂的复合重复结构。使用纳米空技术构建的精准核连续测序和CpG甲基化位点长读长测序,作者评估了高密度卫星重复系列以及以前无法解析的着丝粒区域。

打开网易新闻 查看精彩图片

作者在T2T-CHM13中分析发现了5100万额外的人片段重复的碱基对。估计人类基因组7%是由片段重复组成。结合甲基化分析,作者发现多达三分之二的重复基因在表观遗传上是处于沉默状态。片段重复在甲基化谱和转录水平上表现高度一致。

打开网易新闻 查看精彩图片

作者们利用改进的完整基因组组装和长读长表观遗传学,完善了以前未解决的基因组区域,开创了在完整人类基因组中探索表观遗传学的先河。完整的人基因组数据可以为更全面彻底的分析被低估的遗传模式提供坚实的基础。

人类基因组的就像是一本的读不完的书,里面包含人类发展和进化的全部秘密。为了揭开这些秘密,科学家们计划进一步深耕人类基因组中的秘密,并希望建立更多的实验工具,为人人类的健康谋福祉。

  1. http://doi.org/10.1126/science.abj6987
  2. http://doi.org/10.1126/science.abl3533
  3. http://doi.org/10.1126/science.abl4178
  4. http://doi.org/10.1126/science.abj5089
  5. https://doi.org/10.1126/science.abk3112
  6. https://doi.org/10.1126/science.abj6965

制版人:十一

转载须知

【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。