万种脊椎动物基因组计划

「万种脊椎动物基因组计划」旨在绘制万种脊椎动物基因组图谱,建立哺乳类、鸟类、爬行类、两栖类和鱼类等 10,000 种脊椎动物的遗传信息数据库,研究生物多样性和动物进化的机制,为生命科学和全球动物保护提供前所未有的基础资源。该计划现有来自全球的 43 个研究机构和 68 位科学家参与其中

图片来源:http://www.genome10k.org/

2010 年 11 月,深圳华大基因研究院「万种脊椎动物基因组计划」联盟(G10KCOS) 的科学家联合宣布启动万种脊椎动物基因组一期计划。该计划将依托华大基因先进的新一代测序技术平台、前沿的信息分析和数据处理能力,计划对 101 种脊椎动物的全基因组测序,全基因组序列的组装注释,并构建不同物种间的系统进化树,解析其遗传密码,其目标是构建高质量的基因组图谱、数据信息平台并促进与基因组学相关各物种的研究。

研究内容

北京时间 2021 年 4 月 29 日,华大基因研究院、昆明动物研究所张国捷课题组联合合作者在Nature再次发表研究性长文,报道了普通棉耳狨猴(Callithrix Jacchus)的高质量二倍体参考基因组,这是脊椎动物基因组计划的一部分深圳华大基因研究院为该研究第一完成单位

图片来源:Nature

普通棉耳狨猴(Callithrix Jacchus)由于其生理特性与人类极其相似,被广泛应用于生命科学诸多研究领域,如神经科学,干细胞生物学和再生医学等。

二倍体生物携带着两个具有一系列变异的单倍体基因组,这对物种表型变异有重大贡献。因此,分阶段单倍型组合可以帮助揭示两个同源基因组上的顺式和反式变异。然而,目前大多数从头基因组测序工作产生的单一参考基因组来自于母系和父系等位基因的部分,而同源染色体之间的变异通常被忽略。因此,这些方法往往无法组装具有高异质性的基因组区域,导致序列片段化。

总的来说,对于二倍体基因组的两种单倍型来说,在染色体水平上完全进行组装仍然是一个挑战。

图片来源:站酷海洛 Plus

为了解决上述难题,研究团队开发了一种名为Trio-binning的方法,该方法以较高的准确率捕获了两个等位基因之间的全部杂合子变异,并且可以组装成更完整的两性染色体序列,可以为一系列物种,特别是那些杂合度高的物种,生成高质量的阶段性参考基因组。

利用该方法,他们为普通棉耳狨猴 (Callithrix jacchus) 提供了高质量的二倍体参考基因组,两种单倍型均在染色体水平上独立组装。基于此参考基因组,研究人体发现了这种灵长类物种的常染色体和性染色体上的杂合性的新特性。此外,他们还比较了 2533 个与大脑发育和神经退行性疾病相关的基因,发现在狨猴和人类之间大多数基因在序列和拷贝数上都高度保守,这对绒猴作为灵长类生物医学模型的应用具有重要意义

图片来源:Nature

张国捷教授的合作者美国洛克菲勒大学Erich D. Jarvis团队更是在Nature背靠背发表两篇文章。其中一项研究通过系统分析横跨所有主要脊椎动物谱系的 35 个物种的基因组,以及来自无脊椎动物谱系的另外 4 个外群基因组,对催产素 (OXT) 以及精氨酸加压素或血管加压素 (AVP) 受体的源头和进化关系进行了研究。

图片来源:Nature

催产素以及精氨酸加压素或血管加压素,是一种神经递质配体,可以通过特定受体来调控多种生物学功能,他们通过接近脊椎动物起源的 DNA 转座因子来推断血管加压素在其中保留了更多的亲本序列,这一发现也支持了催产素和血管加压素是由局部重复导致的相邻的同源基因。同时,他们还在脊椎动物中鉴定了 6 个主要的催产素 - 血管催产素受体,通过结合全基因组和大片段复制,发现这6 个受体都来自于一个与无脊椎动物存在共同祖先的单一受体

此外,研究人员还提出了一种基于编码这些受体基因进化关系的通用命名法,即在脊椎动物中,这些基因被赋予相同的同源名称和彼此相对的同源名称,这种命名方法避免了前基因组时代命名差异和不完整基因组组装造成的混淆,进一步加深了对这些基因进化的理解,有助于跨物种研究结果的解释,并为其他基因家族提供了模型。

图片来源:Nature

Erich D. Jarvis 团队主导的另一研究则为方法学文章,在这项题为「Towards complete and error-free genome assemblies of all vertebrate species」的研究中,他们强调了长读长测序技术对最大化基因组质量的重要性

图片来源:Nature

高质量和完整的参考基因组组装是基因组学应用于生物学、疾病和生物多样性保护的基础。然而,目前并没有几种脊椎动物存在这样的参考基因组,为了解决这个问题,国际联盟成立「万种脊椎动物基因组计划」,在过去 5 年中,该联盟评估和开发了具有成本效益的方法来组装多种脊椎动物高度准确且几乎完整的参考基因组

在这篇文章中,研究人员汇总了前期 6 个主要脊椎动物谱系的 16 个物种集合的经验教训,并确定了长读长测序技术是保证基因组质量最大化的关键因素。同时,通过整合分析,也纠正了前期工作中大量的错误,比如在一些参考基因组中添加了缺失的序列,并揭示了其背后的生物学功能。

研究团队表示,在吸取了这些教训之后,他们已经开始为所有约 7 万种现存脊椎动物物种生成高质量、完整的参考基因组努力,并帮助开启生命科学发现的新时代。

图片来源:Nature

此外,来自美国 Phase Genomics 和 Pacific Biosciences 公司的团队也在Nature Communications发表了题为 Extended haplotype-phasing of long-read de novo genome assemblies using Hi-C 的文章,报道了一种长读长测序基因组从头组装的技术-FALCON-Phase

图片来源:Nature Communications

利用超长 Hi-C 染色质相作数据以及固有的相位信息,FALCON-Phase 可以将部分二倍体组装的相块扩展到整个染色体,并通过跳过变量调用,降低了相位计算的复杂性。他们还使用已经生成的三个基准数据集(人类、奶牛和草雀)对该方法进行了验证。结果表明,FALCON-Phase 在没有亲本数据的情况下是准确的,在杂合度较高的样本中表现更好,因此该方法可以作为脊椎动物基因组项目的一部分

图片来源:Nature Communications

(Nature 背靠背!张国捷团队报道万种鸟类基因组计划第二阶段研究成果)。

北京时间 2020 年 11 月 12 日凌晨,华大基因研究院、昆明动物研究所张国捷课题组联合合作者在Nature上以封面文章形式同期发表了两篇文章,报道了万种鸟类基因组计划第二阶段(科级别)的研究结果

研究团队发表了 363 种鸟类基因组数据,同时通过这一数据建立了无参考序列下多基因组比对和分析的新方法,并基于这一新方法阐明高密度物种取样对生物多样性研究的重要性。

图片来源:Nature

本周推荐:

美少女福音!Science 重磅报道,他们率先实现皮肤无疤痕愈合眼看它就要封神了...Science 报道烟酰胺可增强胰岛素敏感性、促进肌肉重塑

论文链接:

1、https://doi.org/10.1038/s41586-021-03535-x

2、https://doi.org/10.1038/s41586-021-03451-0

3、https://doi.org/10.1038/s41586-020-03040-7

4、https://doi.org/10.1038/s41467-020-20536-y

图片来源:站酷海洛 Plus

征稿

传播优质学术报道,深度解读学术文章

好文不怕贵,舍得给稿费

微信:biosyj投稿邮箱:biosmart@dxy.cn

可为课题组代发研究宣传,招聘启事等

「好文」,点个好看再走吧!