近年来,随着测序技术和算法的不断发展,大量物种基因组被陆续测序和组装,提供了重要的遗传信息。高质量的参考基因组序列对于基因注释和相关功能研究至关重要,也是大规模比较基因组学和表观遗传调控研究的重要前提。然而,多数基因组序列中仍然存在一些组装错误,给相关研究的进展带来了一定程度的影响。因此,精准区分和鉴定高质量和低质量的基因组序列至关重要,不仅可以为基因组组装质量提供评估依据和进一步改进提供靶点,也可以为后期比较基因组和功能研究位点提供基因组序列质量认证。当前,虽然已有一些基因组组装质量评估的方法和指标,然而它们大多仅提供一个总体的评估值,没有针对特定区域或碱基的评估信息。

近日,中国科学院植物研究所焦远年团队在国际知名期刊Nature Communications发表了题为Identification of errors in draft genome assemblies at single-nucleotide resolution for quality assessment and improvement的研究论文。该研究开发了一种不依赖参考基因组的组装质量评估新工具CRAQ(Clipping information for Revealing Assembly Quality),该工具可以在单碱基水平检测和评估基因组序列的精准度,并提供相关纠错方案。

CRAQ工具的主要设计思想和流程

理想情况下,如果将原始测序reads比对到组装的基因组上,我们可以看到基因组各区域呈现均匀的测序reads深度。然而,我们通常会发现一些区域呈现reads深度明显较低或read比对呈现SNP簇的现象,这些区域通常组装质量相对低。此外,一些reads比对还会出现明显的“clipped mapping”的特征(测序片段的一部分比对到基因组特定位置,但另一部分无法比对或比对到基因组其他位置),这通常暗示了组装的基因组序列存在嵌合片段(misjoin)。因此,通过检测原始reads在组装基因组上的比对特征,我们可以准确检测到基因组中的组装错误位点或区域,为基因组组装质量进行评估和校正提供重要信息。

具体流程如图一所示:首先将原始测序序列比对到组装的基因组上,利用SMS长测序片段和NGS短测序片段与基因组比对的特征,获取序列比对产生的有效剪切对齐(clipping alignment)信息,CRAQ进一步区分了基因组内局部高杂合区域(CRHs)、单倍型结构差异区域(CSHs)、区域组装错误(CREs)和结构组装错误(CSEs),并在单碱基分辨率下指出这些区域的具体位置。不同类别的CREs和CSEs错误数量经过统计和标准化处理后被转化为两个基因组组装质量评估指标:R-AQI和S-AQI,以反映基因组组装质量。此外,CRAQ能够识别基因组中存在的嵌合片段,并将这些片段准确拆分,以利于进一步结合光学图谱或构象捕获(Hi-C)技术构建结构更加准确的参考基因组。

图一 CRAQ工具的整体流程示意图

CRAQ的性能测试和评估

为了评估CRAQ的性能,我们以人类参考组装(GRCh38)为基础构建了一个模拟数据集并利用CRAQ和目前广泛使用的基因组质量评估工具(包括QUAST-LG、Inspector和Merqury)进行了测试和比较。结果表明,当存在完美参考基因组时,QUAST-LG表现出最高的F1得分(F1 >98%);当缺乏完美参考基因组时,CRAQ获得了高于97%的F1得分,表现最佳(表一)。此外,CRAQ在检测杂合区域方面也表现出超过95%的召回率和精确度。通过对一个真实的果蝇杂交F1代(A4 x ISO1)的基因组数据集进行分析,我们发现CRAQ可以准确的将组装错误和杂合区域区分开来(图二),而其他工具则无法检测出杂合区域。

图二 CRAQ检测到的组装错误和杂合区域

CRAQ可以为拆分组装嵌合片段提供准确位点

嵌合的contig片段会严重阻碍基因组scaffolds的构建,进而导致基因组结构变异等研究出现错误解读。CRAQ能够识别基因组中misjoin位点,有利于研究人员拆分嵌合contigs并进一步结合光学图谱或构象捕获(Hi-C)信息构建结构更加准确的参考基因组。我们在前期组装Aquilegia oxysepala基因组过程中,第一个草图版本中存在大量的CSEs。例如:CRAQ发现ctg8的y位点包含一个CSE(reads比对呈现明显clipping特征)(图三a),该位点的光学图谱和Hi-C比对也恰好存在比对冲突(图三b和c)。当使用CRAQ纠正后,新产生的两个contigs(ctg8_1和ctg8_2)与光学图谱之间保持了高度一致性(图三d);而利用Hi-C重新构建的两条scaffolds(scaf4和scaff11)也呈现出很高的连续性(图三e)。

图三 CRAQ检测并纠正组装嵌合片段示例

中国科学院植物研究所博士研究生李鹍鹏为论文第一作者,焦远年研究员为通讯作者。博士研究生徐鹏、已毕业博士研究生王金朋和助理研究员易欣也参与了本项工作。该研究得到了国家重点研发计划、国家自然科学基金、中国科学院青年交叉团队等项目的资助。

文章链接:

https://www.nature.com/articles/s41467-023-42336-w

CRAQ链接:

https://github.com/JiaoLaboratory/CRAQ