SDrecall:突破NGS盲区,精准检测片段重复区变异
★ 英文标题: SDrecall: Sensitive detection of variants in segmental duplications 期刊: Genome Biology 作者: Xing Tian Yang*, Chun Hing She*, CaiCai Zhang, Daniel Leung, Jing Yang, Koon-Wing Chan, Jaime S Rosa Duque, Yu Lung Lau†, Wanling Yang† (* Co-first authors; † Correspondence)
研究背景:基因组中的"暗物质"与临床诊断痛点
随着二代测序(NGS)技术的普及,全基因组及全外显子组测序已成为孟德尔遗传病分子诊断的常规手段。然而,人类基因组中仍存在约5%-6.6%的区域被称为"片段重复序列"(Segmental Duplications, SDs)。这些区域包含长度超过 1kb 且序列相似性极高(通常 >90%)的 DNA 片段。
在常规 NGS 流程中,由于测序读长(Reads)较短(约 150bp),源自 SD 区域的片段往往因为与基因组其他位置高度相似而出现"多重比对"或"比对模糊"(Mapping Ambiguity)的现象。为了降低错误率,传统的变异检测软件(如 GATK 和 DeepVariant)通常会丢弃这些比对质量评分(MAPQ)较低的 Reads。这一策略虽然保证了非重复区域的准确性,却导致许多位于 SD 区域内的关键致病基因成为了检测盲区。
临床痛点:SD区域覆盖的关键致病基因
这一问题在临床上尤为严峻,因为 SD 区域覆盖了约2400 个基因,其中包含大量与严重遗传病相关的基因:
基因
相关疾病
缩写
NCF1
慢性肉芽肿病
CGD
SMN1/SMN2
脊髓性肌萎缩症
SMA
CYP21A2
先天性肾上腺皮质增生症
CAH
GBA
戈谢病
GD
尽管三代长读长测序(TGS)可以跨越这些重复区域,但其高昂的成本和对 DNA 样本质量的高要求限制了其在临床的大规模普及。此外,全球医疗机构已积累了海量的存量 NGS 数据,如何利用算法创新从中挖掘出被遗漏的致病变异,具有巨大的临床价值。
SDrecall:创新算法重塑变异检测流程
针对上述痛点,香港大学儿童及青少年科学系杨万岭教授与刘宇隆教授团队,由杨幸天博士领衔,开发了名为SDrecall的生物信息学工具。该工具旨在利用常规 NGS 数据,实现对SD区域内单核苷酸变异(SNV)和小片段插入缺失(Indel)的高灵敏度检测。
原文链接:https://link.springer.com/article/10.1186/s13059-025-03928-5
图1:SDrecall 工作流程示意图
(A)展示了短读长在SD区域面临的多重比对模糊性
(C)SDrecall通过构建同源网络召回Reads,利用重比对、图论定相组装及二元整数线性规划模型(BILC)精准识别变异
核心策略:"召回与重构"
SDrecall 的工作流程主要包含以下几个创新步骤:
1. 构建多重同源网络(Multiplex SD Network)
不同于传统的线性比对,SDrecall基于全基因组组装比较(WGAC)和minimap2,构建了一个复杂的SD网络。该网络不仅编码了SD区域间的物理重叠关系,还精确界定了它们的序列相似性。通过图遍历算法,SDrecall能够高效识别出全基因组范围内所有共享同源序列的区域组(Homologous Groups)。
2. 同源导向的重比对(Homology-Guided Realignment)
利用上述网络,SDrecall会将分散比对在各个同源拷贝(包括假基因区域)上的 Reads "全部召回",并强制将它们分别重比对到目标功能区域(如蛋白编码外显子)。这一步极大地挽救了因比对模糊而被丢弃的信号,将 SD 区域的变异捕获灵敏度提升至接近100%。
3. 图论定相与单倍型组装(Graph-based Phasing)
单纯的重比对会引入大量来自同源区域的假阳性。为了去伪存真,SDrecall利用 Reads间的共享变异构建图模型,通过寻找最大团(Maximal Clique)算法,将重比对的Reads组装成更长的微单倍型(Micro-haplotypes)。
4. 二元整数线性规划去噪(Binary Integer Linear Constraint, BILC)
这是算法最关键的一步。基于人类生殖系基因组的二倍体特性,SDrecall建立了一个数学优化模型。该模型在滑动窗口中施加约束,确保在任何覆盖良好的区域中,仅保留两个最合理的单倍型组合。该模型有效区分了真正的变异和由同源序列引入的"噪音",成功剔除了约88%的假阳性。
性能评估:媲美长读长测序的灵敏度
研究团队利用"瓶中基因组"(Genome in a Bottle, GIAB)项目的6个标准样本(HG002-HG007),以高质量的三代长读长测序结果为金标准,对SDrecall进行了严格评估。
★ 关键结果:在 GRCh37、GRCh38、CHM13 参考基因组上,SDrecall 结合传统工具的策略,在SD区域内的变异检测灵敏度达到了惊人的95%左右,远超 GATK 单独使用时的表现(约73%-77%)。
同时,通过BILC模型及人群频率筛选,SDrecall能够在罕见变异的范围内将假阳性控制在较低水平,确保筛选出的候选变异具有高度的临床参考价值,不至于对下游的变异评估流程引入过多"噪音"。
图2:SDrecall的基准测试性能评估与假阳性过滤策略
A. 变异检测灵敏度(Sensitivity)对比评估
柱状图展示了在6个GIAB标准样本中,常规流程(GATK/DeepVariant)与结合SDrecall后的流程在变异检测上的表现差异。
上图:基于GIAB v4.2.1全基因组基准数据集的评估结果
下图:基于GIAB挑战性医学相关基因(CMRG)基准数据集的评估结果(仅适用于 HG002样本)
图例说明:
深色柱状:检出的真阳性变异(TPs,不考虑基因型判定的准确性)
浅色叠加:不仅被检出且基因型(Genotype)判定也完全准确的真阳性变异
B. 基因编码序列(CDS)上的变异分布可视化
展示了真阳性变异在选定基因编码区上的分布情况。
每个水平长条代表一个基因的完整 CDS,深绿色背景标记了被片段重复(SD)覆盖的区域
蓝色竖线:常规流程与SDrecall均能检出的共有变异
红色竖线:仅由SDrecall独家检出的真阳性变异
C. 变异临床解读流程示意图
展示了从海量变异中筛选致病位点的"漏斗式"策略:
区分常见变异与罕见变异(Common vs Rare)
利用生物信息学工具根据效应大小(Effect size)和功能相关性对罕见变异进行优先级排序
最终生成的少量候选变异列表将进行人工审核以确定致病原因
D. 假阳性(FPs)的分类与过滤效果
韦恩图详细展示了在所有6个GIAB 样本中,SDrecall引入的假阳性是如何被层层过滤的。
分类依据:
紫色:存在错配证据(Misalignment)
蓝色:内部对照队列中的常见变异
绿色:gnomAD数据库中的常见变异
黄色:CADD预测的中性变异(Potentially neutral)
结果:经过多重过滤,最终仅剩极个位数的罕见且潜在致病(pLoF)的假阳性留待专家审查(图中数字显示:在 GRCh37上结合GATK后仅剩8个,结合DeepVariant后仅剩3个等),证明了该策略能有效控制临床解读中的"噪音"。
E. 区分罕见与常见变异的统计模型
示意图展示了用于频率过滤的二项式检验(Binomial test)。
对于一个被n个单倍型覆盖的变异,其预期的次等位基因计数(AC)由Binom(n, 0.01) 分布建模
如果观察到的AC显著超过预期(p<0.01,即落在虚线右侧区域),该变异将被判定为常见变异并被标记过滤,从而避免将其误判为罕见致病变异(Type II Error)
临床实战:破解疑难病例
SDrecall 的临床价值在实际病例中得到了有力验证。研究团队应用该工具重新分析了三名慢性肉芽肿病(CGD)患者的 NGS 数据。这些患者均携带 NCF1 基因外显子区域的c.75_76delGT致病缺失。
由于 NCF1 与其假基因 NCF1B/NCF1C 高度同源(相似度 >98%),常规 GATK 流程在所有病例中均漏检了该突变。
图3:NCF1 基因家族的同源网络可视化
图中展示了 NCF1 及其假基因 NCF1B/NCF1C 之间复杂的序列同源(灰色连线)和物理重叠(红色箭头)关系,直观解释了为何该区域难以通过传统方法进行分析。
而SDrecall 成功在所有患者中准确识别出了这一关键变异,并随后通过 GeneScan 实验得到了验证。这一结果证明,SDrecall 能够有效填补现有临床诊断流程在复杂基因组区域的空白。
总结
SDrecall 是目前首个专门针对 NGS 数据在片段重复区进行高灵敏度小变异检测的综合性工具。它无需额外的实验成本,即可让临床医生和研究人员深入探查基因组的"盲区"。对于全球积累的数以万计的未确诊罕见病 NGS 数据,SDrecall 提供了一个强有力的再分析工具,有望显著提高孟德尔遗传病的分子诊断率。
作者体会
片段重复区(segmental duplications, SDs)长期以来被认为是二代测序(NGS)比对中的"暗区/暗物质"来源之一。由于同源拷贝之间序列高度相似,短读长(即便是双端 reads)也常常出现严重的比对歧义(mapping ambiguity)。在业内,这通常被视为"信息论上难以彻底解决"的问题:短读长本身携带的位置信息不足,难以唯一判定其真实来源。因此,整个领域普遍寄希望于更长的读长跨度(长读长测序/TGS)来改善 SD 区域的变异检出。
我们也完全理解这一两难。从项目一开始,我们就没有把目标设定为"通过算法优化彻底消除比对歧义"这类不切实际的愿景;相反,我们希望在灵敏度(sensitivity/召回率)与精确率(precision/阳性预测值)之间做一次有意识的再平衡,让在特定应用场景下的变异集(callset)更具实际价值。
基于我们在原发性免疫缺陷(PID)分子诊断中的经验,许多情况下尽可能提高灵敏度非常关键——因为漏掉真正的致病变异往往比引入一定数量的假阳性更致命。现代分子诊断流程中,检出的变异会经过系统性的注释、过滤与优先级排序(ranking),最终能进入"候选致病变异清单"的通常只是极少数。如果我们能在 SD 区域把灵敏度显著拉高,同时将假阳性(FP)控制在一个可管理的水平,那么经过下游处理后,真正留到专家终审环节的"噪音"其实非常有限。
因此,我们设定了两个核心目标:最大化灵敏度与最小化假阳性数量。
要最大化灵敏度,关键在于:对任何来自目标 SD 区域的 reads,尽可能找全其在基因组中所有潜在的同源比对位置。传统上这类"全量同源搜索"常用 BLAST/BLAT 思路,但若对每个查询区域都从头搜索,计算代价非常高。为此,我们构建了一个多重同源网络(multiplex SD network),用来表达同源序列之间复合、嵌套的关系。通过对该网络进行图遍历,我们可以在给定任意查询区域时快速追踪其全部同源区域——对于较大的查询区段,速度可比 BLAT 快两个数量级(约100 倍量级)。
而在降低假阳性方面,我们设计了基于图的定相(graph-based phasing)策略,将可能来自未知数量单倍型的 reads 进行分组与组装(在理念上类似"非整倍体定相"中对多单倍型信号的处理),形成更长的微单倍型(micro-haplotype)。随后,我们把这些微单倍型放入一个二元整数线性规划(binary integer linear programming, BILP)模型中,并利用人类生殖系基因组的二倍体(diploidy)作为约束,只保留最合理的两条单倍型组合,从而有效压制由同源拷贝引入的噪音。
最终,我们在 SD 区域达到了接近90%-95% 的灵敏度,以及约40%-45% 的精确率。
我们认为,这样的精确率已经在接近理论上限(50%):因为每个目标 SD 区域在基因组里至少存在一个几乎不可区分的同源对应拷贝。在这种背景下,即便出现额外的 SNV 或小 Indel,如果它被"错比对"到其他同源拷贝上,往往也不足以提供强到足以确证其真实来源的证据。因此,就"仅依赖常规 NGS 数据,在 SD 区域筛查高效应(big effect size)潜在致病变异"这一目的而言,我们相信 SDrecall 已经处在业内非常领先、也非常实用的位置。
当然,工具定位也需要客观看待:如果 SDrecall 检出的变异最终进入了致病性判定的关键步骤,我们完全可以结合长片段 PCR、GeneScan、MLPA等手段进行针对性验证,以确认其真实存在与拷贝来源。若你拥有成本可接受、可常规化的大规模 TGS 数据,那么 SDrecall 的边际价值可能并不高;但在现实中,很多团队手里只有大量存量 NGS 数据、而 TGS 仍受成本与样本条件限制。在这种情况下,SDrecall 提供了一种可扩展、可规模化地"重探 SD 盲区"的机会,让手头的 NGS 数据发挥出更大的临床与科研价值。
研究团队
刘宇隆教授:长期从事出生免疫缺陷的研究,是亚太免疫缺陷学会(APSID: https://www.apsocid.org/apsid/)的创始主席
杨万岭教授:研究领域包括基因组学和生物信息学,以及系统性红斑狼疮的遗传学研究(https://paed.hku.hk/menu/staff/wanlingyang/wanlingyang.html)
打开网易新闻 查看精彩图片
01
02
03
04
05
快点亮"在看”吧!
热门跟贴