体细胞结构变异( Somatic Structural Variations, SVs )是癌症基因组中重要的变异类型,涵盖缺失、插入、倒位、重复和易位等多种形式,对基因表达、拷贝数变异及染色质三维结构具有显著调控作用。然而,由于人类基因组中串联重复序列、低复杂度区域及着丝粒等高度重复区域的存在,长读长测序数据在这些区域的比对仍面临挑战,导致体细胞 SV 检测存在较高的假阳性和假阴性率。
近日,四川大学华西医院谢丹研究员 团队、东北师范大学黄伟副 教授团队联合在Genome Biology在线发表了题为SVScopeimproves somatic structural variations detection via graph-genome optimization的研究论文。该研究开发了 SVScope 算法框架,通过整合全长读长序列信息与局部图基因组优化策略,显著提升了体细胞SV的检测精度,并通过PCR实验验证了新发现的SV事件,为肿瘤基因组学研究提供了高准确性的新工具。
针对现有算法在重复区域 比对 断裂点定位模糊的瓶颈, SVScope 的核心策略是:针对候选 SV 区间,提取肿瘤和正常样本中所有跨越读长的全长序列,利用 偏序 比对 图 ( s POA -graph )构建局部图基因组,并进一步通过多类别序列混合模型解析不同基因组组分,从而精准识别体细胞 SV 特异路径。这一策略直接利用读长全长序列信息而非仅依赖比对坐标,有效规避了比对器在重复区域引入的系统误差。此外, SVScope 还训练了基于局部比对特征的随机森林模型,对着丝粒、端粒和片段重复区域引入的假阳性进行过滤。
研究团队在 7 对肿瘤 - 配对永生化正常 细胞系共 15 组 ONT 和 PacBio HiFi 全基因组测序数据中进行了系统评估。结果显示, SVScope 的平均 F1-score 显著优于 nanomonsv 、 SAVANA 、 Severus 等现有方法,在 H1437 细胞系 ONT 数据中最高提升达 23.64% 。基于 SVScope 在 HCC1395 细胞系中的检测结果,研究团队鉴定出 486 个现有金标准数据集中未收录的体细胞 SV ,并通过 PCR 凝胶电泳结合单倍型分相读长可视化,严格验证并确认了 32 个高置信度体细胞 SV 。
不同于其他体细胞 SV 检测算法围绕读长比对信息建模、专注于定位体细胞 SV 位置。 SVScope 算法框架揭示了读长序列信息建模在提高体细胞 SV 检测表现中的作用。同时,得益于局部图基因组最优化策略,该算法框架精准的读长来源聚类能力为肿瘤单倍型基因组研究提供了更高精度的分析工具,也为未来整合长读长单分子测序的甲基化、染色质可及性等多维表观遗传信息,乃至训练 DNA 大语言模型预测体细胞 SV 的功能后果奠定了基础。 SVScope 及配套可视化工具 ScopeVIZ 已开源发布于 GitHub ( https://github.com/Goatofmountain/SVScope )。
四川大学 华西医院 助理研究员 ( 现任成都市第三人民医院助理研究员 ) 屠凯岭 和四川大学博士生 张 琦 琳 是本文的 并列 第一作者。 谢丹 研究员、 黄伟 副教授为该研究论文的共同通讯作者。
原文链接:https://link.springer.com/article/10.1186/s13059-026-04076-0
制版人:十一
BioArt
Med
Plants
人才招聘
学术合作组织
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
热门跟贴