在长读长测序 (Long-read Sequencing) 领域,精准的变异检测一直是科研与临床应用的关键瓶颈。近日,香港大学罗锐邦教授团队在NatureCommunications上接连发表两项成果:针对无配对肿瘤样本体细胞测序数据的变异检测工具ClairS-TO:
ClairS
-TO: a deep-learning method for long-read tumor-only somatic small variant calling,以及 专为长读长 RNA 测序设计的Clair3-RNA: a deep learning-based small variant caller for long-read RNA sequencing data
作为长读长测序变异检测领域的标杆工具,以Clair3为代表的Clair系列已被广泛应用,并获得牛津纳米孔技术公司 (Oxford Nanopore Technologies, ONT) 官方推荐。凭借出色的稳定性和易用性,Clair系列Docker镜像下载量已突破10万次,成为全球生物信息学家处理长读长数据的常用工具之一。此次ClairS-TO和Clair3-RNA的发布,使Clair系列在基因组学分析场景中实现了更全面的覆盖。
两大工具解决行业关键问题
这两项新工具的核心价值在于解决了长期存在的两大技术难题:
1. 突破样本限制(ClairS-TO)
在临床和真实世界研究中,往往难以获取与患者肿瘤样本相匹配的正常组织 (Matched Normal) 作为对照。ClairS-TO使得研究人员仅凭肿瘤样本 (Tumor-Only),即可利用长读长数据精准区分体细胞变异与胚系变异,降低了研究对样本的要求。
2. 实现转录组变异分析(Clair3-RNA)
RNA测序不仅能定量基因表达,更是发现转录后修饰和等位基因特异性表达的重要手段。Clair3-RNA填补了长读长RNA测序缺乏专用变异检测工具的空白,有效克服了RNA数据固有的高错误率和覆盖度不均等技术挑战。
ClairS-TO:“肯定-否定”双网络机制提升体细胞变异检测精度
技术背景与挑战
长读长测序凭借其跨越复杂基因组区域(如高重复区、结构变异区)的能力,正在成为癌症研究的重要技术手段。然而,现有的Tumor-Only变异检测工具大多针对短读长测序设计,难以适应长读长测序较高的错误率和独特的错误模式。
在缺乏配对正常样本作为参考的情况下,算法必须独立应对两大核心挑战:
噪音干扰:如何在低VAF(变异等位基因频率)条件下,将真实的体细胞突变与测序背景噪音准确区分
胚系混淆:胚系变异的数量通常比体细胞变异高出两个数量级,如何精准过滤这些背景信号
ClairS-TO是首个专为长读长数据设计的深度学习Tumor-Only体细胞变异检测工具。该工具引入了以下技术创新:
核心技术特点
双神经网络集成架构(Ensemble of Disparate Networks)
ClairS-TO采用了两个在同一数据集上训练但任务方向相反的神经网络:
肯定网络(Affirmative Network, AFF):评估候选位点为体细胞变异的可能性
否定网络(Negational Network, NEG):评估候选位点非体细胞变异的可能性
通过贝叶斯方法整合两个网络的预测结果,显著提升了检测准确性。
合成肿瘤样本训练与Verdict统计模块
针对真实体细胞变异样本稀缺的问题,ClairS-TO利用合成肿瘤样本(Synthetic Tumor Samples)进行预训练。同时,其内置的Verdict统计模块能够利用估算的肿瘤纯度、倍性和拷贝数图谱信息,即使在低纯度样本中也能精准过滤胚系变异。
图片来源:Chen et al., Nature Communications, 2025. DOI: 10.1038/s41467-025-64547-z
性能验证
研究团队在COLO829(黑色素瘤)和HCC1395(乳腺癌)细胞系上进行了广泛的基准测试,涵盖了不同的覆盖度、肿瘤纯度和VAF范围,在各项指标上均达到了当前最优水平。
Clair3-RNA:首个长读长RNA专用变异检测工具
Clair3-RNA是目前首个专为长读长RNA测序设计的深度学习变异检测工具,支持PacBio Iso-Seq/MAS-Seq和ONT cDNA/dRNA测序平台。
核心技术特点
覆盖度归一化与专用神经网络架构
针对RNA测序中因转录本丰度差异导致的覆盖度极不均匀问题,Clair3-RNA采用了覆盖度归一化技术。模型基于Bi-LSTM架构,并针对RNA数据特性进行了多任务输出优化(同时预测基因型与杂合性)。
首次整合单倍型定相信息(Haplotype Phasing)
Clair3-RNA在RNA变异检测神经网络中首次引入定相信息。实验结果显示,整合定相信息后,PacBio和ONT平台的SNP F1-score分别达到约98%和97%。
RNA编辑位点准确识别
RNA数据中常见的A-to-I编辑极易被误判为基因变异。Clair3-RNA通过整合REDIportal数据库并采用特定的训练策略,能够有效识别并标记RNA编辑位点,显著降低假阳性率。
图片来源:Nature Communications, 2025. DOI: 10.1038/s41467-025-67237-y
开源资源
ClairS-TO 开源地址: https://github.com/HKU-BAL/ClairS-TO
Clair3-RNA 开源地址: https://github.com/HKU-BAL/Clair3-RNA
展望
随着工具的不断完善,Clair系列已形成完整的产品矩阵:针对生殖细胞变异的Clair3、体细胞变异的ClairS及ClairS-TO、长读长RNA测序的Clair3-RNA,以及家系变异检测的Clair3-Trio。这些工具正在扩展长读长测序在基因组分析中的应用范围和检测精度。
https://www.nature.com/articles/s41467-025-64547-z
https://www.nature.com/articles/s41467-025-67237-y
制版人: 十一
学术合作组织
(*排名不分先后)
战略合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐
点击主页推荐活动
关注更多最新活动!
热门跟贴