撰文 |咸姐
编者按:近年来围绕实体瘤与微生物的研究层出不穷,一时间围绕相关研究的争议甚嚣尘上,不久前BioArt编辑部专门介绍了相关领域面临的系列争议,详见( )。相关研究的争论主要源于对测序数据是否污染展开,今天BioArt推送
Cancer Cell发表的文章主要是介绍开发的新工具用于精准评估系列肿瘤微生物的测序数据,值得广大读者注意和参考,文章中分析过的25种肿瘤中没有提到细菌的更值得注意。
近年来,随着微生物组与人类健康及疾病关联研究的深入,肿瘤微环境中的微生物组成及其潜在作用逐渐成为癌症研究的前沿领域。然而,该领域仍存在显著的方法学挑战与争议,尤其是在低生物量条件下从人类基因组数据中准确识别真正的微生物信号方面。已有研究显示,基于相同数据的不同分析方法可能得出截然相反的结论,部分原因在于测序过程中存在的污染、宿主序列干扰、分类工具误差以及参考基因组不完整等问题。尤其是在癌症基因组图谱(TCGA)等大型公共数据库中,微生物检测结果的可重复性与可靠性常受质疑(),限制了微生物与肿瘤发生发展、治疗反应及预后之间关联机制的深入探索【1,2】。因此,开发一种能够有效去污染、准确区分真实微生物与假阳性信号的计算框架,成为当前癌症微生物组研究亟需解决的关键问题。
2026年2月5日,来自美国罗格斯大学的Bassel Ghaddar团队在Cancer Cell上在线发表题为Reliable detection of Host-Microbe Signatures in cancer using PRISM的报告文章,开发并评估了PRISM(Precise Identification of Species of the Microbiome)——一个用于从人类基因组数据中进行精确微生物识别与去污染的计算框架。通过整合多重宿主序列去除、竞争性比对与机器学习评分策略,实现了对肿瘤基因组数据中微生物特征的高灵敏度、高特异性检测,为在现有大规模人类基因组资源中系统探索宿主-微生物互作提供了可靠的技术基础。通过将PRISM应用于TCGA和CPTAC数据,研究在选定的肿瘤类型中发现了稳健的微生物特征,并将微生物的存在与肿瘤的分子及临床特征联系起来。
在开发PRISM的过程中,本文研究人员首先识别出导致在使用Kraken2高性能分类器时普遍存在的物种分类错误的三个关键来源:宿主序列去除不彻底、微生物读段多重映射(即同一读段可高度相似地比对到多个分类群),以及载体或模式生物序列被误判为微生物。为解决这些问题,PRISM在Kraken2进行初步k-mer分类后,进一步采用Minimap2和STAR进行严格的宿主序列去除,随后通过BLAST对代表性读段子集进行精确比对,筛选出仅唯一映射到一个分类群的读段以确定真实存在的物种,并最终将所有潜在微生物读段重新比对至此精炼后的物种集合。经由在人工感染微生物的细胞系数据集上的验证证明了该方法的有效性,PRISM成功将大量被Kraken2误分类的读段重新判定为宿主或模式生物序列,显著减少了误报分类群的数量,同时保持了对所有真实存在病原体的高灵敏度。
PRISM采用梯度提升树模型,在物种或菌株水平上对真实存在的分类群与污染物进行分类,并在无法达到物种水平分辨率时,同时报告更高层级分类群(如属、科等)的读段计数。利用大规模、多样化的训练数据集(包括人工感染实验数据、体外合成组合数据、分离菌株测序数据及宏转录组数据),研究人员对模型进行训练与评估,结果显示该模型(即PRISM得分)在不同数据条件下均表现出稳健的性能,总体灵敏度达0.95,特异性达0.97,且其预测能力显著优于仅依靠读段计数的方法。与Kraken2、MetaPhiAn等现有分类或去污染方法相比,PRISM在保持高灵敏度的同时,实现了最高的特异性。与此同时,PRISM在不同测序类型和数据场景下均表现出色,其PRISM得分在区分真实物种与污染物方面显著优于仅依赖读段计数的方法,模型也没有因训练数据中物种的出现频率而产生显著偏差,即使目标物种不在数据库中,PRISM也能稳健地报告其同属的近似物种。这些验证实验共同证实了PRISM在各种复杂情境下均具备强大且可靠的诊断性能。
随后,研究人员将PRISM应用于TCGA中25种癌症类型的全基因组测序数据,以系统描绘肿瘤内的微生物图谱。研究结果显示,微生物信号并非均匀分布于所有癌症类型,在头颈部、胃肠道(如结直肠癌、胃癌)和宫颈癌中,检测到丰富且一致的微生物群落,包括与疾病已知相关的物种如具核梭杆菌、幽门螺杆菌和人乳头瘤病毒等;而在其他多数癌症类型中,微生物信号稀疏,且高评分信号主要源于常见污染属。与此同时,研究人员将PRISM应用于CPTAC(临床蛋白质组肿瘤分析计划)的核糖体去除RNA测序数据,作为一个正交验证队列,以评估在TCGA中的微生物检出情况。研究结果同样显示,微生物检测结果在不同癌症类型间存在显著异质性,与TCGA的分析结果相互印证,证实了在现有大规模人类癌症基因组/转录组数据中,可稳定检出的肿瘤相关微生物信号主要富集于与外界相通或具有特定生态位的解剖部位(如头颈部和胃肠道),而其他部位的肿瘤则普遍缺乏广泛、可靠的微生物组信号,凸显了PRISM在识别具有明确生态与病理关联的肿瘤特异性微生物特征方面的能力。值得一提的是,研究人员发现,技术因素是导致不同数据集间微生物检测结果差异的主要原因,RNA测序对高丰度、活跃转录的微生物更敏感,而全基因组测序可能遗漏此类信号;建库方法会系统性影响可检测微生物的范围(如polyA选择会丢失细菌RNA);此外,在RNA测序中未检测到微生物信号并不能等同于该组织中没有微生物存在。因此,在解读癌症微生物组数据时,必须谨慎考虑测序方法带来的技术偏倚,并避免对阴性结果进行过度推断。
最后,研究人员使用PRISM鉴定胰腺癌肿瘤内的微生物种类与功能基因,深入探索了微生物存在与肿瘤分子特征及临床表型之间的潜在联系。研究结果显示,在部分胰腺癌肿瘤中存在可检测的微生物(主要为大肠杆菌、幽门螺杆菌、具核梭杆菌等口腔/肠道来源细菌),其存在与特定的宿主分子改变显著相关,微生物阳性肿瘤显示出76种糖蛋白的修饰水平发生显著变化,这些蛋白富集于细胞外基质组织、蛋白酶抑制等与胰腺癌纤维化微环境密切相关的通路。此外,微生物检测阳性的患者具有更显著的吸烟史。这些结果表明,胰腺肿瘤内特定微生物的存在并非随机,可能与局部微环境重塑及患者暴露因素相关,为理解微生物在胰腺癌中的作用提供了新的分子关联线索。
综上所述,本研究开发的PRISM框架有效解决了癌症微生物组研究中长期存在的假阳性与低灵敏度问题。通过系统性去污染与机器学习评分,PRISM在TCGA和CPTAC等大型数据集中精准识别出在头颈、胃肠等特定肿瘤中稳定存在的微生物信号,并揭示了胰腺癌内微生物与宿主糖基化改变及吸烟史的潜在关联。研究结果不仅为利用现有基因组数据可靠挖掘宿主-微生物互作提供了强大工具,也强调了在解读微生物与癌症关系时,必须审慎考虑技术偏倚与生物学背景。
https://doi.org/10.1016/j.ccell.2026.01.007
制版人: 十一
参考文献
1. Ge, Y., Lu, J., Puiu, D., Revsine, M., and Salzberg, S.L. (2025). Comprehensive analysis of microbial content in whole-genome sequencing samples from The Cancer Genome Atlas project.Sci. Transl. Med.17, eads6335.
2. Sepich-Poore, G.D., McDonald, D., Kopylova, E., et al. (2024). Robustness of cancer microbiome signals over a broad range of methodological variation.Oncogene43, 1127–1148.
学术合作组织
(*排名不分先后)
战略合作伙伴
(*排名不分先后)
转载须知
【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐
点击主页推荐活动
关注更多最新活动!
热门跟贴