打开网易新闻 查看精彩图片

肿瘤新抗原被认为是癌症精准免疫治疗中具有重要潜力的靶点。在适当条件下,新抗原能够被免疫系统识别,从而激活特异性免疫细胞,对携带该抗原的肿瘤细胞产生选择性杀伤。近年来,以新抗原为核心的免疫治疗策略已逐步进入临床探索阶段,为晚期癌症患者的治疗带来新希望。然而,新抗原的临床应用价值高度依赖其免疫原性强度,只有能够有效诱导免疫应答的新抗原,才可能在治疗中发挥实际作用。目前,确定新抗原免疫原性主要依赖免疫测定等实验方法,但此类实验成本较高、周期较长,难以支持对大量候选新抗原的系统筛选。因此,在实验验证之前,利用计算模型对新抗原免疫原性进行初步预测,已成为新抗原免疫治疗临床转化流程中的关键环节。

然而,现有新抗原免疫原性预测方法仍面临多方面挑战。首先,在真实临床场景中,每位患者可检测到的候选新抗原数量往往多达成千上万个,而最终经实验验证具有免疫原性的通常仅有个位数,造成训练数据中极端严重的类别不均衡问题。其次,新抗原免疫原性受多种生物学因素共同影响,这些特征与免疫原性之间往往呈现高度复杂的非线性关系,在阳性样本极其有限的情况下尤为难以建模。此外,不同患者的个体差异以及不同实验验证方法之间阳性检出率的不一致,也进一步增加了预测任务的难度。

针对上述问题,清华大学张学工团队近日在Genome Medicine期刊发表了题为NeoGuider: neoepitope prediction using advanced feature engineering的研究论文。该研究提出了一种基于“监督式特征变换”的机器学习框架NeoGuider,用于新抗原免疫原性的精准预测。其核心思想在于:通过引入监督信息对原始特征进行变换,使其更适合后续的可解释建模,从而在保持模型简洁性的同时提升预测性能

打开网易新闻 查看精彩图片

NeoGuider方法的提出受到经典广义线性模型建模思想的启发。以Logistic回归为代表的二分类模型通常假设特征与阳性概率之间满足广义线性关系,但在新抗原预测任务中,这一假设往往难以成立。为此,研究团队引入监督式特征变换策略,在特征变换过程中显式利用阳性样本信息,针对新抗原预测中普遍存在的类别不均衡问题进行优化,最终构建了“监督式特征变换 + 广义线性模型”的组合框架,使模型能够更有效地捕捉新抗原免疫原性的关键判别规律。

为系统评估方法的可靠性与泛化能力,研究团队在多个独立临床数据集上进行了严格测试。评估覆盖7个临床队列、共计113名患者以及635个经实验验证的免疫原性新抗原,并结合AUPRC、Top 20免疫原性评分等多种评价指标,以及不同特征集合进行综合比较。结果显示,NeoGuider在主要评测指标和多数评测设置下均表现出显著优势,优于现有多种新抗原预测方法,如MuPeXI、DeepHLApan等;在与近百种通用机器学习方法的系统对比中,也取得了整体领先的预测表现。

值得注意的是,NeoGuider具备良好的可解释性。模型能够明确追溯每个预测结果的主要贡献特征。这种“白箱式”特性有助于研究人员和临床医生理解模型预测依据,从而在新抗原筛选和决策过程中提供更具可解释性的参考,降低复杂黑箱模型在临床应用中的不确定性风险。

打开网易新闻 查看精彩图片

NeoGuider的数据处理流程

总体而言,该研究针对新抗原免疫原性预测中长期存在的类别不均衡和非线性建模难题,提出了一种具有良好性能和可解释性的计算框架,为新抗原的高效筛选提供了可靠的工具。目前,NeoGuider的源代码已在GitHub平台公开(https://github.com/xuegonglab/neoguider),支持非盈利用途的免费使用,并可适配FASTQ测序数据、肽段FASTA文件等多种输入格式,满足不同科研和临床研究场景的需求,为新抗原免疫治疗向个体化、精准化发展提供了重要的计算方法学支撑。

该论文第一作者为清华大学自动化系博士生赵霄飞,通讯作者为清华大学张学工教授和助理研究员魏磊博士。

论文链接:https://doi.org/10.1186/s13073-025-01592-9

制版人:十一

BioArt

Med

Plants

人才招聘

学术合作组织

(*排名不分先后)

打开网易新闻 查看精彩图片

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。