这篇 AAAI 2026 论文提出 GLMR,一种面向 MS/MS 质谱分子检索的两阶段生成式框架。它先通过跨模态对比学习完成预检索,筛出候选分子,再结合谱图上下文与候选先验生成目标分子并重排序,从而将“跨模态检索”转化为“生成式单模态优化”问题。实验表明,GLMR 在多个基准上显著优于现有方法,Recall@1 提升超 40%,在零样本电离条件下仍具强泛化性,为代谢组学与药物发现中的化合物鉴定提供了更精准的新路径。

打开网易新闻 查看精彩图片

论文标题: Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra 论文链接: https://arxiv.org/pdf/2511.06259

一、引言

串联质谱(Tandem Mass Spectrometry, MS/MS)作为现代分析化学的核心技术,在代谢组学、天然产物发现、环境检测、药物研发等领域发挥着不可替代的作用。其基本原理是通过电离将分子碎裂成特征性离子片段,形成独特的"分子指纹"——质谱图。研究人员通过比对实验谱图与已知化合物的参考谱图,实现未知化合物的快速鉴定。

然而,从MS/MS谱图准确推断分子结构仍面临三大核心挑战:

  • 谱图-结构映射的非唯一性:不同分子可能因相似碎裂路径产生高度相似的谱图("同谱异构"现象);

  • 实验条件的敏感性:同一分子在不同仪器参数、碰撞能量、电离方式下可能产生显著差异的谱图;

  • 数据噪声与缺失:实际采集的谱图常包含背景噪声、低强度峰丢失、同位素干扰等问题。

传统谱库匹配方法(如NIST、MassBank)依赖高质量参考谱图,但已知化合物仅覆盖化学空间的一小部分。近年来,跨模态表示学习方法尝试将质谱与分子结构映射到统一语义空间,但仍面临模态不对齐的根本挑战:质谱描述的是物理碎裂行为(连续信号),而分子结构表达的是化学键合关系(离散图结构),两者在表征形式与语义粒度上存在本质差异。

为此,本文提出GLMR(Generative Language Model-based Retrieval),一个新颖的两阶段生成式检索框架。其核心洞见是:与其强行对齐两种异构模态,不如利用生成模型将跨模态检索转化为单模态检索。GLMR首先通过对比学习检索出一组候选分子作为"语义先验",再在生成模型中融合质谱上下文与候选先验,自回归生成优化后的目标分子,最终实现精准检索。

核心贡献:

  1. 提出生成式检索新范式,有效缓解质谱-分子跨模态不对齐问题;

  2. 设计跨模态融合模块,实现谱图信号与分子先验的上下文感知交互;

  3. 构建更具挑战性的MassRET-20k数据集,支持多电离加合物与零样本迁移评估;

  4. 在多个基准上实现SOTA,Recall@1提升超40%,验证方法的有效性与泛化性。

二、方法

GLMR整体框架如图1所示(建议在fig文件夹放置framework.png),包含预检索与生成检索两个协同阶段。

打开网易新闻 查看精彩图片

图1:GLMR两阶段生成式检索框架 2.1 预检索阶段:跨模态表示对齐

该阶段目标是通过对比学习,将质谱与分子映射到共享语义空间,快速筛选出Top-K候选分子,为生成阶段提供高质量先验。

分子编码器:采用ChemFormer(基于BART架构的分子预训练模型),将SMILES序列 编码为固定维度的表示:

打开网易新闻 查看精彩图片

其中 为可学习参数, 为嵌入维度(默认256)。

谱图编码器:将质谱表示为 元组序列,经线性投影后输入Transformer编码器:

打开网易新闻 查看精彩图片

为增强模型对峰强度分布的感知,作者引入强度感知位置编码,替代传统正弦位置编码。

对比学习目标:采用对称InfoNCE损失,鼓励同一分子的谱图-分子对嵌入相似,不同分子对嵌入相异:

打开网易新闻 查看精彩图片

训练完成后,对于查询谱图 ,通过余弦相似度检索候选分子集 。

2.2 生成检索阶段:上下文感知的分子生成

该阶段利用生成语言模型,在输入质谱与候选先验的共同指导下,自回归生成优化后的目标分子。

跨模态融合模块: 设计交叉注意力机制,以谱图表示 为Query,候选分子表示 为Key/Value,实现谱图驱动的分子先验筛选与融合:

打开网易新闻 查看精彩图片

其中 。融合后的表示 同时编码了谱图特征与候选分子的化学先验。

生成解码器:采用Transformer Decoder架构,以 为上下文,自回归生成目标分子的SMILES序列:

打开网易新闻 查看精彩图片

训练目标为最小化负对数似然:

打开网易新闻 查看精彩图片

重排序策略:将生成的分子 与候选集 计算余弦相似度,按加权分数重新排序:

打开网易新闻 查看精彩图片

2.3 训练策略与实现细节

  • 两阶段训练:先独立训练预检索模块,冻结其参数后再训练生成模块,避免梯度冲突;

  • 数据增强:对谱图随机丢弃低强度峰、添加高斯噪声,提升模型鲁棒性;

  • 推理优化:采用束搜索(beam search, beam=5)平衡生成质量与效率。

三、实验3.1 实验设置

数据集

  • MassSpecGym:大规模基准,含230k+质谱-分子对,覆盖多种仪器类型与碰撞能量;

  • MassRET-20k(本文构建):20k高质量条目,包含12种电离加合物([M+H]⁺、[M+Na]⁺、[M-H]⁻等),所有谱图均标注归一化碰撞能量(NCE),支持更细粒度的条件检索与零样本迁移评估。

评估指标:Recall@K(K=1,5,10,50)、Mean Reciprocal Rank (MRR)、Maximum Common Edge Subgraph(MCES)。

实现细节:PyTorch框架,AdamW优化器,初始学习率1e-4,batch size=128,在4×A100 GPU上训练约24小时。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在未见过的电离加合物类型上测试,GLMR仍保持Recall@1=58.32%,显著高于其他方法(平均提升35%+),展现出强大的跨条件泛化能力。

3.3 模态对齐分析

为量化模态鸿沟的缓解程度,作者定义模态差距(Modality Gap)指标:

打开网易新闻 查看精彩图片

实验发现:

  • 预检索阶段后,Gap从0.87降至0.43;

  • 生成检索阶段后,Gap进一步降至0.19;

这直观验证了GLMR"渐进式对齐"的设计思想。

打开网易新闻 查看精彩图片

组件消融

  • 移除预检索:Recall@1下降18.7%,说明候选先验对生成质量至关重要;

  • 移除重排序:MRR下降9.1%,表明生成结果需与候选集协同优化。

候选数K的影响:当K从10增至40时,Recall@1持续提升;K>40后增益饱和,故选择K=40作为默认值,在精度与效率间取得平衡。

四、结论

本文提出GLMR,一个基于生成语言模型的质谱分子检索框架。通过"预检索提供先验、生成模型融合上下文、重排序优化结果"的三阶段设计,有效突破了质谱与分子结构之间的模态壁垒。在MassSpecGym与MassRET-20k数据集上的大量实验表明,GLMR在检索精度、泛化能力、鲁棒性方面均显著优于现有方法,为代谢组学、天然产物发现等领域的化合物鉴定提供了新工具。

Illustration generated by AI.

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈