AAAI 2026 | 突破模态壁垒：基于生成模型的质谱分子精准检索|序列|模态|谱图|质谱分子

这篇 AAAI 2026 论文提出 GLMR，一种面向 MS/MS 质谱分子检索的两阶段生成式框架。它先通过跨模态对比学习完成预检索，筛出候选分子，再结合谱图上下文与候选先验生成目标分子并重排序，从而将“跨模态检索”转化为“生成式单模态优化”问题。实验表明，GLMR 在多个基准上显著优于现有方法，Recall@1 提升超 40%，在零样本电离条件下仍具强泛化性，为代谢组学与药物发现中的化合物鉴定提供了更精准的新路径。

论文标题： Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra 论文链接： https://arxiv.org/pdf/2511.06259

一、引言

串联质谱（Tandem Mass Spectrometry, MS/MS）作为现代分析化学的核心技术，在代谢组学、天然产物发现、环境检测、药物研发等领域发挥着不可替代的作用。其基本原理是通过电离将分子碎裂成特征性离子片段，形成独特的"分子指纹"——质谱图。研究人员通过比对实验谱图与已知化合物的参考谱图，实现未知化合物的快速鉴定。

然而，从MS/MS谱图准确推断分子结构仍面临三大核心挑战：

谱图-结构映射的非唯一性：不同分子可能因相似碎裂路径产生高度相似的谱图（"同谱异构"现象）；
实验条件的敏感性：同一分子在不同仪器参数、碰撞能量、电离方式下可能产生显著差异的谱图；
数据噪声与缺失：实际采集的谱图常包含背景噪声、低强度峰丢失、同位素干扰等问题。

传统谱库匹配方法（如NIST、MassBank）依赖高质量参考谱图，但已知化合物仅覆盖化学空间的一小部分。近年来，跨模态表示学习方法尝试将质谱与分子结构映射到统一语义空间，但仍面临模态不对齐的根本挑战：质谱描述的是物理碎裂行为（连续信号），而分子结构表达的是化学键合关系（离散图结构），两者在表征形式与语义粒度上存在本质差异。

为此，本文提出GLMR（Generative Language Model-based Retrieval），一个新颖的两阶段生成式检索框架。其核心洞见是：与其强行对齐两种异构模态，不如利用生成模型将跨模态检索转化为单模态检索。GLMR首先通过对比学习检索出一组候选分子作为"语义先验"，再在生成模型中融合质谱上下文与候选先验，自回归生成优化后的目标分子，最终实现精准检索。

核心贡献：

提出生成式检索新范式，有效缓解质谱-分子跨模态不对齐问题；
设计跨模态融合模块，实现谱图信号与分子先验的上下文感知交互；
构建更具挑战性的MassRET-20k数据集，支持多电离加合物与零样本迁移评估；
在多个基准上实现SOTA，Recall@1提升超40%，验证方法的有效性与泛化性。

二、方法

GLMR整体框架如图1所示（建议在fig文件夹放置framework.png），包含预检索与生成检索两个协同阶段。

图1：GLMR两阶段生成式检索框架 2.1 预检索阶段：跨模态表示对齐

该阶段目标是通过对比学习，将质谱与分子映射到共享语义空间，快速筛选出Top-K候选分子，为生成阶段提供高质量先验。

分子编码器：采用ChemFormer（基于BART架构的分子预训练模型），将SMILES序列编码为固定维度的表示：

其中为可学习参数，为嵌入维度（默认256）。

谱图编码器：将质谱表示为元组序列，经线性投影后输入Transformer编码器：

为增强模型对峰强度分布的感知，作者引入强度感知位置编码，替代传统正弦位置编码。

对比学习目标：采用对称InfoNCE损失，鼓励同一分子的谱图-分子对嵌入相似，不同分子对嵌入相异：

训练完成后，对于查询谱图，通过余弦相似度检索候选分子集。

2.2 生成检索阶段：上下文感知的分子生成

该阶段利用生成语言模型，在输入质谱与候选先验的共同指导下，自回归生成优化后的目标分子。

跨模态融合模块：设计交叉注意力机制，以谱图表示为Query，候选分子表示为Key/Value，实现谱图驱动的分子先验筛选与融合：

其中。融合后的表示同时编码了谱图特征与候选分子的化学先验。

生成解码器：采用Transformer Decoder架构，以为上下文，自回归生成目标分子的SMILES序列：

训练目标为最小化负对数似然：

重排序策略：将生成的分子与候选集计算余弦相似度，按加权分数重新排序：

2.3 训练策略与实现细节

两阶段训练：先独立训练预检索模块，冻结其参数后再训练生成模块，避免梯度冲突；
数据增强：对谱图随机丢弃低强度峰、添加高斯噪声，提升模型鲁棒性；
推理优化：采用束搜索（beam search, beam=5）平衡生成质量与效率。

三、实验3.1 实验设置

数据集：

MassSpecGym：大规模基准，含230k+质谱-分子对，覆盖多种仪器类型与碰撞能量；
MassRET-20k（本文构建）：20k高质量条目，包含12种电离加合物（[M+H]⁺、[M+Na]⁺、[M-H]⁻等），所有谱图均标注归一化碰撞能量（NCE），支持更细粒度的条件检索与零样本迁移评估。

评估指标：Recall@K（K=1,5,10,50）、Mean Reciprocal Rank (MRR)、Maximum Common Edge Subgraph（MCES)。

实现细节：PyTorch框架，AdamW优化器，初始学习率1e-4，batch size=128，在4×A100 GPU上训练约24小时。

在未见过的电离加合物类型上测试，GLMR仍保持Recall@1=58.32%，显著高于其他方法（平均提升35%+），展现出强大的跨条件泛化能力。

3.3 模态对齐分析

为量化模态鸿沟的缓解程度，作者定义模态差距（Modality Gap）指标：

实验发现：

预检索阶段后，Gap从0.87降至0.43；
生成检索阶段后，Gap进一步降至0.19；

这直观验证了GLMR"渐进式对齐"的设计思想。

组件消融：

移除预检索：Recall@1下降18.7%，说明候选先验对生成质量至关重要；
移除重排序：MRR下降9.1%，表明生成结果需与候选集协同优化。

候选数K的影响：当K从10增至40时，Recall@1持续提升；K>40后增益饱和，故选择K=40作为默认值，在精度与效率间取得平衡。

四、结论

本文提出GLMR，一个基于生成语言模型的质谱分子检索框架。通过"预检索提供先验、生成模型融合上下文、重排序优化结果"的三阶段设计，有效突破了质谱与分子结构之间的模态壁垒。在MassSpecGym与MassRET-20k数据集上的大量实验表明，GLMR在检索精度、泛化能力、鲁棒性方面均显著优于现有方法，为代谢组学、天然产物发现等领域的化合物鉴定提供了新工具。

Illustration generated by AI.

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。