打开网易新闻 查看精彩图片

论文第一作者为帝国理工大学 BioMedIA 实验室博士研究生杜思逸(个人主页:https://siyi-wind.github.io),研究方向为多模态学习与医疗影像,曾在 ICLR、CVPR、ECCV、MICCAI 等学术会议上发表文章。

通讯作者为帝国理工大学电子与电气工程系和 I-X 系 的秦宸副教授(实验室主页:https://cq615.github.io)。她的研究方向涉及深度学习、医学图像分析、和计算机视觉。已在顶级同行评审工程和医学成像期刊和会议论文集上发表了 70 多篇论文,并担任 MICCAI 2022-24 的区域主席以及多个国际研讨会的组织和计划委员会成员。

多模态学习(Multimodal Learning)正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态,模型能够获得更全面的信息,从而显著提升性能。

然而,在真实世界中,一个关键问题几乎不可避免:「模态缺失(Missing Modality)」。例如:医学诊断中,部分检查未完成;自动驾驶中,某些传感器失效;多模态数据库中,部分字段缺失。

现有的不完整多模态学习方法通常采取两种策略,要么直接丢弃缺失模态(无恢复方法,recovery-free),从而可能损失重要的任务相关信息;要么尝试恢复缺失模态(recovery-based,基于恢复方法),但这又可能引入无关噪声。我们将这一矛盾称为「丢弃 - 插补困境」(discarding-imputation dilemma)

为了解决这一问题,帝国理工大学的研究团队引入一个全新的视角:不盲目丢弃,也不盲目使用恢复模态,而是在推理时动态识别并融合可靠的恢复模态,突破传统「丢弃或插补」的二元限制。为此,作者设计了一种新的推理阶段动态模态选择框架DyMo

DyMo 从信息论的角度出发,理论性地建立信息量和任务损失之间的联系,提出用于指导模态选择过程的奖励函数。此外,作者还设计了一种灵活的多模态网络结构,可兼容任意模态组合,并配套提出了专门的训练策略,以学习鲁棒的多模态表示。在多个自然图像与医学影像数据集上的实验表明,DyMo 在各种模态缺失场景下均显著优于现有方法。该工作已被机器学习顶级会议 ICLR 2026 接收。

打开网易新闻 查看精彩图片

  • 论文标题:Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification
  • 论文作者:Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin
  • 作者单位:英国帝国理工大学
  • 论文链接:https://openreview.net/forum?id=PWhDUWRVhM
  • 代码链接:https://github.com//siyi-wind/DyMo

丢弃 vs 恢复的困境

针对模态缺失问题,现有方法主要分为两类:

  • 基于恢复的方法(recovery-based methods),这些方法先补全模态,再进行模态融合。
  • 无恢复方法(recovery-free methods),这类方法直接忽略缺失模态,仅使用可用模态进行预测。

但在现实场景中,不同模态对任务的重要性往往存在显著差异。这种差异主要来源于:(i)各模态包含的任务相关信息强度不同,(ii)各模态中包含的噪声程度不同。

打开网易新闻 查看精彩图片

图 1。(a–b) “丢弃–插补困境” 的直观证据:(a-1) vs (a-2) 无恢复方法(recovery-free methods)由于直接忽略缺失但高度任务相关的模态(如 {M, T}),只能学习到判别能力较弱的特征表示;(b) 基于恢复的方法(recovery-based methods)产生不可靠的重建结果,例如低保真重建(橙色)或语义错位(黄色)。(c) DyMo 能够通过动态融合任务相关且可靠的恢复模态来有效解决这一困境,并在多个数据集上显著提升性能:如在 PolyMNIST、MST 和 CelebA 数据集上,分类准确率分别提高了 1.61%、1.68% 和 3.88%(见论文表 1)。

当高度关键的模态缺失时,传统的无需恢复方法只能依赖剩余信息较弱的模态,从而导致模型判别能力下降 (如图 1(a))。虽然恢复方法试图通过重建缺失模态来解决这一问题,但恢复质量往往不稳定(如图 1(b)),可能生成低保真恢复(low-fidelity),即图像模糊或失真,或者语义错位(semantic misalignment):恢复内容与真实标签不一致。将这些不可靠模态用于融合,反而会引入与任务无关的噪声,干扰模型决策。

DyMo:推理阶段动态模态选择框架

围绕「丢弃–插补困境」,作者提出了一种全新的解决思路 —— DyMo:一种推理阶段动态模态选择框架。其核心思想不是简单「丢弃」或「强行恢复」,而是在推理阶段自适应地选择并融合可靠的恢复模态,最大化多模态任务相关信息(图 1(c))。文章具体贡献如下:

  • 首次系统性提出并刻画「丢弃–插补困境」,引入动态神经网络机制(dynamic neural networks)来打破这一结构性两难。
  • 提出 DyMo,其核心创新包括:(1)基于多模态任务相关信息增益的动态模态选择算法,(2)支持任意模态组合的多模态网络结构,(3)专门的训练策略让模型能够学习鲁棒的潜在表示。
  • DyMo 在 5 个多样化数据集(包括自然图像和医学影像)上达到 SOTA 性能。
  • DyMo 易于使用(可与多种模态恢复方法结合),且动态算法无需额外复杂结构开销,方便部署。

支持任意模态组合的网络架构

打开网易新闻 查看精彩图片

图 2。用于任意模态的多模态网络结构。

DyMo 多模态网络结构的目标是:无论输入模态是否完整,都能生成可靠的预测结果,并为后续的动态模态选择提供基础。整体架构主要由三个部分组成:单模态编码器进行特征提取;多模态 Transformer 建模跨模态关系;线性分类器使用 [CLS] token 的表示进行预测。

方法核心:推理阶段动态模态选择与融合

1. MTIR (multimodal task-relevant information reward)多模态任务相关信息奖励: DyMo 的核心是一个奖励函数: MTIR,用于估计每一个恢复模态带来的多模态任务相关信息增益。更直观的说:

  • reward > 0: 该模态提供了有用信息,应当融合
  • reward = 0: 该模态可能是低保真度恢复,信息很少,价值有限
  • reward < 0: 该模态可能是语义不一致恢复,反而会误导模型

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

从该公式中,可以得到一个关键的结论:降低任务损失,能够提高任务相关信息的下界,因此,DyMo 使用一个简单但有效的 proxy:

用交叉熵损失的下降来估计任务相关信息增益

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

训练策略

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

辅助缺失不可知对比损失:旨在进一步增强类内聚类和类间分离。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

实验结果

作者使用 5 个不同的数据集(包含图像,文本,表格模态)进行实验,包括三个模拟数据集:PolyMNIST, MST, CelebA,和两个大的真实数据集:自然图像 - 表格数据集 DVM 和医学图像 - 表格数据集 UK Biobank (UKBB)。

对于 DyMo 中的恢复方法,三个模拟数据集使用 VAE 类方法,两个真实数据集使用 MAE 类方法。在消融实验部分作者还包含了更多的恢复方法。模型在完整的数据集上进行训练,并在各种缺失场景下进行评估:(i)对于 PolyMNIST,作者设置随机缺失一定比例的模态; (ii) 对于 MST 和 CelebA,作者测试了缺失模式的不同组合; (iii) 对于 DVM 和 UKBB,作者评估了全表格和表格内(即模态内)缺失。

DyMo 超越过去的先进模型

DyMo 与先进的动态 / 静态模态融合方法,基于恢复的方法,和无恢复方法进行比较。实验结果表明,DyMo 在缺失模态场景下实现了巨大的性能飞跃,特别是在严重模态缺失场景。比如,在 PolyMNIST 数据集上,当 80% 模态缺失时,DyMo 相比最先进动态融合方法,准确率提升高达13.12%,展现出极强的鲁棒性。

此外,实验还显示了「丢弃 - 插补困境」的存在:(1)无恢复方法在高度任务相关模态缺失时会出现显著性能下降。例如,在 MST 数据集上,当缺失模态为 {M, T} 而非 {S, T} 时,MUSE 的分类准确率下降了高达 61.18%。(2)基于恢复的方法在严重模态缺失场景下同样面临挑战。例如,在 PolyMNIST 数据集上,当缺失率从 η = 0 增加到 η = 0.8 时,OnlineMAE 的准确率下降了 9.91%,表明恢复过程中生成了不可靠的模态。相比现有方法,DyMo 能够有效突破这一困境,在各种严重模态缺失场景下均取得显著性能优势。

打开网易新闻 查看精彩图片

图 3。和静态 / 动态模态融合方法比较。

打开网易新闻 查看精彩图片

图 4。和无恢复方法,基于恢复方法比较。

可视化与样例分析

作者的隐层特征表示可视化和样例分析展示了 DyMo 能够有效选择可靠的恢复模态,并提升模型性能。

打开网易新闻 查看精彩图片

图 5。DyMo 在 MST 数据集上的隐层特征表示 t-SNE 可视化,对比了不同模态使用策略的效果:(a-1) 仅使用原始可观测模态;(a-2) 直接融合所有恢复模态(不加筛选);(a-3) 融合由 DyMo 自动选择的恢复模态。

打开网易新闻 查看精彩图片

图 6。PolyMNIST 数据集上的案例分析:黄色表示原始可观测模态,蓝色表示由 DyMo 自动选择用于融合的模态。

讨论与总结

DyMo 提供了一个新的视角,问题不再是「如何恢复所有模态」,而是「哪些恢复模态值得信任」

通过在推理阶段动态选择可靠模态,DyMo 成功突破了传统「丢弃或插补」的二元限制,为不完整多模态学习提供了一种更加灵活和鲁棒的解决方案。

未来方向:

  • 动态选择是否需要扩展到训练阶段
  • 如何扩展到分类以外的任务
  • 如何更加可靠和高效,或者与多模态大语言模型(MLLMs)进行结合