帝国理工大学提出DyMo：让多模态模型学会选择，突破模态缺失难题|多模态模型|帝国理工大学|插补|新论文|算法|鲁棒

论文第一作者为帝国理工大学 BioMedIA 实验室博士研究生杜思逸（个人主页：https://siyi-wind.github.io），研究方向为多模态学习与医疗影像，曾在 ICLR、CVPR、ECCV、MICCAI 等学术会议上发表文章。

通讯作者为帝国理工大学电子与电气工程系和 I-X 系的秦宸副教授（实验室主页：https://cq615.github.io）。她的研究方向涉及深度学习、医学图像分析、和计算机视觉。已在顶级同行评审工程和医学成像期刊和会议论文集上发表了 70 多篇论文，并担任 MICCAI 2022-24 的区域主席以及多个国际研讨会的组织和计划委员会成员。

多模态学习（Multimodal Learning）正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态，模型能够获得更全面的信息，从而显著提升性能。

然而，在真实世界中，一个关键问题几乎不可避免：「模态缺失（Missing Modality）」。例如：医学诊断中，部分检查未完成；自动驾驶中，某些传感器失效；多模态数据库中，部分字段缺失。

现有的不完整多模态学习方法通常采取两种策略，要么直接丢弃缺失模态（无恢复方法，recovery-free），从而可能损失重要的任务相关信息；要么尝试恢复缺失模态（recovery-based，基于恢复方法），但这又可能引入无关噪声。我们将这一矛盾称为「丢弃 - 插补困境」（discarding-imputation dilemma）

为了解决这一问题，帝国理工大学的研究团队引入一个全新的视角：不盲目丢弃，也不盲目使用恢复模态，而是在推理时动态识别并融合可靠的恢复模态，突破传统「丢弃或插补」的二元限制。为此，作者设计了一种新的推理阶段动态模态选择框架DyMo

DyMo 从信息论的角度出发，理论性地建立信息量和任务损失之间的联系，提出用于指导模态选择过程的奖励函数。此外，作者还设计了一种灵活的多模态网络结构，可兼容任意模态组合，并配套提出了专门的训练策略，以学习鲁棒的多模态表示。在多个自然图像与医学影像数据集上的实验表明，DyMo 在各种模态缺失场景下均显著优于现有方法。该工作已被机器学习顶级会议 ICLR 2026 接收。

论文标题：Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification
论文作者：Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin
作者单位：英国帝国理工大学
论文链接：https://openreview.net/forum?id=PWhDUWRVhM
代码链接：https://github.com//siyi-wind/DyMo

丢弃 vs 恢复的困境

针对模态缺失问题，现有方法主要分为两类：

基于恢复的方法（recovery-based methods），这些方法先补全模态，再进行模态融合。
无恢复方法（recovery-free methods），这类方法直接忽略缺失模态，仅使用可用模态进行预测。

但在现实场景中，不同模态对任务的重要性往往存在显著差异。这种差异主要来源于：（i）各模态包含的任务相关信息强度不同，（ii）各模态中包含的噪声程度不同。

图 1。(a–b) “丢弃–插补困境” 的直观证据：(a-1) vs (a-2) 无恢复方法（recovery-free methods）由于直接忽略缺失但高度任务相关的模态（如 {M, T}），只能学习到判别能力较弱的特征表示；(b) 基于恢复的方法（recovery-based methods）产生不可靠的重建结果，例如低保真重建（橙色）或语义错位（黄色）。(c) DyMo 能够通过动态融合任务相关且可靠的恢复模态来有效解决这一困境，并在多个数据集上显著提升性能：如在 PolyMNIST、MST 和 CelebA 数据集上，分类准确率分别提高了 1.61%、1.68% 和 3.88%（见论文表 1）。

当高度关键的模态缺失时，传统的无需恢复方法只能依赖剩余信息较弱的模态，从而导致模型判别能力下降（如图 1（a））。虽然恢复方法试图通过重建缺失模态来解决这一问题，但恢复质量往往不稳定（如图 1（b）），可能生成低保真恢复（low-fidelity），即图像模糊或失真，或者语义错位（semantic misalignment）：恢复内容与真实标签不一致。将这些不可靠模态用于融合，反而会引入与任务无关的噪声，干扰模型决策。

DyMo：推理阶段动态模态选择框架

围绕「丢弃–插补困境」，作者提出了一种全新的解决思路 —— DyMo：一种推理阶段动态模态选择框架。其核心思想不是简单「丢弃」或「强行恢复」，而是在推理阶段自适应地选择并融合可靠的恢复模态，最大化多模态任务相关信息（图 1（c））。文章具体贡献如下：

首次系统性提出并刻画「丢弃–插补困境」，引入动态神经网络机制（dynamic neural networks）来打破这一结构性两难。
提出 DyMo，其核心创新包括：（1）基于多模态任务相关信息增益的动态模态选择算法，（2）支持任意模态组合的多模态网络结构，（3）专门的训练策略让模型能够学习鲁棒的潜在表示。
DyMo 在 5 个多样化数据集（包括自然图像和医学影像）上达到 SOTA 性能。
DyMo 易于使用（可与多种模态恢复方法结合），且动态算法无需额外复杂结构开销，方便部署。

支持任意模态组合的网络架构

图 2。用于任意模态的多模态网络结构。

DyMo 多模态网络结构的目标是：无论输入模态是否完整，都能生成可靠的预测结果，并为后续的动态模态选择提供基础。整体架构主要由三个部分组成：单模态编码器进行特征提取；多模态 Transformer 建模跨模态关系；线性分类器使用 [CLS] token 的表示进行预测。

方法核心：推理阶段动态模态选择与融合

1. MTIR （multimodal task-relevant information reward）多模态任务相关信息奖励: DyMo 的核心是一个奖励函数： MTIR，用于估计每一个恢复模态带来的多模态任务相关信息增益。更直观的说：

reward > 0: 该模态提供了有用信息，应当融合
reward = 0: 该模态可能是低保真度恢复，信息很少，价值有限
reward < 0: 该模态可能是语义不一致恢复，反而会误导模型

从该公式中，可以得到一个关键的结论：降低任务损失，能够提高任务相关信息的下界，因此，DyMo 使用一个简单但有效的 proxy：

用交叉熵损失的下降来估计任务相关信息增益

训练策略

辅助缺失不可知对比损失：旨在进一步增强类内聚类和类间分离。

实验结果

作者使用 5 个不同的数据集（包含图像，文本，表格模态）进行实验，包括三个模拟数据集：PolyMNIST, MST, CelebA，和两个大的真实数据集：自然图像 - 表格数据集 DVM 和医学图像 - 表格数据集 UK Biobank (UKBB)。

对于 DyMo 中的恢复方法，三个模拟数据集使用 VAE 类方法，两个真实数据集使用 MAE 类方法。在消融实验部分作者还包含了更多的恢复方法。模型在完整的数据集上进行训练，并在各种缺失场景下进行评估：（i）对于 PolyMNIST，作者设置随机缺失一定比例的模态； (ii) 对于 MST 和 CelebA，作者测试了缺失模式的不同组合； (iii) 对于 DVM 和 UKBB，作者评估了全表格和表格内（即模态内）缺失。

DyMo 超越过去的先进模型

DyMo 与先进的动态 / 静态模态融合方法，基于恢复的方法，和无恢复方法进行比较。实验结果表明，DyMo 在缺失模态场景下实现了巨大的性能飞跃，特别是在严重模态缺失场景。比如，在 PolyMNIST 数据集上，当 80% 模态缺失时，DyMo 相比最先进动态融合方法，准确率提升高达13.12%，展现出极强的鲁棒性。

此外，实验还显示了「丢弃 - 插补困境」的存在：（1）无恢复方法在高度任务相关模态缺失时会出现显著性能下降。例如，在 MST 数据集上，当缺失模态为 {M, T} 而非 {S, T} 时，MUSE 的分类准确率下降了高达 61.18%。（2）基于恢复的方法在严重模态缺失场景下同样面临挑战。例如，在 PolyMNIST 数据集上，当缺失率从 η = 0 增加到 η = 0.8 时，OnlineMAE 的准确率下降了 9.91%，表明恢复过程中生成了不可靠的模态。相比现有方法，DyMo 能够有效突破这一困境，在各种严重模态缺失场景下均取得显著性能优势。