论文第一作者为帝国理工大学 BioMedIA 实验室博士研究生杜思逸(个人主页:https://siyi-wind.github.io),研究方向为多模态学习与医疗影像,曾在 ICLR、CVPR、ECCV、MICCAI 等学术会议上发表文章。
通讯作者为帝国理工大学电子与电气工程系和 I-X 系 的秦宸副教授(实验室主页:https://cq615.github.io)。她的研究方向涉及深度学习、医学图像分析、和计算机视觉。已在顶级同行评审工程和医学成像期刊和会议论文集上发表了 70 多篇论文,并担任 MICCAI 2022-24 的区域主席以及多个国际研讨会的组织和计划委员会成员。
多模态学习(Multimodal Learning)正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态,模型能够获得更全面的信息,从而显著提升性能。
然而,在真实世界中,一个关键问题几乎不可避免:「模态缺失(Missing Modality)」。例如:医学诊断中,部分检查未完成;自动驾驶中,某些传感器失效;多模态数据库中,部分字段缺失。
现有的不完整多模态学习方法通常采取两种策略,要么直接丢弃缺失模态(无恢复方法,recovery-free),从而可能损失重要的任务相关信息;要么尝试恢复缺失模态(recovery-based,基于恢复方法),但这又可能引入无关噪声。我们将这一矛盾称为「丢弃 - 插补困境」(discarding-imputation dilemma)
为了解决这一问题,帝国理工大学的研究团队引入一个全新的视角:不盲目丢弃,也不盲目使用恢复模态,而是在推理时动态识别并融合可靠的恢复模态,突破传统「丢弃或插补」的二元限制。为此,作者设计了一种新的推理阶段动态模态选择框架DyMo
DyMo 从信息论的角度出发,理论性地建立信息量和任务损失之间的联系,提出用于指导模态选择过程的奖励函数。此外,作者还设计了一种灵活的多模态网络结构,可兼容任意模态组合,并配套提出了专门的训练策略,以学习鲁棒的多模态表示。在多个自然图像与医学影像数据集上的实验表明,DyMo 在各种模态缺失场景下均显著优于现有方法。该工作已被机器学习顶级会议 ICLR 2026 接收。
- 论文标题:Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification
- 论文作者:Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin
- 作者单位:英国帝国理工大学
- 论文链接:https://openreview.net/forum?id=PWhDUWRVhM
- 代码链接:https://github.com//siyi-wind/DyMo
丢弃 vs 恢复的困境
针对模态缺失问题,现有方法主要分为两类:
- 基于恢复的方法(recovery-based methods),这些方法先补全模态,再进行模态融合。
- 无恢复方法(recovery-free methods),这类方法直接忽略缺失模态,仅使用可用模态进行预测。
但在现实场景中,不同模态对任务的重要性往往存在显著差异。这种差异主要来源于:(i)各模态包含的任务相关信息强度不同,(ii)各模态中包含的噪声程度不同。
图 1。(a–b) “丢弃–插补困境” 的直观证据:(a-1) vs (a-2) 无恢复方法(recovery-free methods)由于直接忽略缺失但高度任务相关的模态(如 {M, T}),只能学习到判别能力较弱的特征表示;(b) 基于恢复的方法(recovery-based methods)产生不可靠的重建结果,例如低保真重建(橙色)或语义错位(黄色)。(c) DyMo 能够通过动态融合任务相关且可靠的恢复模态来有效解决这一困境,并在多个数据集上显著提升性能:如在 PolyMNIST、MST 和 CelebA 数据集上,分类准确率分别提高了 1.61%、1.68% 和 3.88%(见论文表 1)。
当高度关键的模态缺失时,传统的无需恢复方法只能依赖剩余信息较弱的模态,从而导致模型判别能力下降 (如图 1(a))。虽然恢复方法试图通过重建缺失模态来解决这一问题,但恢复质量往往不稳定(如图 1(b)),可能生成低保真恢复(low-fidelity),即图像模糊或失真,或者语义错位(semantic misalignment):恢复内容与真实标签不一致。将这些不可靠模态用于融合,反而会引入与任务无关的噪声,干扰模型决策。
DyMo:推理阶段动态模态选择框架
围绕「丢弃–插补困境」,作者提出了一种全新的解决思路 —— DyMo:一种推理阶段动态模态选择框架。其核心思想不是简单「丢弃」或「强行恢复」,而是在推理阶段自适应地选择并融合可靠的恢复模态,最大化多模态任务相关信息(图 1(c))。文章具体贡献如下:
- 首次系统性提出并刻画「丢弃–插补困境」,引入动态神经网络机制(dynamic neural networks)来打破这一结构性两难。
- 提出 DyMo,其核心创新包括:(1)基于多模态任务相关信息增益的动态模态选择算法,(2)支持任意模态组合的多模态网络结构,(3)专门的训练策略让模型能够学习鲁棒的潜在表示。
- DyMo 在 5 个多样化数据集(包括自然图像和医学影像)上达到 SOTA 性能。
- DyMo 易于使用(可与多种模态恢复方法结合),且动态算法无需额外复杂结构开销,方便部署。
支持任意模态组合的网络架构
图 2。用于任意模态的多模态网络结构。
DyMo 多模态网络结构的目标是:无论输入模态是否完整,都能生成可靠的预测结果,并为后续的动态模态选择提供基础。整体架构主要由三个部分组成:单模态编码器进行特征提取;多模态 Transformer 建模跨模态关系;线性分类器使用 [CLS] token 的表示进行预测。
方法核心:推理阶段动态模态选择与融合
1. MTIR (multimodal task-relevant information reward)多模态任务相关信息奖励: DyMo 的核心是一个奖励函数: MTIR,用于估计每一个恢复模态带来的多模态任务相关信息增益。更直观的说:
- reward > 0: 该模态提供了有用信息,应当融合
- reward = 0: 该模态可能是低保真度恢复,信息很少,价值有限
- reward < 0: 该模态可能是语义不一致恢复,反而会误导模型
从该公式中,可以得到一个关键的结论:降低任务损失,能够提高任务相关信息的下界,因此,DyMo 使用一个简单但有效的 proxy:
用交叉熵损失的下降来估计任务相关信息增益
训练策略
辅助缺失不可知对比损失:旨在进一步增强类内聚类和类间分离。
实验结果
作者使用 5 个不同的数据集(包含图像,文本,表格模态)进行实验,包括三个模拟数据集:PolyMNIST, MST, CelebA,和两个大的真实数据集:自然图像 - 表格数据集 DVM 和医学图像 - 表格数据集 UK Biobank (UKBB)。
对于 DyMo 中的恢复方法,三个模拟数据集使用 VAE 类方法,两个真实数据集使用 MAE 类方法。在消融实验部分作者还包含了更多的恢复方法。模型在完整的数据集上进行训练,并在各种缺失场景下进行评估:(i)对于 PolyMNIST,作者设置随机缺失一定比例的模态; (ii) 对于 MST 和 CelebA,作者测试了缺失模式的不同组合; (iii) 对于 DVM 和 UKBB,作者评估了全表格和表格内(即模态内)缺失。
DyMo 超越过去的先进模型
DyMo 与先进的动态 / 静态模态融合方法,基于恢复的方法,和无恢复方法进行比较。实验结果表明,DyMo 在缺失模态场景下实现了巨大的性能飞跃,特别是在严重模态缺失场景。比如,在 PolyMNIST 数据集上,当 80% 模态缺失时,DyMo 相比最先进动态融合方法,准确率提升高达13.12%,展现出极强的鲁棒性。
此外,实验还显示了「丢弃 - 插补困境」的存在:(1)无恢复方法在高度任务相关模态缺失时会出现显著性能下降。例如,在 MST 数据集上,当缺失模态为 {M, T} 而非 {S, T} 时,MUSE 的分类准确率下降了高达 61.18%。(2)基于恢复的方法在严重模态缺失场景下同样面临挑战。例如,在 PolyMNIST 数据集上,当缺失率从 η = 0 增加到 η = 0.8 时,OnlineMAE 的准确率下降了 9.91%,表明恢复过程中生成了不可靠的模态。相比现有方法,DyMo 能够有效突破这一困境,在各种严重模态缺失场景下均取得显著性能优势。
图 3。和静态 / 动态模态融合方法比较。
图 4。和无恢复方法,基于恢复方法比较。
可视化与样例分析
作者的隐层特征表示可视化和样例分析展示了 DyMo 能够有效选择可靠的恢复模态,并提升模型性能。
图 5。DyMo 在 MST 数据集上的隐层特征表示 t-SNE 可视化,对比了不同模态使用策略的效果:(a-1) 仅使用原始可观测模态;(a-2) 直接融合所有恢复模态(不加筛选);(a-3) 融合由 DyMo 自动选择的恢复模态。
图 6。PolyMNIST 数据集上的案例分析:黄色表示原始可观测模态,蓝色表示由 DyMo 自动选择用于融合的模态。
讨论与总结
DyMo 提供了一个新的视角,问题不再是「如何恢复所有模态」,而是「哪些恢复模态值得信任」
通过在推理阶段动态选择可靠模态,DyMo 成功突破了传统「丢弃或插补」的二元限制,为不完整多模态学习提供了一种更加灵活和鲁棒的解决方案。
未来方向:
- 动态选择是否需要扩展到训练阶段
- 如何扩展到分类以外的任务
- 如何更加可靠和高效,或者与多模态大语言模型(MLLMs)进行结合
热门跟贴