不平衡多模态学习问题(imbalanced multimodal learning problem)在近年已经引起了广泛关注。但在现有方法中,该样本级的模态差异并未被关注,也难以被观测。如何评估并缓解这种细粒度的样本级模态差异是亟待解决的问题。因此,本文聚焦于多模态合作学习的新视角--样本级的模态评估与协同。

本文提出了样本级采样方法,结合细粒度模态贡献差异评估的结果,通过针对性采样的策略,促进样本级模态差异的缓解。通过针对性采样策略增强对低贡献模态的学习,从何使得模态贡献更加均衡,达到了更好的多模态合作效果。

论文题目: Enhancing Multimodal Cooperation via Sample-level Modality Valuation 论文链接: https://arxiv.org/pdf/2309.06255 代码链接: https://github.com/GeWu-Lab/Valuate-and-Enhance-Multimodal-Cooperation

一、概述:样本级多模态差异的评估与解决

不平衡多模态学习问题(imbalanced multimodal learning problem)在近年已经引起了广泛关注。具体来说,在多模态学习中,往往采用联合训练的方式对各个模态同时进行学习。而模态间在特性、信息量等方面的差异导致在联合训练中,往往存在更易于学习的模态,模型对其的偏好主导了训练进程,导致其他模态未能被充分学习,抑制多模态学习的性能。

对于这一问题,近年来已经有许多研究者从优化、目标函数等方面给出了不同的解决方案(包括本实验室的论文:CVPR 2022 [1],ICASSP 2023 [2] 及 ICLR 2024)。在现有的方法中,往往从数据集整体的角度考虑这一问题,即对整个数据集而言,某个模态总是易学习、被模型所偏好的。

但在实际场景中,模态间的差异在样本间很可能不同。例如在图 1(a) 和 (b) 中,我们给出了两个同属于类别“motorcycling”的音视频样本。对于图 1(a) 的样本来说,摩托车较远,其视觉信息并不明显。而对于图 1(b) 的样本来说,其视觉信息为摩托车的近距影像,视觉信息明确且清晰。因此,可以想见,在对这两个样本的分类中,前者将主要依靠音频信息,而后者视觉信息明确,主要依赖视觉信息。

但在现有方法中,该样本级的模态差异并未被关注,也难以被观测。如何评估并缓解这种细粒度的样本级模态差异是亟待解决的问题。因此,本文聚焦于多模态合作学习的新视角--样本级的模态评估与协同

图1. 样本级模态差异示例

在本文中,我们首先提出基于夏普利值(Shapley value)的细粒度模态差异评估方法,该方法能够在样本级别评估各个模态对于最终正确预测的贡献。根据图 1(c) 所示,对于刚才提到的两个样本,其模态间对最终正确预测的贡献差异的确恰恰相反:即使是同一类别的样本,都可能会发生样本间模态贡献差异不同的现象。

此外,通过对数据集中所有样本某模态的贡献取均值,我们的方法依然也可以验证数据集级别上的模态差异。例如,根据图 1(d) 所示,在代表性多模态数据集(Kinetics Sounds 和 UCF-101)上,模态整体的差异明显存在。在 Kinectics Sounds 数据集上,音频模态在所有样本的平均贡献高于视觉模态。在 UCF-101 数据集上,RGB 模态在所有样本的平均贡献高于光流模态。

进一步的,为了更好评估细粒度模态间差异,我们提出了整体均衡但存在样本级模态差异的 MM-Debiased 数据集。该数据集有音频和视觉两个模态。根据图 1(d) 所示,在所有样本的贡献均值上,音频和视觉模态较为均衡。

在图 2 中,我们给出了现有不平衡学习方法在不同数据集上相对 Concatenation baseline 的效果增益。不出意外的是,虽然现有不平衡学习方法在典型多模态数据集,例如 Kinetics Sounds 上取得了增益,但在整体模态贡献均衡的 MM-Debiased 数据集上并未有效果的提升,甚至导致模型效果下降。

图2. 不平衡学习方法在不同数据集上相对Concatenation baseline的效果增益

因此,本文提出了样本级采样方法,结合细粒度模态贡献差异评估的结果,通过针对性采样的策略,促进样本级模态差异的缓解。具体来说,如图 3 所示,当两个模态合作完成预测时,通过评估我们发现,其中某个模态为低贡献模态,对正确预测并未作出足够贡献,说明多模态间合作存在不均衡,低贡献模态的学习需要针对性增强。

因此,我们通过针对性采样策略增强对低贡献模态的学习,从何使得模态贡献更加均衡,达到了更好的多模态合作效果。根据图 2 所示,我们的方法在典型多模态数据集 Kinetics Sounds 以及整体模态贡献均衡的 MM-Debiase 数据集上都取得了良好的效果。

图3. 评估并针对性增强低贡献学习,以达到更均衡的模态贡献及更好的模态间合作

二、细粒度模态贡献差异评估

本节介绍所提出的基于夏普利值(Shapley value)的细粒度模态差异评估方法。对于 是一个有 个模态的样本。其真实标签为 。记 是一个由样本 所有模态输入构成的有限非空集合。将多模态模型记做 。

假设 为由输入模态构成的集合, 。那么,当采用 作为输入时,多模态模型的预测标签记做 。函数 为多模态预测结果到其收益(benefits)之间的映射:

边际贡献 度量了当引入模态 后,多模态预测的收益的变化量。对模态 在所有可能的排列 中的边际贡献取平均,得到其对样本 的贡献为:

需要注意的是,所有模态贡献的总和 实际上就是以所有模态作为输入时正确预测的收益。因此,对于以所有模态为输入的一般多模态模型来说,当一种模态的贡献增加时,其他模态的贡献也会相应减少。借助该细粒度模态贡献评估指标,我们就可以合理地观察每个样本中各个模态的贡献。

2.1 重采样增强策略

根据此前在不同数据集上对模态贡献的估计(如图 1 所示),多模态数据集中往往存在低贡献模态 ,对多模态模型的预测贡献不足。根据本文分析,提升低贡献模态的判别性可以扩大其贡献。

因此,我们提出在训练过程中,有针对性地对各个样本的低贡献模态进行重采样,提升对低贡献模态的学习。具体来说,为了确保基本的辨别能力,我们首先对多模态模型进行几轮 warmup。而后,在每一个 epoch 之前进行一次细粒度模态贡献估计,观察各个样本中各个模态的贡献,进而在该 epoch 的训练中对低贡献模态的输入重新采样,最终有针对性地提高对低贡献模态的学习。

在本文中,我们提供了精细高效的样本级重采样方法和低耗但有效的模态级重采样方法。

2.2 样本级重采样

经过细粒度模态贡献评估后,每个样本的低贡献模态 就能被很好地区分出来,我们就能在样本级对其学习进行促进。具体的重采样频数由当前epoch其贡献值 动态决定。具体来说,对于特定样本 ,模态 的重采样频数为:

其中 为单调递增函数。对低贡献低模态的重采样频数与其贡献值成反比,即贡献值越低,重采样频数越高。在重新采样过程中,我们只采样低贡献模态,其他模态的输入会被置 0,以确保有针对性的学习。

图4. 样本级重采样方法2.3 模态级重采样

虽然样本级模态估值可以提供精细的单模态贡献,但当数据集规模相当大时,逐个样本进行贡献评估可能会产生较高的额外计算成本。因此,我们还提出了更高效的模态级方法来降低计算成本。如图 1(d) 所示,除了样本之间的贡献差异外,低贡献模态的现象也具有数据集级偏好。因此,我们提出了模态级再采样策略,即随机抽取训练样本的子集进行模态贡献估值来近似估计平均单模态贡献,以减少额外的计算成本。

具体来说,我们在训练集中随机抽取包含 个样本的子集,借此模态的平均贡献可以被近似估计。具有较低平均贡献的模态 可以被识别出来。而后,其他模态保持不变,在训练过程中以特定概率 对样本 中的模态 进行动态重新采样:

其中 。首先,将具有较低平均贡献模态 与其他模相比的平均贡献差异首先进行归一化,然后送入输出值介于 0 与 1 之间的单调递增函数 。

图5. 模态级重采样方法

三、部分实验结果展示

3.1 与其他不平衡多模态学习方法的比较

我们在多个不同的数据集上与其他不平衡多模态学习方法进行了比较。我们的方法具有明显优势,尤其是在整体模态差异不明显但仍具有样本间模态差异的 MM-Debiased 数据集上。

表1. 和其他不平衡多模态学习方法的比较

同时,如图 6 所示,相较其他方法,我们的方法在均衡模态间差异方面更加有效。

图6. 使用不平衡多模态学习的方法前后模态间贡献差异比较3.2 样本级差异评估

此外,如图 7 中所示,我们的细粒度样本级方法可以很好得捕捉并相应均衡样本级别的模态贡献差异。虽然具有一定的计算成本,但能够很好解决细粒度的样本差异。

图7. 对图1(a/b)中两个样本的贡献评估

四、未来展望

在本文中,我们借助博弈论中的夏普利值理论,引入了一种样本级模态估值,以度量模态贡献,进而促进和改善模态之间的协同。本文提出了两种方法来提升低贡献模态被抑制的贡献,从而改善多模态合作。

但在本文中,暂未考虑模态之间自然存在的信息量的差异。例如,对于类别为 drawing picture 的音视频样本来说,视觉模态天然比音频模态具有更高的判别信息。因此,即使对音频模态加强学习,也无法使其贡献与视觉模态均等。因此,在未来的工作中,在均衡各个模态的学习时,需要进一步考虑模态信息量的天然差异。

参考文献

[1] https://zhuanlan.zhihu.com/p/507823626

[2] https://zhuanlan.zhihu.com/p/617466497

作者:卫雅珂 来源:公众号【PaperWeekly】

llustration From IconScout By Manypixels Gallery

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈