DecAlign：用于解耦多模态表示学习的层次化跨模态对齐|多模态|层次化|解耦

DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning

DecAlign：用于解耦多模态表示学习的层次化跨模态对齐

https://arxiv.org/pdf/2503.11892v2

摘要

多模态表征学习旨在捕获不同模态之间的共享和互补语义信息。然而，不同模态之间的固有异质性给实现有效的跨模态协作和整合带来了重大挑战。为了解决这个问题，我们引入了DecAlign，这是一个新颖的层次化跨模态对齐框架，旨在将多模态表征分解为模态唯一（异构）和模态共通（同构）特征。具体来说，我们通过一种新颖的原型引导最优传输对齐策略来减轻模态唯一特征的分布差异，该策略利用高斯混合模型和多边传输。同时，通过最大均值差异正则化对齐潜在分布匹配来加强跨模态的语义一致性。此外，我们结合了一个多模态变压器以增强高级语义特征融合，进一步减少跨模态的不一致性。我们在四个广泛使用的多模态基准测试中的广泛实验表明，DecAlign在五个指标上始终优于最先进的方法。这些结果突显了DecAlign在提高跨模态对齐和语义一致性的同时保留模态唯一特征方面的有效性，标志着多模态表征学习场景的重大进步。我们的项目页面位于https://taco-group.github.io/DecAlign/。

1 引言

多模态表征学习旨在通过捕获不同模态间的共享语义，同时保留各自独特的特征，来有效整合不同的模态。这一目标已在许多领域中被追求，包括多模态情感分析（Lian等，2023；Das & Singh，2023；Wang等，2024a）、推荐系统（Liu等，2024a；2022）、自动驾驶（Yuan等，2025a；Xing等，2024b；Ma等，2025；Xing等，2024a）、分布外检测（Dong等，2024；Li等，2024c），以及一般的视觉理解和推理（Xing等，2025；Wang等，2024b；Cui等，2023；Wang等，2022b；Liang等，2025）。尽管取得了显著进展，但模态间固有的异质性——主要是由于数据分布的差异、各种表征尺度和语义粒度——仍然是阻碍有效跨模态整合的关键障碍。

动机。这一挑战因模态唯一（异构）模式和跨模态共同（同构）语义的复杂纠缠而进一步加剧。传统的多模态融合方法通常通过简单的连接或线性变换将原始多模态数据投影到统一的空间中来简化问题（Han等，2022；Zhang等，2023）。然而，这种不加区分的融合常常将模态唯一的特征与全局共享的语义纠缠在一起，导致语义干扰，其中详细的单模态特征可能会破坏全局跨模态关系（Liang等，2024a；Xu等，2023）。当处理维度不匹配时，这种现象尤为明显，例如，高维、空间相关的图像特征与低维、时间相关的文本特征配对（Wei等，2025；2024；Zhu等，2024）。这些维度不匹配经常导致次优的对齐，在融合过程中造成信息冗余或关键信息的丢失。

我们的方法。为了克服这些限制，我们提出了DecAlign，这是一个用于多模态表征学习的层次化跨模态对齐框架。如图2所示，DecAlign首先通过专门的编码器明确地分离异构和同构特征。然后，利用双流跨模态对齐机制，DecAlign分别处理不同粒度的模态特征：❶ 对于异构性，我们提出了基于原型的最优传输对齐（Peyré & Cuturi, 2019），使用高斯混合模型（GMM）（Bishop, 2006）和多边传输计划（Pass, 2015），有效地减轻分布差异并限制模态独有的干扰。此外，我们通过使用跨模态注意力机制的多模态变压器来增强语义对齐和鲁棒性，以弥合高级语义不一致性。❷ 对于同构性，DecAlign通过潜在分布匹配和最大均值差异（MMD）正则化实现语义一致性。最后，我们将对齐的模态唯一特征与模态共通特征连接起来，通过一个可学习的投影仪传递给下游任务。我们的主要贡献总结如下：

模态解耦。我们提出了DecAlign，这是一个新颖的层次化跨模态对齐框架，将多模态特征解耦为模态异构和模态同构组件，允许定制策略来捕获模态独有的特征和共享的语义。
层次化对齐策略。我们开发了一个双流对齐机制，结合原型引导的最优传输和跨模态变压器来处理模态异构性，同时应用潜在空间统计匹配来解决同构性，显著提高了跨模态语义整合。
实证评估。在四个广泛使用的基准数据集上的广泛实验表明，DecAlign在多模态表征学习中一致性地优于13种最先进的方法，验证了其有效性和泛化能力。

2 相关工作（扩展版本见附录A）

多模态表征学习。该领域将异构模态整合到统一的表征中，以捕获互补的语义（Qian等，2025b；Liang等，2024b；Bayoudh，2024；Wang等，2025）。进展包括对比和掩码建模（Self-MM），以及层次化图对比学习（HGraph-CL）（Yu等，2021；Lin等，2022）。然而，异质性和互补性的纠缠阻碍了两者的利用。为了解决这个问题，MISA分离了不变和独特的特征，而DMD应用了图知识蒸馏（Hazarika等，2020；Li等，2023）。然而，全局建模占主导地位，常常忽视了令牌级别的不一致性。我们的DecAlign引入了层次化对齐，从局部到全局，从异质性到同质性，以实现精确和一致的整合。

跨模态对齐。多模态学习的核心挑战是结构、分布和语义的异质性，这限制了特征协同（Zhu等，2024）。主要方法包括：❶ 共享表征。学习统一的潜在空间以实现语义一致性。CLIP通过大规模对比学习对齐图像-文本对（Radford等，2021；Gao等，2024），而Uni-Code使用解耦和指数移动平均值实现稳定的对齐（Xia等，2024b）。❷ 基于变压器的跨注意力。跨注意力动态捕获模态间的信息，如具有解耦或层次化融合的多模态变压器（Tsai等，2019；Yang等，2022；Hu等，2024）。❸ 模态翻译。翻译方法通过跨模态生成或重建建立映射，明确建模依赖关系（Liu等，2024b；Zeng等，2024；Tian等，2022）。❹ 知识蒸馏。蒸馏通过转移知识平衡模态间的贡献。DMD应用图蒸馏进行相关性建模，UMDF使用统一自蒸馏进行鲁棒表征学习（Li等，2023；2024b）。与可能过度对齐并丢失模态特定特征的方法相比，我们的框架结合了表征解耦和层次化对齐，以保留单模态独特性，同时确保语义一致性。

3 方法

动机和概述。多模态表征学习的基本挑战在于有效解决模态独特特征与跨模态语义一致性之间的固有冲突。出现了两个关键问题：① 异质性：指的是不同模态之间固有的表征焦点和分布差异，这些差异阻碍了跨模态语义对齐；② 同质性：强调尽管存在固有差异，但需要捕捉跨模态共享语义的必要性。为了克服这些限制，我们提出了DecAlign，这是一个层次化的跨模态对齐框架，明确地对模态独特和模态共通特征采用特定的对齐策略。如图2所示，DecAlign首先将多模态表征分解为模态独特（异构）和模态共通（同构）特征（第3.1节）。随后采用层次化对齐机制，结合原型引导的多边最优传输和跨模态变压器进行异构对齐（第3.2节），以及使用MMD正则化进行同构对齐的潜在空间语义一致性（第3.3节），确保模态独特信息和跨模态共性的语义一致性。

3.1 多模态特征解耦

考虑到模态间的固有异质性和潜在冗余，我们通过明确分离模态独特和模态共通特征来优化解耦过程。所有编码器都被设计为产生具有相同维度的表征以确保兼容性。我们不采用建模分布或计算可能计算成本很高的互信息的方法，而是使用余弦相似度来量化它们潜在的重叠。因此，解耦过程的损失被正式定义为：

3.2 异构性对齐

在多模态任务中，模态独特的特征捕捉了每个模态特有的不同特征。然而，这些特征在空间结构、尺度、噪声水平和密度上往往存在显著差异，使得跨模态的直接点对点对齐既不可靠又计算成本高昂。此外，尽管这些特征在形式上有所不同，但在涉及相同的基本概念或对象类别时，它们经常携带语义对齐的信息。为了在保留共享语义结构的同时有效地弥合模态独特特征差异，我们引入了跨模态的类别原型。这些原型代表了不同模态特定表征下一致的语义模式，并作为参考点来指导对齐。基于此，我们采用原型引导的多边最优传输框架，以实现跨异构特征空间的自适应和细粒度对齐。

原型生成。为了灵活捕捉多模态数据中的复杂分布和潜在相关性，我们采用高斯混合模型（GMM），它利用软分配机制和高斯分布假设来更准确地表示不同模态特征的原型结构。GMM通过标准的期望最大化算法进行拟合，该算法迭代估计混合系数、均值和协方差，以最大化模态独特特征的可能性。我们首先使用GMM对模态独特特征进行建模，其中原型由高斯分布的均值和方差表示：

原型引导的最优传输。不同模态的模态独特特征通常位于具有显著分布差异的不同特征空间中，传统的点对点对齐方法难以同时捕捉全局和局部关系。为了解决多模态场景中的这一挑战，我们引入了一种多边最优传输方法来建立分布之间的匹配。跨模态原型匹配成本矩阵被定义为：

3.3 同质性对齐

虽然不同的模态在其表征中表现出独特的特征，但它们也共享传达相同语义信息的共同元素。为了有效地揭示和对齐这些共享特征，解决由模态独特变化及其分布中的残余不一致性所带来的固有挑战至关重要。

潜在空间语义对齐。为了解决模态共通特征中的全局偏差和语义不一致性，并在特征融合过程中减轻信息失真，我们使用高斯分布对模态特征分布进行建模。通过将表征映射到潜在空间，我们通过均值、协方差和偏度来量化位置、形状和对称性的差异，其中偏度进一步被纳入以捕捉模态共通特征分布中的不对称性，使对齐能够考虑非高斯语义变化并提高跨模态一致性。具体来说，对于模态共通特征，它们的分布被近似为的共通特征的均值、协方差和偏度。它们的详细公式在附录B.6中讨论。为了确保跨模态的语义一致性，我们定义潜在空间语义对齐损失为：

3.4 多模态融合与预测

认识到多模态异构表征的独特特征，例如语言中的句法结构、视觉中的空间布局以及音频中的时间模式，我们引入了特定于模态的变压器（Tsai等人，2019年）来增强全局时间和上下文建模。虽然先前的对齐将模态独特特征置于语义一致的空间中，但这些表征仍然包含丰富的模态内信息，这些信息可以从进一步的细化中受益。使用每个模态的单独变压器并不会破坏对齐，因为表征空间已经通过对齐损失进行了规范化。相反，这些变压器充当模态感知细化器。它们的输出与模态共通特征连接，使得共享语义和模态特定线索能够共同为最终预测提供信息，最终预测由一个全连接层生成。我们框架的整体优化目标定义为：

4 实验

数据集和评价指标描述。我们在四个常见的多模态数据集上评估DecAlign：CMU-MOSI（Zadeh等人，2016年）、CMU-MOSEI（Zadeh等人，2018年）、CH-SIMS（Yu等人，2020年）和IEMOCAP（Busso等人，2008年）。对于CMU-MOSI和CMU-MOSEI，根据先前的研究（Liang等人，2021年；Li等人，2023年；Zhou等人，2025年），我们使用二元准确率（Acc-2）、七类准确率（Acc-7）和二元F1分数来评估性能。Acc-2反映了样本是否被预测为负面，而情感强度预测则通过平均绝对误差（MAE）和皮尔逊相关系数（Corr）进一步评估，以捕捉偏差和线性。对于CH-SIMS，我们采用MAE和F1分数。IEMOCAP遵循（Lian等人，2023年；Fu等人，2024年；Zhang等人，2024年）的方法，使用加权准确率（WAcc）和加权平均F1分数（WAF1），以考虑类别分布不平衡。详细的数据集和指标描述见附录B。

实现细节。与之前的研究一致（Li等人，2023年；Wang等人，2023年），我们使用MMSA-FET工具包（Yu等人，2021年）对除IEMOCAP外的所有数据集进行特征提取，对于IEMOCAP，我们遵循先前代表性工作中描述的预处理程序（Lian等人，2023年）。我们在NVIDIA A6000上使用Adam优化器以32的批量大小训练DecAlign 50个周期。关于超参数设置的更多细节在附录B.3中提供，特征提取在附录B.4中描述。

4.1 比较分析（扩展版本见附录C）

我们在统一的实验环境和一致的数据集划分下，将DecAlign与一系列最先进的方法进行比较。这些基线方法包括MFM（Tsai等人，2018年）、MulT（Tsai等人，2019年）、PMR（Fan等人，2023年）、CubeMLP（Sun等人，2022年）、MUTA-Net（Tang等人，2023年）、MISA（Hazarika等人，2020年）、CENet（Wang等人，2022a）、Self-MM（Yu等人，2021年）、FDMER（Yang等人，2022年）、AOBERT（Kim & Park，2023年）、DMD（Li等人，2023年）、ReconBoost（Hua等人，2024年）和CGGM（Guo等人，2025年）。表1、5、6、7以及图1展示了我们的DecAlign框架与四个广泛使用的数据集上的13种最先进方法的全面比较。为了考虑统计显著性并减少随机性的影响，所报告的DecAlign性能是在五次独立运行中平均得到的。比较显示，DecAlign在捕捉连续目标值的微妙变化以及在离散类别之间进行更精确区分方面表现出更强的能力。它在不同数据集上的一致性能表明了对多模态数据中连续和分类模式建模的增强能力，反映了对复杂跨模态交互的更全面理解。

基于Transformer的方法。与MulT（Tsai等人，2019年）、Self-MM（Yu等人，2021年）、PMR（Fan等人，2023年）和MUTA-Net（Tang等人，2023年）等基于Transformer的方法相比，这些方法依赖于交叉注意力机制进行全局特征融合，DecAlign克服了模态特有的干扰和局部语义不一致性。基于Transformer的模型假设一个共享的潜在空间，通常会导致占主导地位的模态掩盖较弱的模态，从而导致信息丢失。相比之下，DecAlign明确地分离了模态异质特征和模态同质特征，利用基于原型的最优传输进行细粒度对齐，并通过MMD正则化进行潜在空间语义对齐以实现全局一致性。这减轻了模态干扰，降低了平均绝对误差（MAE），提高了相关性（Corr），同时提高了分类性能。

基于特征解耦的方法。虽然多模态特征解耦方法如MISA（Hazarika等人，2020年）、FDMER（Yang等人，2022年）和DMD（Li等人，2023年）减轻了模态干扰，但它们主要关注全局对齐，常常忽略了标记级别的不一致性。这种限制阻碍了细粒度的多模态融合，特别是在需要精确语义融合的任务中。DecAlign通过双流层次化对齐策略克服了这一挑战，将基于原型的传输用于局部对齐，并结合语义一致性约束以实现稳健的全局融合。这使得多模态表示更具表现力，从而在回归和分类指标上都取得了卓越的性能。

混淆矩阵分析。为了进一步展示我们性能的优越性，并验证我们提出方法的有效性，我们分析了DecAlign的混淆矩阵，并将其与多模态情感分析领域中的代表性工作进行比较，包括MulT（Tsai等人，2019年）、MISA（Hazarika等人，2020年）和DMD（Li等人，2023年）。如图3所示，DecAlign在不同情感强度水平上实现了更平衡且准确的情感分类，显著减少了误识别错误，特别是在区分细微情感差异方面表现出色。

与其他方法相比，DecAlign展现出更强的对角线优势，反映了更高的情感分类准确性。值得注意的是，在极端情感类别（-3和+3）中，现有模型常常会错误分类样本，而DecAlign显著减少了与相邻情感水平的混淆。在中等情感类别（-1、0和1）中，正确预测样本的更高集中度进一步证明了其捕捉细粒度情感差异的能力，减少了对中性或极端标签的偏向。此外，与MulT、MISA和DMD不同，这些方法在负向到中性情感的识别上存在困难，而DecAlign实现了情感类别之间的更清晰分离，确保了更稳健且可解释的预测。这种改进在-2和+2类别中尤为明显，DecAlign将误识别到相邻类别的概率降至最低，验证了其层次化对齐策略在捕捉模态独特细节和共享语义模式方面的有效性。

4.2 消融研究（扩展版本见附录C.3）

为了进一步评估DecAlign中各个组件的贡献，我们在MOSI和MOSEI数据集上进行了消融研究，其他基准测试的结果在附录中给出。第一项研究考察了关键模型组件的影响，而第二项研究则关注特定对齐策略的有效性。

关键组件的影响
我们使用平均绝对误差（MAE）和二元F1分数（表2）来评估多模态特征解耦（MFD）、异质（Hete）和同质（Homo）对齐对模型性能的影响。完整模型取得了最佳结果，证实了层次化对齐的重要性。移除同质对齐略微增加了MAE并降低了Acc-2，表明模态内一致性的重要性。移除异质对齐导致了更大的性能下降，表明模态独特干扰对特征融合的影响。同时移除这两种对齐会导致显著的性能退化，突出了分离模态同质和模态异质特征的必要性。

此外，图4（a）-（d）可视化了在不同情感类别中进行消融的结果，展示了在冻结异质和同质对齐模块时的性能变化。情感类别中的性能退化进一步验证了层次化对齐策略的必要性，以在多样化的表情中保持稳健的性能。值得注意的是，即使禁用任何一个对齐模块，F1分数仍然高于许多最先进的方法，包括FDMER、AOBERT和DMD，这证明了我们提出的从异质和同质角度进行对齐方法的有效性。当移除MFD时，性能退化最为严重，表明在融合之前保留模态独特信息是至关重要的。这进一步强调了整合异质和同质表示以实现更好的情感分析的有效性。

特定对齐策略的影响
我们进一步评估了基于原型的最优传输（Proto-OT）、对比训练（CT）、语义一致性（Sem）和最大均值差异（MMD）正则化对DecAlign性能的贡献，如表2所示。移除MMD正则化会导致轻微的性能下降，突出了其在全球潜在空间对齐和特征一致性中的作用。排除语义一致性会进一步降低性能，表明强制语义对齐增强了多模态特征融合。当移除对比训练时，性能下降最为显著，表明其在学习区分性多模态表示中的关键作用。同样，消除Proto-OT会导致回归和分类指标的显著下降，证明了通过最优传输进行细粒度对齐显著提高了多模态协作预测性能。

模态差距分析
图4（e）-（h）展示了一个关于视觉和语言模态的案例研究，说明了DecAlign如何减少模态差距以增强对齐。没有异质或同质对齐的模型表现出显著更大的差距，阻碍了跨模态融合。这些结果进一步验证了我们层次化对齐策略的有效性。扩展分析将在附录C.4中展示。

4.3参数敏感性分析

为了分析超参数α和β对DecAlign的影响，我们进行了广泛的网格搜索，并在MOSI和MOSEI数据集上评估了模型在不同参数设置下的二元F1分数。

图5展示了结果的热力图可视化，其中较深的颜色表示更高的性能。最优设置是α = 0.05，β = 0.05，这一设置在两个数据集上都实现了最高的性能。