多模态情感分析的三重解耦表征学习|情感分析|新论文|模态|相似性|解耦

Triple disentangled representation learning for multimodal affective analysis

用于多模态情感分析的三重解耦表征学习

https://www.sciencedirect.com/science/article/pii/S156625352400441X

摘要：

在多模态情感分析（MAA）任务中，不同模态之间存在的异质性推动了对解耦（disentanglement）方法的探索，使其成为一个关键研究方向。许多新兴研究聚焦于从输入数据中解耦出模态不变（modality-invariant）表示和模态特异性（modality-specific）表示，然后将它们融合用于预测。然而，我们的研究表明，模态特异性表示可能包含与任务无关甚至冲突的信息，从而降低了所学多模态表示的有效性。我们重新审视了解耦问题，并提出了一种新颖的三重解耦方法——TriDiRA，该方法从输入数据中解耦出模态不变表示、有效的模态特异性表示以及无效的模态特异性表示。通过仅融合模态不变表示和有效的模态特异性表示，TriDiRA 能够显著缓解在模型训练和预测过程中跨模态的无关与冲突信息所带来的负面影响。在四个基准数据集上进行的大量实验表明，我们提出的三重解耦方法具有优异的有效性和泛化能力，性能超越了当前最先进的（SOTA）方法。代码已公开于：https://anonymous.4open.science/r/TriDiRA 。

关键词：多模态学习，情感分析，表征学习

引言人们通过协同利用多种感官来感知世界，因为多模态感知能够从不同方面提供更全面的信息 [1–3]。近年来，由于信息更加丰富，多模态学习显著提升了多模态情感分析（MAA，包括情感回归和情绪分类）的性能 [4,5]。一项新兴研究 [6] 证实，不同模态通常既包含一致的情感信息，也包含互补的情感信息，其中互补信息能够显著提升模型性能。

许多先前的方法开发了复杂的机制，以融合来自不同模态的互补信息 [7,8]。其中大多数方法将每个模态的信息视为一个整体。然而，由于模态之间的异质性以及信息的多样性，它们往往学到了粗糙或冗余的多模态表示 [9,10]。随后，一些研究试图通过首先学习模态的潜在表示，再从每个模态中提取理想特性，从而改进多模态融合。这些方法大致可分为两类：(1) 一致性表征学习 [11–13]，主要关注模态间的一致信息。它将来自不同模态的特征视为一个统一的整体进行学习和评估，并利用相关性 [13]、互信息 [11] 和相似性 [12,14] 等约束条件，引导模型主要从包含一致信息的模态中学习。然而，这类方法无意中忽略了每个模态所特有的互补信息。(2) 解耦表征学习，不仅学习一致表征，还学习每个模态的特异性表征 [9,15,16]。与第一类方法相比，这是一种更细粒度的多模态表征学习。如图1(b)所示，所有这些方法都采用二元解耦策略，将每个模态的表征分解为模态不变表征和模态特异性表征 u 。它们认为这两部分都与标签相关，并将它们

融合用于预测。然而，我们的研究发现了一个有趣的现象：模态不变表征通常与给定标签一致，但在模态特异性表征中，只有部分信息与标签语义一致且具有实际意义。例如，如图1(a)所示，一个人正在推荐一部有趣的电影。她的面部表情和语调表明她觉得这部电影“有趣”。但某些文本信息，例如“messed up”（一团糟）这样的词语，却反映出负面情感。由于前述方法忽视了这一问题，此类无关甚至冲突的信息实际上会损害模型的训练和预测效果。

本文的贡献如下：

(1) 我们重新审视了MAA问题，并提出了一种新颖的三重解耦模型TriDiRA，该模型从每个模态中解耦出模态不变表征和有效的模态特异性表征用于预测，同时排除无效的模态特异性表征。据我们所知，TriDiRA是文献中首个用于情感分析任务的三重解耦模型。

(2) 我们引入了一个双输出注意力模块。它可以通过高度动态的交互，实现模态特异性子空间与标签相关子空间之间更好的交集，从而有助于提升三重解耦的有效性。

(3) 在情感回归和多情绪分类数据集上的实验验证了我们所提方法的有效性。

相关工作2.1 多模态表征学习

多模态表征学习旨在从每个模态中提取有效的语义信息并将其融合。大多数先前的工作聚焦于学习不同模态之间的一致性信息。例如，Mittal 等人 [17] 提出了 M3ER 方法，该方法引入了一个检查步骤，利用典型相关分析（Canonical Correlational Analysis, CCA）[18] 有效区分无效模态与有效模态。类似地，Sun 等人 [19] 提出了 ICCN 模型，通过结合特征对的外积与深度典型相关分析（Deep Canonical Correlation Analysis, DCCA）[13] 来探索有用的多模态嵌入特征。与此不同的是，Han 等人 [11] 设计了 MMIM，旨在在输入层和融合层同时最大化互信息（Mutual Information, MI）[20]，以在多模态融合过程中保留与标签相关的信息。Yu 等人 [21] 提出了 Self-MM，这是一种多模态与单模态任务联合训练策略，分别促进模态间一致性的学习。Mai 等人 [12] 应用了模态内/模态间对比学习以及半对比学习，以处理样本间和类别间的关系，同时缩小模态差距。Lin 等人 [22] 引入了一种新颖的极向量与强度向量混合模型（Polar-Vector and Strength-Vector mixer model），称为 PSMixer，其设计目的是减轻多模态数据集中固有噪声的影响。

若干研究聚焦于文本模态。例如，Zhang 等人 [23] 提出了 ALMT 框架，旨在在多尺度文本特征的指导下学习能够抑制无关和冲突信息的表征。在另一项研究中，Wang 等人 [24] 提出了 CENet 模型，通过将视觉和声学数据整合到单一语言模型框架中，以增强文本表征。此外，Wang 等人 [25] 引入了 TETFN，这是一个创新框架，通过学习以文本为导向的成对跨模态映射，以获得有效的统一多模态表征。最近的一项工作 UniMSE [26] 将情感分析与情绪识别任务统一起来，并同时利用模态间对比学习来获取具有判别性的多模态表征。

尽管如此，这些方法中的大多数可能会忽略各模态所独有的互补特征。

2.2 二元解耦表征学习

近期的研究采用动态分析并学习每个模态内针对单个样本的特征，从而形成一种细粒度的多模态表征学习方法。这些方法将特征分解为两部分：在模态间共享的模态不变表征，以及每个模态私有的模态特异性表征。受域分离网络（Domain Separation Network, DSN）[27] 的启发，Hazarika 等人 [15] 提出了开创性工作 MISA，将每个模态的特征投影到一个模态不变子空间和一个模态特异性子空间中，随后使用 Transformer [28] 对这两个子空间的表征进行融合。Yang 等人 [9] 提出了 FDMER，通过改进解耦约束，并以对抗方式引导特征解耦，确保不同的表征被准确地映射到各自对应的子空间中。另一种方法 TAILOR [29] 同样将模态特征解耦为两组，并引入了一个类似 BERT 的 Transformer [30] 编码器，以粒度递减的方式逐步融合这些特征。此外，Yang 等人 [31] 提出使用自注意力模块来增强模态特异性特征，并采用分层跨模态注意力模块来探索模态不变特征之间的相关性。Li 等人 [16] 提出了一种解耦的多模态蒸馏方法，用于解耦模态特异性和模态不变信息。Yin 等人 [32] 设计了一个 Token 解耦模块和一个 Token 互注意力 Transformer，以有效挖掘并整合情感信息。Liu 等人 [33] 引入了一种脑机耦合学习方法，利用脑电图（EEG）信号与视觉图像及其共享与私有表征进行联合建模。

然而，值得注意的是，上述方法中极少有考虑到模态特异性表征中可能存在的无关或冲突表征。

我们提出的三重解耦策略 TriDiRA 重新审视了这一问题，聚焦于标签相关子空间与模态相关子空间。由于这两个子空间存在交集，TriDiRA 通过仅利用模态不变表征和有效的模态特异性表征，既能从模态特异性表征中学习互补信息，又能同时排除无关和冲突的信息。

方法

3.1 任务定义

我们提出的 TriDiRA 模型由三个模块组成：特征提取、特征解耦和特征融合，如图2所示。具体细节如下所述。

3.2 特征提取

近期，基于 Transformer 的多模态学习在特征提取和融合方面展现了显著的有效性。然而，随着模态数量的增加，模型结构变得日益复杂，导致参数数量激增。一项新兴研究 [34] 表明，模型中的统一架构可以处理不同模态的任意配置，并通过在不同模态间共享部分参数实现更高的参数效率 [35]。受此启发，我们采用了一个统一的特征提取模块，如图2所示。该模块包含三个模态特异性的 Transformer 编码器和一个共享的 Transformer 编码器。

3.3 解耦模块

3.4 损失函数

每个解耦后的表征都具有自身的特性。为了获得它们，我们精心设计了以下用于联合优化的损失函数，包括任务损失、相似性损失、独立性损失和重构损失。

3.4.1 任务损失

3.4.2 相似性损失

3.4.3 独立性损失

实验4.1 数据集

为了与现有的解耦方法 [9,15,16,31] 进行比较，我们遵循它们的实验协议，并在三个基准数据集 CMU-MOSI [39]、CMU-MOSEI [40] 和 UR-FUNNY [41] 上测试所有方法。这些数据集为每个话语（utterance）提供了多模态信号（文本、视觉和音频）。由于这些数据集在回归/分类任务中使用情感极性或强度作为标签，我们额外引入了一个包含六类情绪的 MELD [42] 数据集，以评估所有方法的泛化能力。此外，与在实验室环境中采集的数据（例如 IEMOCAP）不同，上述所有数据集中的语句均来自真实场景（in the wild），这正是我们测试的主要目标。四个数据集的详细统计信息列于表1。

CMU-MOSI 包含从93个视频中切分出的2199个话语视频片段，其中89名个体就有趣话题表达自己的观点。每个片段都经过人工标注，情感值范围为 −3 到 +3，表示所表达情感的极性（正/负）及其相对强度（由绝对值体现）。

CMU-MOSEI 在 CMU-MOSI 的基础上进行了扩展，增大了数据规模。它包含22856个已标注的视频片段（话语），来自5000个视频、1000名个体和250个不同话题。

UR-FUNNY 提供了来自 TED 演讲的16514个多模态话语样本，涵盖多样化的主题和演讲者。每个话语被标注为二元标签：幽默（humor）或非幽默（non-humor）。

MELD 包含7274个多方对话的视频片段，其标签遵循 Ekman 提出的六种基本情绪类别，包括：喜悦（joy）、悲伤（sadness）、恐惧（fear）、愤怒（anger）、惊讶（surprise）和厌恶（disgust）。

4.2 评估指标

遵循先前工作 [9,11,15]，评估在两个任务上进行：分类与回归。对于 CMU-MOSI 和 CMU-MOSEI 数据集，报告分类任务中的二分类准确率（Acc-2）、F1分数和七分类准确率（Acc-7）。请注意，Acc-2 和 F1-Score 有两种计算方式：负/非负（包含零）和负/正（排除零）。我们还报告了回归任务中的平均绝对误差（MAE）和皮尔逊相关系数（Corr）。对于 UR-FUNNY 数据集，报告二分类准确率（Acc-2）和 F1-Score。对于 MELD 数据集，报告六分类准确率（Acc-6）。除 MAE 外，所有指标的数值越高代表性能越好。

4.3 实验设置

对于文本特征，所有数据集均采用基于 BERT 的未区分大小写预训练模型 [30]。在 CMU-MOSI、CMU-MOSEI 和 MELD 数据集上，使用 librosa [43] 提取梅尔频谱图以获得声学特征，并使用预训练的 EffecientNet [44] 获取视觉特征。UR-FUNNY 使用 COVAREP [45] 提取声学特征，使用 OpenFace [46] 提取面部表情特征。UR-FUNNY 的多模态特征是词对齐的，而其他三个数据集使用词不对齐的特征。所有方法均在一块 RTX 3090 GPU 上进行训练和测试。每次实验重复五次，报告平均结果。

为解决在四个数据集上训练时的收敛问题，采用了两阶段训练策略。在第一阶段，训练不含 DS 模块（解耦模块）的模型。在第二阶段，将 DS 模块和多头注意力模块插入后继续训练。此外，关于随机种子，第一阶段应用其最优权重，第二阶段则采用五个随机种子的平均值。

4.4 与 SOTA 方法的比较

4.4.1 对比方法

由于 TriDiRA 是首个三重解耦方法，性能对比主要与二元解耦方法 [9,15,16,29,31,32] 进行。我们首先核查了它们在文献中报告的性能，然后选出了前四名（FDMER [9]、DMD [16]、MFSA [31] 和 TMT [32]）以及代表性方法（MISA [15]）作为对比对象。我们还考察了多模态表征学习方法 [11,12,17,19,21–24,26]。前六名方法（MMIM [11]、UniMSE [26]、HyCon [12]、PS-Mixer [22]、CENet (B)¹ [24] 和 ALMT [23]）也被纳入对比范围。

4.4.2 结果与分析

4.4.2.1 情感分析。

在 MOSI 和 MOSEI 上的评估结果列于表3。可以观察到，TriDiRA 在大多数指标上（包括回归和分类）均优于所有重新实现的对比方法。

至于一致性表征学习方法，MMIM [11]、HyCon [12]、CENet [24] 和 ALMT [23] 均聚焦于缩小模态差距；PS-Mixer [22] 则旨在减少噪声并促进多模态融合。这些方法都能有效改进多模态融合与预测，但可能会忽略某些模态特异性表征。而 TriDiRA 能进一步利用这些表征以获取互补信息，从而实现更优的性能。

一项新兴工作 UniMSE [26] 通过生成通用标签，将四个异构数据集统一起来。它通过大幅扩展训练数据显著提升了表征学习效果，并取得了当前最优（SOTA）成绩。相比之下，TriDiRA 仅依赖给定的数据集，却凭借在学习过程中剔除无效表征，达到了可比的结果。

4.4.2.2 幽默检测
由于幽默数据通常在不同模态间包含不一致的信息，我们专门在 UR-FUNNY（一个二分类数据集）上验证了 TriDiRA 的有效性。表4中的结果显示出与表3中 ACC-2 结果相似的趋势，TriDiRA 同样取得了最佳性能。

4.4.2.3 情绪分类
为测试 TriDiRA 与其他方法的鲁棒性，还在更具挑战性的情绪分类数据集 MELD 上进行了比较。表4中的结果表明，TriDiRA 通过捕捉有效的情绪信息，优于其他方法。

简言之，TriDiRA 在情感回归和多情绪分类任务上的优越性表明其具有显著的泛化能力。

二元解耦方法将模态特异性表征视为与标签相关，如同模态不变表征一样。

然而，我们发现并非所有样本在各模态中都包含与标签一致的信息，也就是说，模态特异性表征可能包含与标签冲突的信息。因此，仅在包含冲突信息的样本上评估模型是很有意义的。然而，很少有数据集提供单模态的标注。为了识别包含冲突信息的样本，我们在广泛使用的 MOSI 数据集上应用了 Self-MM 模型 [21]——该模型旨在为每个模态生成伪标签——以筛选样本，并构建一个新的子集用于进一步评估。筛选标准是：如果 Self-MM 输出的任意一个单模态标签与给定标签在回归任务上的差异较大（≥2.5），则该样本被选中。最终，从原始测试集中选出了 103 个样本。我们认为这些样本的一个或多个模态可能包含与标签冲突的信息。该子集可通过 https://anonymous.4open.science/r/TriDiRA 获取。

所有对比方法均在此子集上进行了评估。表5所示的结果表明，TriDiRA 在 MAE 指标上相比其他方法提升了 9.5% 至 46.7%，在相关系数（correlation）指标上提升了 3.9% 至 23.1%。如此显著的性能提升部分解释了为何 TriDiRA 在第 4.4 节中优于所有对比方法。然而，人们仍可看出 TriDiRA 在该子集上尚有进一步改进的空间。CENet (B) [24] 在 ACC-7 指标上取得了最佳性能，而 TriDiRA 获得了次优结果。这可能归因于 CENet 更侧重于文本模态，而在 CMU-MOSI 数据集中，相当一部分冲突样本主要依赖文本信息。此外，我们发现一小部分样本的三个模态均与给定标签相冲突。表5中列出的所有方法均无法正确处理这类样本。这一问题将在第5节“讨论与结论”中进一步探讨。

4.6 解耦表征的披露

4.7 消融研究

如图2所示，TriDiRA 由三个模块组成：特征提取、特征解耦和特征融合。模型优化中使用了五个损失函数。我们在 MOSI 数据集上对每个模块和损失函数进行评估，并在表8中报告其有效性。

模块的重要性：我们设置了一个基线模型，用于测试每个关键模块的影响。该基线由三个模态特异性 Transformer 编码器和多头自注意力 Transformer 组成（如图2所示），因为这两者均为广泛采用的特征提取与特征融合方法。随后，分别将解耦模块（DS）和共享 Transformer（ST）模块插入基线模型中进行评估。我们可以观察到，DS 模块在提升模型性能方面发挥了重要作用。ST 模块能够对齐异构的多模态特征，从而提升模型性能，尤其在回归任务上表现更为明显。DS 模块不仅能在不同模态间对齐有效表征，还能捕捉互补信息。将这两个模块结合，将进一步增强 DS 模块提取有效表征的能力。

模态的重要性：我们系统地进行了实验，通过依次排除单个模态来评估各模态对性能的影响。如表8所示，文本模态在多模态情感分析任务中起着最关键的作用。而使用多模态数据可以获得最优性能，表明模型能够捕捉互补特性，从而学习到更全面的信息。

损失权重设置：为展示模型在不同损失权重组合下的性能变化，我们在 MOSI 数据集上报告了详细结果（见表9）。可以看出，权重组合 (a) 能带来 TriDiRA 更优的性能，因此后续实验均采用该组合 (a)。

4.8 正则项的变化趋势

这些损失函数作为衡量模型对三种表征解耦效果的指标。因此，我们在 CMU-MOSI 数据集的训练集上追踪了训练过程中各损失的变化。图6展示了六种不同损失函数及整体模型损失的收敛曲线。可以看出，所有损失均随着训练轮数（epochs）的增加而呈下降趋势，并且在40个epoch内即可收敛。这表明模型确实在按照设计学习所需的表征。

讨论与结论

我们提出了 TriDiRA——一种新颖的三重解耦表征学习方法，旨在防止模型受到模态特异性表征中无关或冲突信息的干扰。尽管 TriDiRA 表面上看似是对二元解耦学习的升级，但它通过深入考察多模态情感分析（MAA）任务的本质，解决了一个被二元方法所忽视的核心问题。因此，TriDiRA 在情感回归和情绪分类任务上均显著优于当前最先进的（SOTA）方法，并展现出更强的泛化能力。通过两个第三方评估器进行的探索性分析揭示了其理想特性：通过剔除与标签无关的表征，有效表征的质量得到了提升。

在未来的工作中，相似性损失与独立性损失的建模方式为引入多样化的正则化替代方案提供了可能。因此，我们计划探索其他选项，以进一步增强三重解耦的效果，特别是提升模态不变表征的质量。此外，我们识别出一些样本，其全部三个模态所包含的语义均与给定标签相冲突。这引出了一个开放性问题：这类样本中是否仍存在模态不变表征？以及如何从中解耦出可用于预测的表征？这一问题同样适用于一致性表征学习方法，也是未来需要解决的重要挑战。

原文链接：https://www.sciencedirect.com/science/article/pii/S156625352400441X