基于视频的多模态情感识别的特征和融合概述|情感状态|模态|神经网络|维度

情感是人与人之间相互交流的重要信息之一。人类的认知、行为等几乎都要受到情感的驱动，并且情感影响着人际互动以及群体活动。在人与人的交往中，情感的交流还常被用来辅助意图的传递。人工智能之父马文·明斯基(Marvin Minsky）首次提出让计算机拥有类似人类情感的能力，他在专著《心智社会》中强调，情感是机器实现智能不可或缺的重要能力。
随着互联网和通信技术的发展，越来越多的人选择用视频作为交流和记录生活的媒介，而对于视频中用户情感状态的分析也将更好地服务于用户。抖音、快手、淘宝直播等视频分享和直播平台已经成为人们日常生活的一部分。分析平台用户的情感状态及其变化（如用户的情感监测、舆论分析等）对于平台的健康发展非常有必要。另外，基于多模态情感识别的智能机器设备越来越多地出现在人们的日常生活中，比如银行、医院、政务服务行业、餐饮行业的服务机器人，远程教育、远程医疗等领域的机器人等。在多模态的智能人机交互的研究中，智能机器人可以具备更精准的情感识别、理解、表达能力，以便更好地在各个领域服务人类。因此，多模态情感识别具有广泛的应用前景。
情感识别的研究常用离散情感类别和连续情感识别两种方法来标定情感的状态。离散情感识别是指通过模型将人类的情感状态划分为几类基本的情感。20世纪70年代，心理学家艾克曼、弗里森等人通过研究在不同的文化差异背景下人类通过面部进行的情感表达，提出了六类基本情感的模型：愤怒、厌恶、恐惧、高兴、伤心和惊讶。从此，这六类基本情感的模型被人们广泛采纳，并作为离散情感识别任务的基础。连续情感识别则是通过模型将人类的情感状态对应到多维空间上的一个点，多维空间的各个维度代表着情感的相应心理学属性。梅拉宾和拉塞尔提出了情绪状态的“愉悦度–唤醒度–优势度”（Pleasure-Arousal-Dominance，PAD）三维度模型。其中愉悦度表示个体情感状态的正负特性，唤醒度表示个体的神经生理激活水平，优势度表示个体对情景和他人的控制状态。PAD三维空间情感模型是目前情感理解中被广泛使用的连续情感表示模型。
人类情感的表达体现在声音、表情、肢体动作等多种模态中，而且是一个发展变化的过程。多模态情感识别涉及对多个模态信号进行处理、各个模态情感特征的学习、多模态特征之间的融合、多模态之间的交互建模等，是情感计算中的热点研究问题之一。

多模态特征
（1）视觉特征
在多模态情感分析中，面部表情是最直观、最重要的视觉特征。常用的面部表情特征主要分为两类：一类是传统面部表情特征，比如FAU（Face Action Unit）、Landmark、LBPTOP（Local Binary Patterns on Three Orthogonal Planes）等；另一类是基于深度神经网络的深度人脸表情特征。深度人脸表情特征避免了繁琐的图片预处理和特征提取，比传统方法在情感识别相关任务上的表现更好，对光照、姿态、遮挡物等表情识别的鲁棒性更高。深度人脸表情特征主要从人脸表情识别数据集上训练的模型中进行抽取，比如目前应用广泛的从FER+数据集上训练的VGGNet、DenseNet等神经网络模型中抽取，并在主流的多模态情感竞赛中取得了不错的结果。
（2）音频特征
语音信号是一种直观的情感表达方式，与语音情感特征相关的工作引发了很多研究者的关注和参与。语音情感特征主要分为传统的语音情感特征和深度语音情感特征两大类。传统语音情感特征是由专家针对情感表达设计的手工特征，分为韵律学特征、频谱特征和音质特征三类，比如音高、基频、能量、共振峰、时长、梅尔倒谱系数(MFCC)等。其中OpenSmile是目前最主流的传统语音情感特征抽取工具，包括IS10、ComparE、GeMAPS等常用的情感特征。深度语音情感特征是基于语音信号或者频谱图，通过语音情感识别相关任务学习到的深度特征。但是由于情感数据集的匮乏，目前应用比较广泛的是通过语音事件检测或者语音情感识别等任务，把从大规模的训练数据中学习到的深度语音特征作为语音情感特征，比如VGGish和 wav2vec。
（3）文本特征
文本信息在多模态情感识别的任务中也扮演着重要的角色，文本情感特征分为传统的文本情感特征和基于深度网络学习到的文本情感特征。其中传统的文本情感特征主要有基于情感词典和基于传统的 Glove、word2vec、Fasttext等模型学习到的词向量。深度文本情感特征是在文本情感分类任务上学习到的深度文本情感特征。由于情感数据集规模较小，目前应用比较广泛的是从其他任务中学习到的深度文本特征，比如GPT、ELMo和Bert等基于超大规模数据预训练的语言模型抽取的文本特征。

多模态融合的三种方法

多模态融合的策略
人类的情感表达具有多模态的特性，每个模态都包含不同的情感信息，并且多个模态之间具有相互补充的作用。因此，越来越多的研究开始关注结合多种模态进行更准确、更鲁棒的情感识别。多模态信息的融合策略主要分为三类：特征层融合、模型层融合和决策层融合。
特征层融合也称为前期融合，将人脸表情、声学信号、文本信息等特征进行拼接作为融合后的特征。特征层融合策略由于其简单高效，成为了应用最广泛的一种融合策略，并且在很多工作中取得不错的效果。但是特征层融合在多模态情感识别中需要在时间维度上进行对齐，而且特征维度比较大，会带来维度爆炸的问题。决策层融合也称后期融合，对各单模态的情感识别结果进行加权融合，决策层融合不存在特征层融合中模态对齐和维度爆炸的问题，但是它忽视了不同模态间特征的相关性。特征层和决策层的融合方法较为简单，但这两种方法都无法充分挖掘模态间的互补性，难以获得更好的多模态融合特征。
模型层融合则是对多个模态进行模态内和模态间关系的建模，更好地挖掘多模态间的互补性，从而得到更好的多模态特征表示。模型层融合方法首先对不同的模态分别进行编码，然后将不同模态的编码器输出的高级别（high-level）特征表示进行融合，最后基于融合后的特征进行情感预测。对于每个模态采用的不同编码器，可以选择最合适的特征和模型的组合进行编码，得到合适的高级别的模态特征表示。对高级别特征进行融合的时候可以采取多种不同的交互融合方式，采用的是简单的拼接融合策略。对不同模态的编码器和融合分类模块进行联合优化，可以更好地挖掘多模态间的互补性，从而得到更好的多模态特征表示。