西安理工大学罗靖：基于镜像中心损失的双尺度双Softmax Transformer用于运动想象识别中的多源主体迁移学习|信号|多源|尺度|深度思考模型|算法|罗靖|西安理工大学

近期，西安理工大学罗靖副教授团队提出了一种基于镜像中心损失的双尺度双 Softmax Transformer（MCDDT），用于跨多源被试的运动想象识别迁移学习。该项研究以《MCDDT: Mirror Center Loss-Based Dual-Scale Dual-Softmax Transformer for Multisource Subjects Transfer Learning in Motor Imagery Recognition》为题发表在了国际期刊《IEEE Transactions on Instrumentation and Measurement》上。

J. Luo et al., "MCDDT: Mirror Center Loss-Based Dual-Scale Dual-Softmax Transformer for Multisource Subjects Transfer Learning in Motor Imagery Recognition," in IEEE Transactions on Instrumentation and Measurement, vol. 74, pp. 1-14, 2025, Art no. 2543314, doi: 10.1109/TIM.2025.3598395.

引言

运动想象（Motor Imagery, MI）是脑–机接口（BCI）中的经典范式。EEG 信号识别的准确性直接决定了基于 BCI 的康复系统的性能。然而，目标被试的可用样本量通常有限，这显著制约了模型的表现。因此，从源被试数据中迁移知识，成为提升识别模型精度的重要策略。但在 MI-EEG 识别中的迁移学习仍面临两个核心挑战：

（1）如何提升模型在感觉运动皮层中对神经活动的空间定位能力。

（2）如何在源被试分布差异较大的情况下实现知识迁移。

为应对上述问题，本文提出了一种基于镜像中心损失的双尺度双 Softmax Transformer（MCDDT），用于跨多源被试的 MI 识别迁移学习。本文的主要贡献如下：

（1）镜像中心损失（Mirror Center Loss）：通过最小化同侧神经活动特征间的距离并最大化对侧神经活动特征的距离，引导模型学习更精准的神经活动定位能力。该损失函数能够提升特征的判别性，从而增强 MI 识别性能。

（2）双尺度 Transformer 模型：利用双尺度 Transformer 融合多时间分辨率下的特征，从而有效应对 MI-EEG 信号中存在的个体化时间差异，提升模型对被试特定时序特征的建模能力。

（3）双 Softmax 结构：在预训练阶段同时预测被试标签与 MI 标签，使模型能够学习多个被试特定的判别性特征子域，从而在后续的微调阶段具备更强的适应性。

方法

2.1 总体概述

本文的目标是基于多源被试的 MI-EEG 信号，通过迁移学习实现高精度识别。具体而言，所提出的 MCDDT 模型首先利用来自多个源被试的 MI-EEG 信号进行预训练，再使用目标被试的信号进行微调。MCDDT 的整体架构如图 1 所示，主要由三个部分组成：特征提取模块、双尺度自注意力模块以及分类模块。在分类模块中引入了镜像中心损失，以提升模型对神经活动定位的能力。

图1 MCDDT 整体架构图

2.2 镜像中心损失

ERD的出现代表大脑皮层的活动，其空间位置对于 MI 识别至关重要。例如，若 ERD 出现在大脑左侧初级运动皮层，往往意味着右手运动想象的发生，反之亦然。然而，由于 EEG 信号中并不存在 ERD 空间位置的真实标注，无法通过监督学习直接训练 ERD 定位模型。为此，本文提出了镜像中心损失，以半监督的方式增强模型对 ERD 的空间定位能力。在缺乏 ERD 位置标签的情况下，仅依赖 MI 标签来提升 ERD 定位性能，因此这一方法可视为半监督学习。镜像中心损失通过比较镜像 EEG 与原始 EEG 信号，使模型能够学习对 ERD 空间位置敏感的特征。具体而言，该损失函数在特征空间内拉近相同侧 ERD 的 EEG 特征，同时推远对侧ERD 的 EEG 特征，如图 1 所示。

2.2.1 镜像EEG信号

镜像 EEG 信号通过交换 EEG 数据中左右半球的通道生成，如图 2 所示。鉴于 ERD/ERS 的侧化特性是区分左右手 MI 的关键指标，当交换 EEG 左右半球的通道时，ERD/ERS 模式会在与原始 EEG 信号相对的半球上出现。因此，与左/右手想象相关的类别标签也必须随之互换。

2.2.2 镜像中心损失

图2 镜像 EEG 信号的生成

图3 基于数据集2a构建的用于生成镜像EEG信号的置换矩阵

传统的中心损失（Center Loss）的目标是增强深度学习模型的判别能力，常用于人脸识别等任务。其基本思想是在特征空间内最小化样本特征与其类别中心的距离。镜像中心损失是在中心损失的基础上进行改进，专为 MI 识别而设计。该方法通过最小化同侧神经活动特征与类别中心的距离，并最大化对侧神经活动特征与类别中心的距离，来提升 MI 模型的判别能力。镜像中心损失定义如下：

其中，与分别表示第个 EEG 及其镜像 EEG 的特征向量，表示其类别中心，为当前批次样本数，为调节不同类别间特征距离的超参数。式中的表示原始 EEG 特征与类别中心的距离，目标是最小化这一距离以促进类内紧凑性；表示镜像 EEG 特征与类别中心的距离，由于镜像样本类别与相反，因此该距离应被最大化，以增强类间分离度。

这一双目标优化有效地引导模型提取更加判别性的特征，使其能够进行更为准确的分类。同时，超参数提供了灵活性，用于在两类距离项之间进行权衡。公式中的函数保证了损失值非负，并仅在类间分离不足时累积损失，避免当类间距离过大时镜像中心损失对总损失函数造成过度影响。

在理想情况下，类别中心应随着深度特征的变化而更新，即每一轮迭代都需考虑整个训练集中各类别的平均特征，但这在实际中效率极低。为此，本文将类别中心作为可训练参数，并在反向传播过程中进行更新。值得注意的是，仅类内距离项参与类别中心的更新。其梯度计算公式如下：

通过同时利用原始 EEG 与镜像 EEG 对模型进行微调，引入镜像中心损失能够在无需依赖 ERD 空间位置标注的情况下，以半监督的方式增强模型对 ERD 的空间定位能力。

2.3 双尺度双 Softmax Transformer

本节提出的双尺度双 Softmax Transformer旨在应对跨被试 MI-EEG 迁移学习中的个体差异问题。

2.3.1 基于 CNN 的特征提取模块

预处理后的 EEG 信号首先输入至基于 CNN 的特征提取模块。该模块的第一步是进行时域卷积（），卷积核大小为 10×1。随后，为了模拟CSP 空间滤波器，使用空间卷积（），卷积核大小为 1×E，用于整合所有通道的信息。最后，通过批归一化（）与最大池化（）层进一步降低特征维度。

2.3.2 双尺度自注意力模块

现有的基于 Transformer 的 EEG 解码方法通常在固定尺度下处理特征。然而，由于不同被试在判别性特征的时间尺度上存在显著差异，如果直接将统一时间分辨率的特征输入至自注意力层，往往难以捕捉多尺度的任务相关信息，从而限制模型性能。为此，本文提出双尺度自注意力模块，以更有效地利用不同时间分辨率下的特征。该模块在短时间窗口中捕捉快速变化的瞬时神经动态，同时利用长时间窗口建模更稳定的模式及全局时间依赖关系。整体结构如图 1 所示。

分支 I：聚焦于捕捉高时间分辨率特征 token 的依赖关系。

分支 II:旨在捕捉低时间分辨率下各个 token 之间的依赖关系。

这种设计有助于两个分支提取具有不同时间分辨率的特征，从而提供一种高度适应性的特征表示。最终，这两个分支的输出特征将进行求和，形成双尺度自注意力模块的最终输出。

2.3.3 双 Softmax 分类模块

提取到的特征将被直接输入到两个并行的 Softmax（SM）层中，如图1所示。双 Softmax 层的输出分别对应于运动想象（MI）类别与被试来源的预测概率。

其中，SM 表示 Softmax 层，和分别表示对不同运动想象（MI）类别和被试的预测概率。当输入一个包含 62 个通道、1000 个采样点的脑电信号（如 OpenBMI 数据集中的数据）时。

2.4 模型训练

所提出的 MCDDT 模型通过来自多个源被试的 MI-EEG 信号进行预训练，并通过目标被试的信号进行微调。

2.4.1 预训练阶段

在预训练阶段，大多数现有的 MI-EEG 分类迁移学习方法将来自不同被试的 EEG 数据视为单一来源，尽管这些数据之间存在显著的分布差异，从而生成统一的特征表示。这些基于单一源的数据方法，在微调过程中无法通过选择相似的子域并舍弃不同的子域来高效地迁移知识。为了解决这一问题，本文将每个被试的 EEG 信号视为一个单独的子域，并且并行双 Softmax 分类模块同时实现 MI 和被试（子域标签）的分离。

在预训练阶段，利用来自多个源被试的 EEG 数据。为了实现被试特定的表示学习，每个被试被分配一个独特的被试身份标签。因此，损失函数被定义为两个交叉熵损失的和：一个用于 MI 分类，另一个用于被试分类。选取在验证集上同时在两个任务（MI 和被试标签）中获得最高预测准确率的预训练模型，用于后续的微调。整体损失函数定义如下：

其中，和分别表示 MI 和被试的预测概率，和为 MI 和被试的标签。

2.4.2 微调阶段

目标被试的原始 EEG 信号与镜像 EEG 信号用于微调预训练模型。除了镜像中心损失外，还应用了对 MI 的 Softmax 交叉熵损失，以实现监督的 MI 识别训练：

在微调阶段，舍弃了被试分类的 Softmax。最终的微调损失是镜像中心损失与分类损失的和：

其中，是权重系数。

实验

我们在两个公开的 MI 识别数据集上评估了所提出的 MCDDT 模型：BCI 竞赛 IV 数据集 2a（2a）和 OpenBMI 数据集（BMI）。详细实验设置见论文。

3.1 平均分类准确率

首先将MCDDT与SOTA算法的实验结果进行比较，在预训练数据不含目标被试的设置下，MCDDT 平均准确率达到 89.52%（2a）、91.05%（BMI-21）、81.25%（BMI-54），显著优于ShallowConvNet、EEGNet、ATCNet、ADFCNN 等主流方法，证明了模型的良好泛化能力。如表1所示。

表1 MCDDT与SOTA算法的实验结果比较

3.2 消融实验

我们进行了全面的消融实验，以验证所提出的双尺度 Transformer、双 Softmax 结构和镜像中心损失的有效性。这些实验评估了不同网络配置的性能。具体而言，我们测试了单分支网络，即“分支 I”和“分支 II”；双分支Transformer 网络“Dual-Branch”；双尺度双 Softmax Transformer 网络“DDT”；以及我们提出的“MCDDT”。

现有被试和未见过被试两种设置下的消融实验结果见表 2。根据这些表中的数据，我们可以得出以下结论：

1）双分支模型优于单分支结构模型。这表明，双尺度 Transformer 模型能够有效地整合具有多时间分辨率的特征。

2）DDT 模型表现优于双分支模型，这证明了双 Softmax 结构能够在迁移学习过程中增强模型的适应性。

3）MCDDT（结合镜像中心损失）表现最佳。这归因于其增强 ERD 空间定位的能力。

表2 消融实验结果

其中，Dscale 表示双尺度结构，Dsoftmax表示双Softmax结构，MCL 表示镜像中心损失；✓表示启用该模块，×表示未启用。

3.3 特征可视化

为了验证镜像中心损失的作用，我们使用 t-SNE 可视化对比了微调 DDT 模型时是否引入该损失的特征分布。如图 3 所示，不使用镜像中心损失时，左右手类别特征相互接近；引入后，特征分离更明显，类间边界更清晰，证明该方法提升了 ERD 空间定位能力。

此外，我们还对比了预训练阶段有无双 Softmax 结构的特征分布（图 4）。结果表明，未使用时不同被试的特征严重重叠，任务类别混合；引入双 Softmax 后，被试特征聚类明显，任务类别可分性增强，验证了“任务-被试双重监督”策略的有效性。

图3 对比微调 DDT 模型时是否引入镜像对比损失的特征分布

图4 对比预训练阶段有无双 Softmax 结构的特征分布

总结

在本文中，我们提出了一种MCDDT模型，以应对从多个源受试者的不同EEG分布中进行迁移学习所面临的挑战。具体而言，研究工作包含以下三方面：首先，双尺度Transformer模型融合了多时间分辨率的特征，通过增强模型捕捉受试者特异性时间特征的能力，解决了MI-EEG信号在时间维度上的个体差异问题。其次，双Softmax结构使模型能够获取运动想象任务专属的受试者特异性鉴别特征，从而提升了迁移学习过程中的适应性。第三，镜像中心损失通过最小化同类原始脑电图信号与镜像脑电图信号的特征距离，以半监督方式增强了模型对事件相关去同步的空间定位能力。在两个公开数据集上的实验结果表明，与SOTA模型相比，MCDDT模型实现了更优的准确率，这验证了其创新组件（包括双尺度结构、双Softmax机制和镜像中心损失）的有效性。

仅用于学术分享，若侵权请留言，即时删侵！

欢迎加入脑机接口AI星球

获取更多脑机接口+AI等领域的知识和资源。

欢迎来稿

1.欢迎来稿。投稿咨询，请联系微信：RoseBCI

点击投稿：

2.加入社区成为兼职创作者，请联系微信：RoseBCI

一键三连「分享」、「点赞」和「在看」

不错过每一条脑机前沿进展