不平衡数据下对比学习的理论分析：从训练动态到剪枝解决方案|不平衡|实验|样本|理论分析|神经元

本文第一作者廖海旭为新泽西理工学院数据科学系在读博士生，师从Prof. Shuai Zhang。

论文标题：Theoretical Analysis of Contrastive Learning under Imbalanced Data: From Training Dynamics to a Pruning Solution
论文链接：https://openreview.net/forum?id=DUXG9E8dEO

一、研究背景

对比学习已成为表征学习中的一种强大范式，能够在不依赖标签的情况下有效利用无标注数据。

在这一框架下，语义相似的样本被视为正样本对，而语义不同的样本被视为负样本对。通过在表征空间中拉近正样本对、拉远负样本对之间的距离，对比学习使得模型能够捕捉到丰富且具有判别性的特征。

该方法在广泛的应用领域中取得了显著成功，尤其在多模态学习中影响深远，推动了早期视觉语言模型发展的重大进展。

尽管对比学习具有诸多优势，但它在现实数据集中常见的类别不平衡的问题下，仍然面临挑战。在这类数据中，多数类主导了样本对的构造，而少数类则代表性不足。这种不平衡会阻碍模型对少数类判别性特征的捕捉，降低表征质量，并导致模型产生偏差行为。

近期的研究开始逐步从理论角度理解对比学习，主要关注其相较于传统生成式方法的优势、数据增强在有效表征学习中的必要性，以及其在降低下游任务样本复杂度方面的能力。然而，这些研究尚未考虑数据分布不平衡所带来的影响，缺乏对这些影响的理论刻画。

总体而言，本文在理论和实践层面都提供了新的洞见，主要理论结论也通过数值实验得到了验证。主要贡献如下：

第一，我们构建了一个理论框架，用以刻画在数据分布不平衡条件下、基于 Transformer 编码器的对比学习训练动态。我们表明学习过程可以分为三个阶段。

图 1：神经元在训练过程中投影的动态变化。蓝色曲线表示神经元在其主导特征方向上的投影增长情况，橙色曲线表示其在非主导特征方向上的投影，绿色曲线表示其在噪声空间方向上的投影。在第一阶段，神经元主要沿特征方向增长，同时抑制噪声分量。在第二阶段，其在主导特征方向上的投影增长速度快于所有其他特征方向，从而形成明显的分离。在第三阶段，神经元逐渐收敛，其最终表示由所学习的主导特征所主导

第二，我们定量刻画了少数特征的存在如何影响神经元的学习能力，进而影响整体表征学习。我们的分析表明不平衡会从多个方面削弱表征性能。

第三，基于幅值的剪枝能够增强对少数特征的学习，恢复因数据不平衡而退化的性能。我们的结果显示，剪枝可以加强沿少数特征方向的梯度更新，鼓励更多神经元专门学习少数特征，从而获得更加稳健且更均衡的表示。

二、剪枝算法

为了解决数据不平衡问题，我们在前向传播过程中动态移除幅值较小的神经元权重，而在反向传播过程中仍保留所有参数为可训练状态。

具体而言，二值掩码初始设为全 1，表示训练开始时不进行任何剪枝。在每一个训练周期中，我们剪除幅值最小的一部分神经元，并相应更新二值掩码。在前向传播阶段，使用掩码后的参数对输入进行编码。在反向传播阶段，梯度是基于剪枝后的模型计算，但更新作用于完整的参数集合。

需要注意的是，该过程并不会为了提高效率而永久性地删除任何神经元，尽管可以观察到一定程度的计算成本下降。

三、关键发现的核心洞见

在介绍正式理论结果之前，我们首先总结分析所得的关键洞见。我们的研究表明，神经元在训练过程中会分阶段逐步学习特征表示。具体而言，我们得到以下结论：

(K1) 基于 Transformer-MLP 框架的对比学习训练动态。我们的理论将学习过程划分为三个阶段。

在第一阶段中，神经元权重沿特征方向增长，增长速率由特征频率决定，神经元在非特征方向上的分量则被抑制。
在第二阶段中，幸运神经元进一步和它学习的主导特征方向对齐；而普通神经元则被这些幸运神经元所界定并保持受控，从而使所学习的特征更加纯净，同时非特征分量继续受到抑制。
在最终阶段，训练收敛，每个神经元都会与某一特定特征集合对齐，每个神经元在一个或多个特征方向上强对齐，在其他特征方向上弱对齐，并在非特征方向上保持较小幅度。

(K2) 特征频率比率决定神经元专门化程度。在收敛时，每个神经元主要由某一特定特征集合中的特征主导，而来自其他方向的贡献可以忽略。