最小熵和 KL 散度的交叉熵损失正则化方法
Regularizing cross entropy loss via minimum entropy and K-L divergence
https://www.arxiv.org/pdf/2501.13709
摘要
我介绍了两种用于深度学习分类任务的新损失函数。这两种损失函数通过引入最小熵和Kullback-Leibler(K-L)散度项来对标准交叉熵损失进行正则化扩展。这两个新的损失函数分别称为“混合熵损失”(MIX-ENT)和“最小熵正则化交叉熵损失”(MIN-ENT)。MIX-ENT函数引入了一个正则化项,可以证明其等价于一个最小熵项与一个K-L散度项之和。然而需要注意的是,这里的K-L散度项与标准交叉熵损失函数中的不同,因为它交换了目标概率 p(y∣x)和假设概率 的角色。MIN-ENT函数则简单地在标准交叉熵损失函数中加入了一个最小熵正则化项。在EMNIST-Letters数据集上的实验表明,我实现的MIX-ENT和MIN-ENT使VGG模型从paperswithcode排行榜上之前的第3名跃升至第2名,超越了Spinal-VGG模型。具体而言,在使用标准交叉熵时,VGG达到95.86%的分类准确率,而Spinal-VGG达到95.88%;而在使用我们的MIN-ENT和MIX-ENT时,仅使用普通VGG模型,分别达到了95.933%和95.927%的准确率。MIX-ENT和MIN-ENT的预训练模型可在以下地址获取:https://github.com/rahmanoladi/minimum entropy project。
1 引言
熵是衡量概率分布随机性或无序程度的一个广为人知的指标。这意味着尖锐、集中分布的熵值会非常低,而平坦分布的熵值则较高。直观上,这可能对分类问题有重要意义,因为分类任务的目标是根据输入数据的潜在概率分布来进行区分和归类。特别是当每个类别的分布都很尖锐且集中时,分类错误的可能性较低;而当类别分布趋于平坦时,由于尾部较重或存在异常值,模型更容易出错。因此,我们可以合理地假设:如果类别分布的熵更低,分类任务可能会获得更好的性能表现。为此,本文提出了两种新的损失函数——MIX-ENT和MIN-ENT,它们通过对标准交叉熵损失函数添加最小熵和Kullback-Leibler(K-L)散度项来进行扩展。实际上,类似的想法已在文献[1]中被探索并取得了良好效果,他们在文档分类任务中推导出了“最小系统熵”(MSE)准则,该准则将输入文档分配到使整体系统熵增加最少的类别中。然而,他们的工作与本文提出的方法之间存在多个差异。首先,与他们不同的是,本文采用的是深度学习方法,例如我们使用了如VGG-5 [3]这样的先进基准模型。其次,不同于他们的做法,我们的方法建立在经典的交叉熵(CE)损失函数之上,因为我们仅在CE损失函数基础上添加额外的正则化项,从而得到新的损失函数。这种方法的优势在于,CE损失函数可以作为我们新损失函数的一个特例来恢复,因此我们可以预期这些新损失函数至少应具有与CE损失相当的性能。事实上,在EMNIST-Letters数据集[2]上的实验表明,我实现的新损失函数使VGG-5模型从paperswithcode排行榜上的原第3名跃升至第2名,并在此过程中超过了Spinal-VGG模型[4]。具体而言,在使用标准交叉熵时,VGG的分类准确率为95.86%,Spinal-VGG为95.88%;而使用我们提出的MIN-ENT和MIX-ENT时,仅使用普通VGG模型,分别达到了95.933%和95.927%的准确率。MIX-ENT和MIN-ENT的预训练模型可在以下地址获取:https://github.com/rahmanoladi/minimum entropy project。
2 第一个提出的损失函数(MIX-ENT)描述
上述公式中,β₁ 和 β₂ 是可学习的标量,它们与模型参数一同进行学习,但可能会使用不同的学习率。最后,我们定义第二个提出的损失函数 MIN-ENT 如下:
也就是说,MIN-ENT 只是用最小熵项对标准交叉熵进行正则化。最后,在 MIX-ENT 和 MIN-ENT 中,对数的底也是与模型参数一同学习得到的。
3 实验与结果
我在 EMNIST-Letters 数据集上使用 VGG-5 作为基础模型进行了实验,以比较所提出的损失函数与标准交叉熵损失的效果。使用 Ray Tune 的 HyperOpt 搜索器和 ASHA 调度器 [5],我首先进行了一次超参数搜索,以找到标准交叉熵损失基线情况下的最佳超参数,例如批量大小(batch-size)、学习率(learning rate)、权重衰减(weight decay)和 dropout。此次超参数搜索共进行了 1000 次试验,每次试验最多训练 50 个 epoch。然后,我选取搜索返回的最佳模型,并对其进一步训练了 150 个 epoch。
类似的过程也被用于 MIX-ENT 和 MIN-ENT 损失函数的实验。结果如表 1 所示。除了我自己实验的结果外,我还包含了 paperswithcode 排行榜上的结果。从表格中可以看出,MIX-ENT 和 MIN-ENT 准则不仅优于我使用标准交叉熵所得的结果,也优于排行榜上使用标准交叉熵的结果。因此,使用 MIN-ENT 和 MIX-ENT 训练的 VGG 分别排在排行榜的第二和第三位(因为 MIN-ENT 略优于 MIX-ENT)。更重要的是,正如表 1 中所示的排行榜结果所表明的那样,使用 MIX-ENT 和 MIN-ENT 训练的 VGG 模型也超过了使用标准交叉熵训练的更复杂的 Spinal-VGG 模型的表现。
4 结论
我引入了两种新的损失函数,称为 MIX-ENT 和 MIN-ENT,它们通过使用最小熵项和 KL 散度项对标准交叉熵进行正则化,从而对其进行了扩展。其直观思想是,最小化熵可以使学习到的概率分布更加尖锐、集中。我在 EMNIST-Letters 数据集上使用 VGG-5 作为基础模型,将所提出的损失函数与标准交叉熵进行了比较。结果表明,所提出的损失函数在 EMNIST-Letters 数据集上优于标准交叉熵,并且实际上使得使用 MIN-ENT 和 MIX-ENT 训练的 VGG-5 分别排在排行榜的第二和第三位,超过了使用标准交叉熵训练的更复杂的 Spinal-VGG 模型的表现。
https://www.arxiv.org/pdf/2501.13709
热门跟贴