在蒸馏任务里,能不能让网络自己学习一个适合的动态温度超参进行蒸馏,并且参考课程学习,形成一个蒸馏难度由易到难的情况?基于此,本文提出了简单且高效的动态温度超参蒸馏新方法CTKD。

论文链接: https://arxiv.org/abs/2211.16231 开源代码: https://github.com/zhengli97/CTKD

一、背景问题

目前已有的蒸馏方法中,都会采用带有温度超参的KL Divergence Loss进行计算,从而在教师模型和学生模型之间进行蒸馏,公式如下:

其中,温度超参的大小控制了两个预测结果和的平滑程度,决定了两个概率分布间的距离, 越大( ),就会使得概率分布越平滑(soft),越小(),越接近0,会使得概率分布越尖锐(sharp)。 的大小影响着蒸馏中学生模型学习的难度,不同的 会产生不同的蒸馏结果。

而现有工作普遍的方式都是采用固定的温度超参,一般会设定成4。

那么这就带来了两个问题:

  1. 不同的教师学生模型在KD过程中最优超参不一定是4。如果要找到这个最佳超参,需要进行暴力搜索,会带来大量的计算,整个过程非常低效

  2. 一直保持静态固定的温度超参对学生模型来说不是最优的。基于课程学习的思想,人类在学习过程中都是由简单到困难的学习知识。那么在蒸馏的过程中,我们也会希望模型一开始蒸馏是让学生容易学习的,然后难度再增加。难度是一直动态变化的。

于是一个自然而然的想法就冒了出来:

在蒸馏任务里,能不能让网络自己学习一个适合的动态温度超参进行蒸馏,并且参考课程学习,形成一个蒸馏难度由易到难的情况?

于是我们就提出了CTKD来实现这个想法。

二、方法

既然温度超参τ可以在蒸馏里决定两个分布之间的KL Divergence,进而影响模型的学习,那我们就可以通过让网络自动学习一个合适的来达到以上的目的。

于是以上具体问题就直接可以转化成以下的核心思想:

在蒸馏过程里,学生网络被训练去最小化KL loss的情况下,作为一个可学习的参数,要被训练去最大化KL loss,从而发挥对抗(Adversarial)的作用,增加训练的难度。随着训练的进行,对抗的作用要不断增加,达到课程学习的效果。

以上的实现可以直接利用一个非常简单的操作:利用梯度反向层GRL (Gradient Reversal Layer)来去反向可学习超参的梯度,就可以非常直接达到对抗的效果,同时随着训练的进行,不断增加反向梯度的权重,进而增加学习的难度。

CTKD的论文的结构图如下:

Fig.1 CTKD网络结构图

CTKD方法可以简单分为左右两个部分:

1. 对抗温度超参的学习部分。

这里只包含两个小模块,一个是梯度反向层GRL,用于反向经过温度超参的梯度,另一个是可学习超参温度。

其中对于温度超参 ,有两种实现方式,第一种是全局方案 (Global Temperature),只会产生一个 ,代码实现非常简单,就一句话:

第二种是实例级别方案(Instance-wise Temperature),即对每个单独的样本都产生一个,也就是对于一个batch中128个sample,那么就生成对应128个 。代码实现也很简单,就是两层conv组成的MLP。

两种方案的对比图如Fig.2所示。

Fig.2 两种不同的可学习温度超参实现。

2. 难度逐渐增加的课程学习部分。

随着训练的进行,不断增加GRL的权重 ,达到增加学习难度的效果。

在论文的实现里,我们直接采用Cos的方式,让反向权重 从0增加到1。

以上就是CTKD的全部实现,非常的简单有效。

总结一下方法:CTKD总共包含两个模块,梯度反向层GRL和温度预测模块,CTKD方法可以作为即插即用的插件应用在现有的SOTA的蒸馏方法中,取得广泛的提升。

三、实验结果

三个数据集:CIFAR-100,ImageNet和MS-COCO。

CIFAR-100上,CTKD的实验结果:

作为一个即插即用的插件,应用在已有的SOTA方法上:

在ImageNet上的实验:

在MS-COCO的detection实验上:

温度超参的整体学习过程可视化:

由以上图可以看到,CTKD整体的动态学习 的过程。

将CTKD应用在多种现有的蒸馏方案上,可以取得广泛的提升效果。

四、总结

本文提出了一种基于动态温度超参的蒸馏新框架CTKD,在学生模型学习的过程中,可学习的温度超参被训练去以对抗的方式最大化蒸馏损失。通过可学习温度超参,CTKD将蒸馏组织成了一个由易到难的任务,取得了明显的提升。同时该方法可以作为即插即用的插件,应用在已有的SOTA方法上带来广泛的提升效果。

作者:李政 来源:知乎【 https://zhuanlan.zhihu.com/p/595735843 】

Illustration by Manypixels Gallery from IconScout

-TheEnd-

扫码观看!

本周上新!

多家技术企业招聘来啦!

多家技术企业招聘来啦!有求必应的小将收集到来自TechBeat技术社群内技术企业的招人需求,包含来自科技大厂微软亚研、腾讯、小红书等企业,科技明星公司始途科技、梅卡曼德等企业的算法工程师等正式及实习岗位,欢迎有需求的大家向这些公司投递简历哦!

扫描了解详情~

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球