本文的研究课题是开集动作识别(open-vocabulary action recognition),具体来说就是测试集中的视频动作类别与训练集动作类别基本没有重叠或重叠程度很小,因此这需要模型具备较高的泛化性能。目前视频领域主流的做法是基于图像-文本对预训练的模型(主要是 CLIP)先在视频数据集上进行 fine-tuning,然后再进行测试集的验证。

通过实验探索,我们发现:尽管 fine-tuning 可以让CLIP具备不错的视频特征提取的能力,但这也会让它失去大规模预训练所得到的泛化性能。具体的表现就是,那些在闭集(closed-set)场景下优秀的视频分类器们,一到了开集场景下实验性能便大大缩水,甚至不如原先的预训练 CLIP 模型了。因此如何让视频模型在 fine-tuning 的同时还能保持住预训练的知识,成为了本文的研究重点。

打开网易新闻 查看精彩图片

论文标题: FROSTER: Frozen CLIP is A Strong Teacher for Open-Vocabulary Action Recognition 论文链接: https://arxiv.org/pdf/2402.03241 代码链接: https://github.com/Visual-AI/FROSTER

一、问题探究

我们首先尝试了一组在闭集场景下表现优异的 CLIP-based 的视频模型:Action CLIP [1] , AIM ST-Adapter [2] 以及 ST-Adapter [3]。具体的实验设置为:首先将模型在 Kinetics-400 上进行 fine-tuning,然后在 UCF-101,HMDB-51 以及 Kinetics-600 数据集上分别进行了测试。

需要特别注意的是,针对 Kinetics-600 数据集,我们将验证集中与 Kinetics-400 相同的类别剔除,以保证开集验证的可靠性。实验结果如下图 1 所示。

打开网易新闻 查看精彩图片

图1. 跨数据集性能探究

不难发现,在 UCF-101 与 HMDB-51 数据集上,fine-tune 模型的性能比 Frozen CLIP 更强,但是在 Kinetics-600 数据集上,fine-tune 模型的实验性能却比 frozen CLIP 要更弱。这种不一致的泛化性表现引起了我们的好奇心,因此我们进一步地去分析训练集(Kinetics-400)与各个测试集(UCF-101,HMDB-51 和 Kinetics-600)之间的类别相似性关系。

具体来说,我们用 CLIP 的 text encoder 提取不同数据集的各个类别的文本特征,然后利用余弦相似度进行类别相似性的度量。图 1 中,我们用小括号中的数字来表示数据集类别的相似度,如:UCF-101(0.805)。

我们注意到,在测试数据与训练数据具备更高相似度的数据集上(UCF-101 和 HMDB-51),fine-tune 模型相较 Frozen CLIP 的性能表现更加优异。反之,在 Kinetics-600 上,fine-tune 模型的性能则更弱。

针对这个现象,一个可能的解释是:在与训练数据更相似的测试类别上,模型通过 fine-tuning 学习到的知识可有效地被用作识别,因此性能更好。而在与训练数据不那么相似的测试类别上,模型需要更多地依赖预训练的泛化性知识,但这些知识已经在 fine-tune 的过程中被逐渐抹去了(典型的灾难遗忘问题(catastrophic forgetting issue)),因此 fine-tune 模型性能更差。

受这些实验现象的启发,我们认为一个基于 CLIP 的开集动作识别模型应该具备以下特点:

  1. 由于 CLIP 预训练是没有使用视频数据集的,因此模型需要学习视频域的相关知识(video-specific),用于弥补 CLIP 在时域建模方面的不足。

  2. 模型需要能保持住预训练 CLIP 的能力,这对于泛化性能力的保持很重要。

为了验证以上猜想,我们直接将 fine-tune 模型和 frozen clip 的结果进行相加后平均输出。如图 1 所示,可以发现 ensemble 的所有模型在三个数据集上的性能都获得了较大程度的提升,这有效地验证了我们的假设。但是直接采用 ensemble 的方式,计算量和参数量都将会成倍地增加。

二、方案设计

为了解决以上问题,如图 2 所示,我们提出了一种新的结构 FROSTER 用来同时实现以上两个目标:

针对第一点(时域建模),我们直接采用 cross-entropy loss 对 fine-tune 模型进行监督。

针对第二点(泛化性特征保持),我们将 frozen clip 作为 teacher 模型对 fine-tune 模型的特征进行蒸馏,借此希望预训练的能力能够得到很好地保持。蒸馏过程类似于一个正则化项,确保 fine-tune 特征不会偏离 frozen clip 的特征太远。因为有两个不同的目标,我们需要在它们之间平衡特征学习。

打开网易新闻 查看精彩图片

图2. 模型结构示意图

打开网易新闻 查看精彩图片

图3. 残差特征蒸馏

以冻结的 CLIP 模型作为教师模型,实现基于特征的蒸馏有两种常见的方法,如图所示 (a) 和 (b)。如图 (a) 所示,由于 fine-tune 模型和 frozen CLIP 输出特征的维度保持不变,我们可以直接在它们之间进行特征蒸馏,无需进行特征投影。然而,这种监督要求 fine-tune 特征保持与预训练特征相同,这限制了 fine-tune 特征学习视频知识的能力。

另一种可能的方法(如图 (b) 所示)是应用一个投影器,将 fine-tune 特征从学生空间映射到教师空间。这可以放宽对 fine-tune 特征的约束,以便更好地拟合视频数据。然而,在这种条件下,蒸馏 loss 对 fine-tune 特征的约束可能过于宽松,从而限制了其泛化能力。因此,我们需要在上述两种方法之间找到一个折中方案,考虑到两个学习目标。

受到 ResNet 残差设计的启发,我们提出了一个改进的残差网络,用于在进行蒸馏时平衡两个学习目标。这种设计背后的直觉是允许 fine-tune 特征有效地接受 frozen clip 的监督,同时也保持对视频特征的有效学习。如图 (c) 所示,我们在特征上应用一个改进的残差网络,通过两层 MLP 投影器和恒等映射来转换其表示。

打开网易新闻 查看精彩图片

残差特征映射

1. 由于转换中存在恒等映射,泛化目标 可以直接指导 的泛化学习,这与图(a)类似。但不同的是,给定投影项 ,我们不强制 与 相同,这使得 更灵活地拟合视频数据。

2. 是平衡两个目标学习中的重要因素。如果我们将它设置为一个较小的数值,学习到的 嵌入空间将在很大程度上受到教师模型的约束,否则 可能会过度拟合视频数据,损害泛化能力。在实验中,我们发现将 设置为相对较小的数值(例如,0.1)比大数值时能带来更好的性能。这一现象表明,预训练的 CLIP 已经具有强大的表示能力,因此我们只需要稍微调整它,以便从图像转移到视频。

3. 为确保 从预训练状态开始学习,我们将第二个全连接层 的参数初始化为零。因此,在微调开始时, 仅包含 ,并逐渐得到更新。

总的损失函数由两个部分组成:交叉墒 loss 和蒸馏 loss:

损失函数构成

三、实验结果

我们总的在两个实验设置下进行实验:base-to-novel 和 cross-dataset。

Base-to-novel是将每个数据集的类别分成两个不重叠的部分,完成在训练集类别上进行 16-shot 的训练后,在测试集上进行测试。实验数据集总共包含 K-400,HMDB-51,UCF-101 和 SSv2。

Cross-dataset是在 K-400 数据集上进行训练,然后在 HMDB-51,UCF-101 和 K-600 上进行测试。

下表为模型在 base-to-novel 和 cross-dataset 两个场景下的实验精度,FROSTER 均达到了最佳。

打开网易新闻 查看精彩图片

Base-to-novel 场景

打开网易新闻 查看精彩图片

Cross-dataset 场景

同时,FROSTER 还可以与不同的模型结构结合到一起,都能有效地提升实验结果。

打开网易新闻 查看精彩图片

FROSTER与不同模型结构结合

打开网易新闻 查看精彩图片

不同蒸馏方式的影响

打开网易新闻 查看精彩图片

可视化对比:我们的模型能够更多的关注到和动作类别有关的区域

四、总结

本文针对开集动作识别任务提出了一种的新的模型结构,用来同时实现视频特征和泛化性的学习。我们在两种场景下都达到了最优的识别性能。开集动作识别是一个较新的领域,目前还有很多可以探究的问题,希望社区的同行们多多关注!

参考文献

[1] Mengmeng Wang, Jiazheng Xing, and Yong Liu. Actionclip: A new paradigm for video action recognition. Arxiv e-prints, 2021.

[2] Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, and Mu Li. Aim: Adapting image models for efficient video action recognition. Arxiv e-prints, 2023.

[3] Junting Pan, Ziyi Lin, Xiatian Zhu, Jing Shao, and Hongsheng Li. St-adapter: Parameter-efficient image-to-video transfer learning. In NeurIPS, 2022.

来源:公众号【PaperWeekly】

llustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈