ICLR 2024 Spotlight | 自蒸馏激发CLIP模型的检测分割能力|clip|构造|视频生成模型|预训练

得益于大规模的视觉语言预训练，CLIP模型（尤其是基于ViT的CLIP模型）在图像识别任务上展现出强大的泛化性。然而，对于下游的密集预测（dense prediction）视觉任务，如目标检测和图像分割，CLIP ViT对图像局部区域表现出的识别能力并不尽如人意。

在这篇论文中，我们对CLIP ViT模型的区域特征进行了详细分析，并提出通过自蒸馏（self-distillation）的方式，用CLIP ViT模型强大的图像层级表征，提升其区域层级的表征。我们将该方法称为CLIPSelf。实验上，我们在开放词汇目标检测和图像分割上广泛地验证了CLIPSelf的效果，并提供了有趣的定量和定性分析。

论文名称： CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction 论文链接： https://arxiv.org/pdf/2310.01403.pdf 代码地址： https://github.com/wusize/CLIPSelf

一、分析CLIP模型的区域表征

我们利用COCO数据集上的区域物体框，让CLIP模型对这些物体框进行分类，计算分类的准确度（mAcc）。

我们分别采用两种方式利用CLIP模型对物体框进行处理：

一种是将整个图像利用CLIP模型提取图像特征，再根据物体框的坐标信息通过局部区域的池化操作（RoIAlign）得到区域密集特征（dense feature），下游的目标检测和图像分割任务需要采用这种方式获得局部物体的感知；

另一种是先将物体框区域从原图裁剪得到的小图像（image crop），再采用CLIP预训练相同的方式，将整个小图像送入CLIP模型提取图像层级的特征。

图1. CLIP模型分析

尽管基于ViT的CLIP模型在全图分类上展现出很好的效果（图1(a)），但如图1(b)所示，CLIP ViT的dense feature的效果不佳，不能被用于很好地识别物体。图1(c)中的Kmeans可视化结果也表明ViT的局部特征相对于CNN分散嘈杂。

这是由于ViT不具有CNN的平移等变性和局部性等特点，而预训练只在图像层级对齐了视觉语言的表征，从而缺乏提取良好区域特征的能力。

我们进一步对更多主流的CLIP模型的区域密集特征进行分析，在不同的原图尺度上统计物体框的分类精度。

如图2所示，各种CLIP ViT模型的Dense feature对物体框的分类均不如Image crop的图像层级特征。并且，随着图像输入尺寸的增大，CLIP ViT dense feature的能力并没有随之提升，这将不利于下游的目标检测和图像分割任务进行区域识别。

图2. CLIP模型的区域分类精度

二、方法

为提升CLIP ViT的区域表征，一个自然的做法是构造区域文本对（region-text pairs），直接学习区域表征和文本表征之间的对齐。

然而，人工标注区域文本对数据成本巨大。因此现有的方法（如RegionCLIP）解析图像的caption得到物体名词（object nouns），同时利用预训练的区域生成网络（RPN）生成region proposals吗，再匹配两者获得区域文本对。

由于匹配结果准确度有限，这种区域文本对提供的监督噪声极大。因此，本文提出CLIPSelf以解决上述问题。

受图1、2中Image Crop的高分类精度启发，我们试图用CLIP高质量的图像特征（teacher）监督其区域特征（student），利用自监督的方式来提升CLIP ViT的密集表征。

CLIPSelf通过最小化CLIP ViT的dense feature（student）和对应的Image crop特征（teacher）的cosine距离，来优化CLIP的局部特征。

如图3所示，CLIPSelf可以不依赖RPN网络提供region proposals，仅将图像均匀划分成MxN个patch即可得到self-distillation所需的图像区域。训练过程中，对每一张图片，我们从{2，3，4，5，6}中随机采样得到M和N。

图3. CLIPSelf的自蒸馏框架

三、实验结果

3.1 开放词汇目标检测

通过将开放词汇目标检测器中的CLIP模型替换为我们CLIPSelf自蒸馏后的版本，我们取得了开放词汇目标检测任务上新的SOTA。

图4. 开放词汇目标检测任务结果

3.2 开放词汇图像分割

用CLIPSelf优化后的CLIP ViT模型替换原始的模型，可以显著提升现有开放词汇图像分割的效果。

3.3 开放词汇图像分割与构造区域文本对比较

如下表所示，在使用相同的region proposals情况下，self-distillation是比region-text pairs更好的监督来源。

四、总结

在这篇论文中，我们详细地分析了CLIP模型的局部区域表征能力，发现CLIP ViT区域层级的表征较弱，但是有很强的图像层级表征。

因此，我们提出了一种自蒸馏的方式CLIPSelf，用CLIP ViT强大的图像表征来优化其自身的区域表征。CLIPSelf显著提升了CLIP ViT在开放词汇密集预测（dense prediction）任务中的性能。

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。