CVPR 2023 | 加州大学联合NVIDIA提出扩散模型加持下的开放环境全景分割框架ODISE|cvpr|nvidia|加州大学|开放环境|隐式

日前，英伟达GTC大会高调输出“AI的iPhone时刻已到”的观点，围绕AI、芯片、量子计算等方向，一口气发布多项技术产品。今天，跟大家一起学习英伟达与加州大学圣迭戈分校联合提出的新工作：扩散模型加持下的开放环境全景分割框架ODISE。这项工作刚被CVPR 2023录用。本文设计了一个统一框架ODISE（Open-vocabulary DIffusion-based panoptic SEgmentation），分别整合了预训练的文本图像扩散模型和判别模型来解决开放环境中的全景分割任务。

论文链接： https://arxiv.org/abs/2303.04803 代码链接： https://github.com/NVlabs/ODISE 代码链接： https://jerryxu.net/ODISE/

目前在人工智能社区中如果提起扩散模型，那大家可能会因为扩散模型在文本图像合成领域的惊人表现而津津乐道。但是扩散模型仅仅只能在文本图像对齐领域work吗，我们之前报道过扩散模型在目标检测领域的应用。这表明扩散模型完全具有推广到常规视觉感知任务上的潜力。并且与普通的基于CNN和基于ViT的模型相比具有更好的泛化能力。

本文介绍一篇刚被视觉顶级会议CVPR2023录用的工作，研究团队来自加利福尼亚大学圣迭戈分校和NVIDIA。本文设计了一个统一框架ODISE（Open-vocabulary DIffusion-based panoptic SEgmentation），分别整合了预训练的文本图像扩散模型和判别模型来解决开放环境中的全景分割任务。其中的文本图像扩散模型可以完成多种开放式词汇语言与合成图像的对应，而对于文本图像判别模型，作者这里选择了效果拔群的CLIP模型[1]，像CLIP这样的判别模型非常擅长将一幅任意图像分类映射到开放式的词汇标签列表中。在这两种模型的加持下，ODISE完全可以应对开放环境中的场景全景分割，作者声称“ODISE可以对输入的任何对象进行分割和分类，即便是在训练期间未见过的对象”。ODISE可以仅在COCO数据集上进行训练，并且在ADE20K数据集上可以达到SOTA效果。

一、引言

全景分割任务是常规视觉感知任务中集成度较高且非常具有实际落地意义的任务之一，其需要通过一个较为统一的框架来同时解析输入图像中的所有对象实例以及整体的场景语义。在某种意义上，全景分割才更加接近于人类视觉观察世界的过程。人眼视觉可以识别任何语义类别，给定下图中呈现的场景，人类可以立即将场景中的一辆卡车识别为一辆皮卡，并且将其后面的拖车以及拖车上的另一辆卡车一并识别出来。为了使深度学习模型实现这种细粒度的场景理解，研究者们提出了一种更加贴近真实世界的开放环境全景分割任务。

鉴于目前文本图像领域的迅猛发展，例如以CLIP为代表的图像文本对比模型在经过大规模的图像文本对数据集预训练后，可以展现出非常鲁棒的泛化能力。这正是开放环境中全景分割任务所需要的。但是CLIP模型毕竟只是一种图像级模型，其缺乏一定的像素级空间几何建模以及关系理解能力，直接将其整合到全景分割框架中可能会遇到性能瓶颈。

此外，作者观察到现在较为流行的图像文本合成扩散模型除了能够合成具有非常高质量的图像之外，还能够通过输入的文本来控制图像的合成细节。这一特性来源于扩散模型内部对文本嵌入以及视觉表示之间的交叉注意力设计。这种设计能够成功，很大程度上可能是因为扩散模型的隐层特征可以与文本描述的高级语义进行对应。

为了进行概念验证，作者在上图中间部分，对输入图像的扩散模型隐层特征进行了K-Means聚类可视化，可以看到，扩散模型确实可以根据文本图像特征完成粗略的语义聚类。受这一发现的启发，作者提出一个大胆的设想，能否可以利用大规模预训练的文本图像扩散模型来为开放环境中的任何目标构建一个通用的全景分割学习器呢？

二、本文方法

本文提出了一个ODISE框架，框架整体示意图如下图所示，ODISE同时使用图像Mask和图像caption进行监督训练，首先设置了一个文本到图像的扩散模型来提取图像的嵌入特征，并将这些特征输入到Mask生成器中来生成图中所有可能目标的全景mask。随后根据提供的图像类别标签和文本caption来训练一个开放词汇mask分类模块。该模块接受每个预测mask的扩散特征以及类别标签的嵌入来执行语义分类。当训练结束后，就可以使用扩散模型和判别模型进行开放环境的全景分割推理。

2.1 隐式caption生成机制（Implicit Captioner）

与传统的扩散模型不同，本文在将图像送入扩散模型提取特征之前，先设计了一个隐式caption生成器来对当前图像生成文本嵌入，如上图中红色块所示。为了直接得到图像的隐式文本嵌入，作者在这里直接部署了预训练的CLIP模型将输入图像编码到嵌入空间中，并使用一个可学习的MLP将图像嵌入投影到隐式文本嵌入中，再送入到扩散UNet网络中。在ODISE训练阶段，冻结图像编码器和扩散UNet的参数，只优化MLP的参数。这样一来，可以看做是扩散UNet与隐式字幕生成器（Implicit Captioner）共同构成了ODISE的特征提取器，特征提取过程可以形式化表示为：

2.2 类别标签和图像caption双重监督

在经过扩散模型建模后，扩散特征被送入到Mask生成器对输入图像中的所有可能目标生成mask，具体来说，Mask生成器将扩散视觉特征作为输入，并且输入个类别未知的二进制mask，在本文。随后需要将这100个mask分类到一个开放的词汇表中，为了实现开放词汇映射，作者在这里使用了以CLIP为代表的文本图像判别模型，这些模型因为在超大规模的文本图像对上进行了预训练，因而具有强大的开放词汇分类能力。这样模型在训练阶段就可以同时使用语义分割类别标签和caption文本进行双重监督了。

对于全景语义类别标签，训练过程类似于传统的闭集训练模式，可以对每个mask的嵌入特征直接与类别标签计算交叉熵损失进行优化：

而对于caption文本标签，作者在设计时与类别语义标签进行隔离，在使用caption文本进行优化时，模型仅使用图像caption对对预测的mask嵌入特征进行分类。为此，作者首先从每个caption中提取目标关键词，并将它们视为对应匹配图像的基础类别标签。具体来说，给定图像caption对，假设从中抽取了个名词，然后在数据集中采样个样本对构成候选列表batch，随后可以计算每个图像caption对之间的相似度为：

其中和是维度相同的向量，对于输入的一个batch，每个图像只有它本身的一个caption可以作为正样本，其他图像的caption都可以看做是负样本，这样就可以构成类似于CLIP中的图像文本对比损失：

2.3 开放词汇全景分割推理

在模型推理阶段，模型的整体推理过程如下图所示，测试类别变为，测试类别与训练类别不同构成开放实验设置。此外，在测试集中，图像的是缺乏caption文本的。

因而在全景分割推理阶段，作者使用隐式caption生成器先对输入对象生成隐式caption，将其与图像同时送入到扩散模型中获得UNet特征，随后Mask生成器来生成一系列的二进制目标mask，以及对应的mask嵌入特征。

相应的，为了将每个mask嵌入分类到测试类别中，作者直接使用文本编码器提取文本类别嵌入，并与mask嵌入计算相似度。作者在实验中发现，扩散模型的嵌入表示可以呈现非常好的空间差异性，因而可以为输入图像中的目标生成多样性的mask，但是将其与文本判别模型结合之后，就可以达到非常好的目标分类能力。

三、实验效果

ODISE中内置的扩散模型结构使用在LAION数据集上预训练的stable diffusion版本，然后提取其中的UNet特征图，并仿照FPN结构调整特征图的大小构成一个特征金字塔。对于文本图像判别模型，作者使用CLIP模型，对于mask生成器，作者使用Mask2Former[2]结构，并且对每幅输入图像产生个二进制mask。ODISE使用COCO数据集进行训练，并且使用COCO的全景分割标签作为二进制mask的监督信号。对于caption监督，作者从COCO数据集的caption标注集合中对每张图像随机选取一个caption。ODISE使用ADE20K作为全景分割评估数据集，使用Pascal作为语义分割评估数据集，评价指标选用全景质量PQ、mAP和mIoU。

在评估开放词汇全景分割性能时，作者使用全景测试类别作为，并将每个预测的mask直接分类到概率最高的测试类别中。下表展示了全景分割的性能，作者将ODISE与同期工作MaskCLIP[3]进行对比，ODISE在三个指标上均超越了MaskCLIP。

对于语义分割，作者将分配给同一“things”类别的所有mask合并为一个，并将其作为预测mask的输出，并且仅使用“things”的列表作为。下表展示了ODISE在开放词汇环境下的语义分割性能对比，除COCO之外，作者选用了5个语义分割数据集来计算mIoU。为了保证与之前的工作进行公平比较，这里仅使用类别标签或者图像caption标签训练ODISE，可以看到，ODISE在开放词汇语义分割任务上性能优于现有的SOTA方法。

下图展示了ODISE的全景分割视觉效果，其中前两行为COCO数据集上的示例，最后一行为ADE20K数据集上的示例。为了充分展示了开放词汇的识别能力，这里将LVIS、COCO、ADE20K的所有类别名称合并在一起，直接进行全景推理。

四、总结

本文提出了一个整合扩散模型（stable diffusion）、图像文本判别模型（CLIP）的开放环境全景分割框架ODISE，ODISE可以看做是利用大规模文本图像预训练扩散模型来执行下游识别任务的一个尝试，其展示了文本图像生成模型在开放环境视觉感知任务中的巨大潜力。

此外，ODISE的提出也表明，目前火热的文本图像扩散模型不仅仅局限于生成式任务，其中包含的图像语义表示同样可以在其他领域发挥作用，并且借助于具有视觉文本对应能力的判别模型，还可以提高语义表示的多样性和鲁棒性。不夸张的说，ODISE应该为目前在其他视觉任务上有效的利用扩散模型的内部表示开辟了一个新方向，我们期待有更多类似的工作出现，应该可以显著提升模型的开放环境识别能力。

参考文献

[1] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748–8763. PMLR, 2021.

[2] Bowen Cheng, Ishan Misra, Alexander G Schwing, Alexander Kirillov, and Rohit Girdhar. Masked-attention mask transformer for universal image segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1290–1299, 2022.

[3] Zheng Ding, Jieke Wang, and Zhuowen Tu. Openvocabulary panoptic segmentation with maskclip. arXiv preprint arXiv:2208.08984, 2022.

作者：seven_

Illustration by Manypixels Gallery from IconS cout

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线330+期talk视频，900+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。