视觉大模型新路径？斯坦福联合DeepMind提出视觉元学习框架CAML|caml|大模型|斯坦福|算法|编码器

目前随着像ChatGPT这样的NLP领域大模型（LLMs）已经成为人工智能领域全新的热点话题，它也侧面激活了多模态大模型社区的发展，这种模型都可以表现出在推理过程中无需任何微调即可学习新概念的非凡能力。然而对于纯视觉领域的模型却很难复制这种推理时检测新对象的能力，现有的方法仍然需要模型对相似对象进行一些元训练和微调，这限制了CV大模型的进一步发展。

为了解决这一困境，来自斯坦福大学、谷歌DeepMind的研究团队从元学习（Meta Learning）框架出发，提出了一种全新的上下文感知元学习（Context-Aware Meta-Learning，CAML）算法，CAML的灵感来源于LLMs中的In-Context Learning（上下文学习），通过在推理过程中学习新的视觉概念而无需微调来实现视觉大模型的效果。

CAML借助于预训练的CLIP模型作为特征提取器，其将元学习重新定义为对已知标签的数据点和具有未知标签的测试数据点序列建模的过程，通过这种全新的学习范式，可以将Transformer编码器外推到模型参数空间之外的新类，而无需微调。本文在多个标准元学习基准上达到了SOTA性能，而参与对比实验的baseline方法均需要进行额外的元训练。

论文名称： Context-Aware Meta-Learning 论文链接： https://arxiv.org/abs/2310.10971

一、介绍

传统的元学习方法通常用于图像分类中，其需要仅从几个有标签的样本出发，对一组无标签的图像进行分类，其中带标签的样本称为支持集，未知图像集称为查询集，在n-way-k-shot元学习范式中，支持集跨越个不同的类，每个类包含个标签图像，元学习算法需要从个类中预测查询集中的无标签样本。常用的元训练方法可以在推理过程中学习与元训练期间类似的新类，但它无法推广到新的分类范式中。例如在粗粒度目标检测上进行元训练的模型通常无法推广到细粒度图像分类上。在这方面，视觉元学习算法的表现有些落后于LLMs的新概念学习能力。

本文作者团队提出了一种模拟LLMs的元学习算法CAML，CAML将n-way-k-shot图像分类重新定义为支持集和未知查询图像上的序列建模问题，然后实现了一种上下文感知表示的效果，这与其他元学习算法不同，CAML可以根据查询集和支持集构成的完整上下文序列来进行预测，具体来说，查询序列动态地影响支持样本的表示，并且当该序列通过Transformer编码器的各层时，支持样本也可以反过来影响查询样本的表示。这种动态机制允许模型根据任务上下文（而不仅仅是图像内容）更新支持和查询表示，从而实现通用元学习效果。

上图中展示了在CAML算法中查询样本动态影响支持样本的现象，上图仅给出了5个支持样本，且没有明确最终的预测任务类别，CAML可以根据查询图像的内容将任务简化为通用对象识别：根据图像中描绘的对象对查询进行分类。

而当模型的支持集和查询图像换为不同的图像风格时，CAML也可以根据刺绣的查询图像将预测任务简化为纹理识别：即根据艺术媒介类型对查询进行分类。为了进一步在特征层面对此进行分析，作者还在上述两幅图中分别可视化了CLIP预训练模型（中部）和CAML注意力层（右侧）对输入图像的嵌入空间特征。在上图的例子中，CLIP图像嵌入似乎没有识别到当前的任务类型（中部），查询图像的嵌入向量（紫色三角）与class2油画类别（绿色方块）最为接近，而本文的CAML得到的嵌入向量（右侧）与正确的class4刺绣（紫色方块）的距离最近。

二、本文方法

2.1 CAML框架概述

CAML方法的整体框架如下图所示，其由三个部分构成：

（1）一个冻结参数的 CLIP 图像编码器[1]对支持和查询图像进行编码。

（2）一个固定的等长度和最大等角集（Equal Length and Maximally Equiangular Set，ELMES）类别编码器[2]来表示支持集标签。

（3）一个Transformer编码器序列模型来对图像嵌入与标签嵌入连接起来的序列进行建模。

这其中，CLIP可以首先将图像输入转换为与文本语义空间相似的嵌入编码，然后再使用ELMES类别编码器对支持集的类别进行编码，ELMES编码可以让Transformer编码器序列模型最大限度地识别支持集中的类别。

CAML框架可以完全模拟LLM中In-Context Learning的学习过程，即模型通过一次前向传递，从支持集示例构成的上下文中学习一种模式，并将其作用在对查询图像的分类中。

2.2 ELMES类别编码器和大规模预训练

将支持类别分配到具体的数字标签时需要保持严格的对称性，这是元学习算法的一个重要属性，CAML中通过设置ELMES类别编码器将支持集标签转换为嵌入序列实现了这一点，通常来说，ELMES由一组非零向量构成，其中，使得且。简单地说，该集合中的所有向量都具有相等的长度和最大等角，ELMES与表征理论中的紧凑决策边界有关。基于该对称性，CAML就可以将支持集类表征的学习问题表述为一个熵最小化问题，并进行优化学习，更多关于ELMES对称性的理论证明请参考原论文。

由于本文的重点是通用元学习，所以CAML在推理过程中可能会遇到任何新的视觉概念，作者选择了来自ImageNet-1k、MSCOCO、WikiArt、Fungi的少量分类任务的图像来预训练CAML的Transformer编码器。选择这些数据集的原因是，它们涵盖了对象识别（ImageNet-1k、MSCOCO）、细粒度图像分类（Fungi）和非自然图像分类（WikiArt）的通用范围。为了避免破坏CLIP嵌入空间，在预训练期间冻结了CLIP特征提取器的参数，仅更新 Transformer 编码器。类似地，由于 ELMES 最小化了支持集中检测类的熵，因此标签编码器也被冻结。

三、实验效果

为了准确的评估本文CAML框架在通用图像上的分类性能，作者选择了11个标准的元学习评估基准，分为以下四个类别：

（1）通用对象识别：mini-ImageNet、tiered-ImageNet、CIFAR-fs和Pascal VOC。

（2）细粒度图像分类：CUB、Aircraft、meta-iNat和tiered meta-iNat。

（3）非自然图像分类：ChestX和Paintings。

（4）Inter-Domain图像分类：Pascal+Paintings。

作者选择了Prototypical Networks（原型网络）、MetaOpt和MetaQDA等经典元学习方法作为对比baseline，为了保证对比公平，作者将它们在与CLIP编码器相同的图像数据集上进行了预训练。

上表展示了CAML与其他多种方法的对比效果，可以看到在绝大多数评估环境中，CAML与SOTA方法的性能相当，尤其是与P>M>F方法相比也具有一定的竞争力，P>M>F方法在每个基准训练集上都进行了元训练。这一结果表明，在不进行微调的情况下，CAML仅使用基础模型和新型元学习技术在推理过程中学习到的新视觉信息量，与直接对域内数据进行元训练时学习到的信息量相当。作者认为，这种能力可能会引发视觉领域中的模型涌现现象。

此外，作者通过实验也发现，大规模预训练往往会降低原型网络和MetaOpt方法的性能，从上表中可以观察到，这些方法在预训练过程中会倾向于过拟合，使用这些方法进行预训练会显著降低域外任务（即Aircraft、CUB）的性能，相反，CAML在冻结了CLIP特征提取器的参数后，能够从大规模预训练中获得更好的性能受益。

作者还对CAML中设置的ELMES固定编码器与可学习类嵌入编码方法进行了对比，实验结果如上表所示，除了Aircraft数据集之外，ELMES的性能与可学习方法的性能大致相同。

四、总结

本文针对视觉领域大模型难以在推理阶段探索新概念的问题，提出了一种全新的元学习算法CAML，CAML受NLP领域LLMs的上下文学习启发，通过将元学习支持集和查询集样本的表征转换为序列建模问题，实现了一种视觉特征空间的上下文感知元学习效果，CAML可以在无需任何微调的情况下，将Transformer编码器的嵌入推广到新的视觉概念中，这得益于CAML内部设置的CLIP视觉编码器和ELMES类别编码器，可以在多个标准的元学习评估基准上超越SOTA方法。本文作者认为，CAML的提出，标志着视觉元学习范式已经可以成为CV领域大模型革新的关键技术。

参考

[1] Alec Radford, Jong Wook Kim, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pp.8748–8763. PMLR, 2021.

[2] Matthew Fickus, John Jasper, Emily J King, and Dustin G Mixon. Equiangular tight frames that contain regular simplices. Linear Algebra and its applications, 555:98–138, 2018.

Illustration From Ic onScout By WOOBRO LTD

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。