元学 习 因其能够快速适应训练中未曾见过的任务而被广泛用于小样本分类和函数回归。 然而,在图像等高维输入的回归任务上并没有得到很好的探索。 本文做出了两个主要贡献,有助于理解这个几乎没有探索过的领域。 首先,我们设计了两种过去元学习领域中未有过的复杂度的跨类别级视觉回归任务,即物体识别锁定和位姿估计。
为此,本文 (i) 详尽地评估了常见元学习技术在这些任务上的表现,并 (ii) 定量分析了最近元学习算法中常用的各种深度学习技术的效果以增强泛化能力,包括数据增强,域随机化,任务增强和元正则化。另外,本文 (iii) 为在视觉回归任务上训练元学习算法提供了一些见解和实用建议。其次,我们建议在条件神经过程 (CNPs) 中的任务表达学习空间上添加功能对比学习 (FCL),并以端到端的方式进行训练。
实验结果表明,由于损失函数选择不当以及元训练集太小,先前工作的结果具有误导性。具体来说,我们发现在没有微调的情况下,CNPs 在大多数任务上都优于 MAML。此外,我们观察到没有针对设计的任务增强会导致严重的欠拟合。
论文链接: https://arxiv.org/abs/2203.04905 代码链接: https://github.com/boschresearch/what-matters-for-meta-learning
一、前提
我们现在以统一的方式简要描述 MAML 和 CNPs。我们假设所有任务都是从同一个分布 中采样的,每个任务 都包含一个上下文集 和目标集 其中 和 是每组中的样本数,每个任务数量都可能不同。整个训练数据集表示为 其中 N 是为训练抽样的任务。
在推理过程中,模型在一个新任务 上进行测试,给定一个小的上下文集,它必须从中推断出一个新函数 。在元学习中,有两种类型的学习参数,第一种是元参数 ,它是在元训练阶段使用 学习的。第二个是特定于任务的参数 ,它基于来自新任务 的样本更新和其学习到的元参数 。预测可以构造为 ,其中 是由 和 参数化后得到的的元模型。
众所周知,元学习算法存在两种臭名昭著的元过拟合(Meta-Overfitting):
记忆过拟合(Memorization overfitting)发生在模型仅以输入为条件来预测输出而不是依赖于上下文集;
学习者过拟合(Learner overfitting)发生在预测模型和元学习模型仅对训练任务过拟合但不能泛化到新任务时,即使预测可以以上下文集为条件。
最近,已经提出了不同的方法来缓解这些过度拟合问题,例如,在权重上添加一个正则化项来限制记忆。然而,在欠拟合和过拟合之间调整正则化项是具有挑战性的。应用任务增强和数据增强也可以缓解元过拟合。但是,对于如何单独或组合使用这些方法仍缺少一个广泛比较。在这项工作中,我们将这些技术分为数据增强 (DA)、任务增强 (TA)、元正则化 (MR) 和域随机化 (DR),并在上述两个应用中以不同组合对它们进行定量比较,以得出在更好的理解和一致的比较。
二、任务设计
对于物体识别锁定,我们创建了一个名为“Distractor”的回归任务,其中每张图片包含两个放置在随机位置的对象:查询对象和一个干扰对象。这个任务的目标是识别查询对象并预测其在图像平面中的位置。与之前的图像补全等任务不同,因为其每个像素都被视为独立的输入,我们的任务需要模型从整个图像中学习对物体的高级表示。另外,与旨在从输入图像中指定所有对象实例的现有对象检测任务相比,我们的任务旨在 i) 将查询的对象与其他干扰物区分开来,并 ii) 预测其图像平面中的二维位置。
因此,有必要学习一个独特的嵌入 ,通过给定它们相关的上下文图像 和对应的位置 ,它可以表示各种查询对象并忽略其他干扰因素。干扰对象是从所有类别中随机抽取的,在许多情况下,它们的外观与查询对象非常相似。因此,聚合多个上下文信息有助于提取表达信息以消除任务的歧义,从而提高性能。
第二个应用程序(即位姿估计)受到先前工作在 Pascal1D 数据集上的启发。由于该数据集包含的物体数量和变化有限并且仅围绕方位轴进行 1D 旋转,因此我们生成了两个具有更高多样性的新数据集,例如通过引入随机背景、跨类别对象的测试集和 2D 旋转。由于背景是从真实世界选取的图像而不像之前工作仅用空白背景,因此我们的数据集显着增加了任务的难度,并使我们能够对所考虑的元学习方法的性能进行彻底的分析。其中 ShapeNet1D 包含与 Pascal1D 一样的一维旋转,但具有更大的物体多样性, ShapeNet2D 则具有二维旋转和随机背景。在这个任务中,每个对象都有一个随机的规范姿势,因此它必须从上下文集 中学习,其中 是上下文图像 的真实旋转。
对于这两个应用程序,我们分别在 intra-category (IC) 和 cross-category (CC) 级别评估在未见过物体上泛化的性能。Distractor 上的结果表明,我们提出的算法改进 (FCL)显着提高了性能,表明我们的方法可以增强任务表达能力。位姿估计的实验结果表明,元学习可以成功地应用于预测未知物体的姿态,这在机器人抓取和虚拟/增强现实(VR/AR)方面具有巨大的潜力。
三、功能对比学习(FCL)
CNPs 学习的表示在给定的上下文集中具有置换不变性,也就是说改变上下文集的顺序不会改变任务的表示。然而,任务表示的另一个理想属性是同一任务的跨上下文集的稳定性。例如,属于同一任务的不同上下文集的表示在嵌入空间中应该彼此接近,而不同任务的表示应该相距较远。为了实现这一点,我们在任务表达空间中添加了一个额外的对比损失,并以端到端的方式训练模型。对比交叉熵损失定义如下:
其中 表示每个batch的任务数。 表示分别从上下文和目标集获得的给定任务的一对潜在表示。更具体地说,这些对是通过最大聚合 和 获得,其中 表示每个任务的上下文对数, 表示每个任务的目标对数。
返回编码器网络 在每个上下文对 输出的潜在变量中的元素最大值。 是一个温度参数,我们认为 作为一个超参数对于学习良好的表示至关重要。 是余弦相似, 对 的所有正负对的相似度求和:
其中 表示当且仅当从不同的任务或不同的集合中采样,对数值可以解释为正对的加权重要性。因此,这种损失函数鼓励模型获得正对的大相似性和负对的小相似性。
四、实验结果
Distractor任务在 2D 图像平面中欧几里得距离的预测误差(像素)。结果分别采用了不同的聚合和增强方法。第一行显示类别内 (IC) 评估的结果,第二行显示跨类别 (CC) 的结果。
ShapeNet1D 姿态估计误差。结果是用 5 个随机种子计算的平均误差(MAML除外。第一行显示 IC 的结果,第二行显示 CC 的结果。
ShapeNet2D 上应用不同增强技术的比较。使用 CNP (CA) 作为baseline,结果为使用 3 个随机种子计算得到。
(a) 使用 Max 聚合和 Max + FCL 在 Distractor 任务中 CNP 预测误差(像素)与上下文对数的关系。包括类别内 (IC) 和跨类别 (CC) 级别的新对象的评估结果。(b) 使用 DA + TA 的 ShapeNet2D 任务中 CNP (CA) 预测误差与上下文对数的关系。( c ) 我们比较了经典的目标检测方法和 CNP (Max) 在新任务上使用不同数量的数据在 Distractor 上进行训练。经典模型在每个新任务上都会进一步微调训练。(d) 微调模型与 CNP (CA) 在 ShapeNet1D 上的预测误差。
相比于 MAML,CNPs具有显着的数据/训练效率,尤其在任务多样性和复杂性增加的情况下。
DA 缓解了这两种类型的过拟合,而 TA 缓解了记忆过拟合,但需要针对每个任务单独设计,需保证增加的搜索空间是对原任务有效的。
CNPs 超过了微调的经典模型,尤其是在小样本的情况下。
建议对非位置编码任务使用最大聚合,对具有位置信息的以对象为中心的任务使用交叉注意力 (CA),而平均聚合则始终表现不佳。
FCL 可以缓解过度拟合并提高性能,但需要微调超参项。在我们设计的任务中,我们发现使用较小的温度值,FCL 在上下文和目标集之间使用,通常可以获得更好的性能。
五、总结
本文研究了几个图像级回归任务中的 MAML 和 CNPs 的表现,并分析了不同选择在缓解元过拟合方面的重要性。此外,我们针对各种任务设置为 CNP 提供不同算法选择的见解和实用建议。我们将 CNPs 与任务空间中的功能对比学习相结合,并以端到端的方式进行训练,这显着提高了 CNPs 的任务表达能力。我们相信我们的工作可以为未来在基于图像的回归任务中设计和实现元学习算法的工作奠定基础。
公众号:【PaperWeekly】 作者:高宁
Illustration b y NinaWave from icon s8
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
>> 投稿请添加工作人员微信!
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
⤵一键送你进入TechBeat快乐星球
热门跟贴