Towards Context-Aware Domain Generalization:Understanding the Benefits and Limits of Marginal Transfer Learning

上下文领域泛化:理解边际迁移学习的益处和局限

https://arxiv.org/pdf/2312.10107

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

摘要

在这项工作中,我们分析了在何种条件下,关于输入X的上下文信息可以提高深度学习模型在新领域中的预测能力。在领域泛化(DG)中的边际迁移学习工作的基础上,我们将上下文概念形式化为一组源自与输入本身相同领域的数据点的置换不变表示。我们提供了在原则上可以带来益处的条件下,这种方法的理论分析,并制定了两个在实践中可以轻松验证的必要标准。此外,我们提供了关于边际迁移学习方法有望实现鲁棒性的分布偏移类型的见解。实证分析表明,我们的标准在辨别有利和不利场景方面是有效的。最后,我们展示了我们可以可靠地检测模型在分布外(OOD)领域中进行不合理的推断的场景,识别潜在的失败案例。因此,我们展示了一种方法,可以在最具预测性和最鲁棒的模型之间进行选择,从而规避预测性能和鲁棒性之间的众所周知的权衡。

1 引言

分布偏移是机器学习中许多失败案例的原因[Hendrycks 和 Dietterich, 2019, Koh 等, 2021],也是经典统计学中各种奇特现象的根源,例如辛普森悖论[Peters 等, 2017, von Kügelgen 等, 2021]。领域泛化(DG)任务旨在通过在训练期间利用来自不同环境的数据,寻求对分布偏移具有鲁棒性的模型[Muandet 等, 2013, Zhou 等, 2022]。

在领域泛化的背景下,边际迁移学习通过上下文信息增强模型,以实现更好的预测[Blanchard 等, 2021]。测试实例的“上下文”是源自与实例本身相同环境的样本集,可以通过置换不变神经网络进行嵌入,例如Edwards 和 Storkey [2017],Bloem-Reddy 和 Teh [2020]。在这项工作中,我们增强了对于边际迁移学习在DG中相对于基线模型能够获得益处的基本理解。

考虑一个概率模型p(Y | X),它通过磁共振(MR)图像X来分类疾病Y。由于MR图像没有完全标准化,分类器应该对不同硬件品牌获取的图像略有不同的工作方式。因此,告知分类器当前环境E(这里:硬件品牌)的信息,并将其扩展到p(Y | X, E)是有意义的。这引发了两个问题:(i) 在什么情况下,分类器p(Y | X, E)会优于p(Y | X);(ii) 应该如何表示E以最大化性能提升?第一个问题很重要,因为可能存在一个函数E = f(X),允许分类器p(Y | X)单独从数据X中推断出E。例如,E可能从给定图像的外围推断出来,而Y依赖于其中心区域。那么,通过显式传递E不会获得额外的信息,两个分类器的表现是相同的。对于第二个问题,一个直接的答案是通过离散标签来区分环境,但我们提议学习连续的嵌入。这允许我们为新环境计算表示,从而实现实时适应和训练环境之间的插值。此外,对于已知环境,离散和连续的E提供的信息量是相同的,确保信息不会丢失。

在边际迁移学习[Blanchard等人,2021]的先前工作基础上,我们使用集合编码器从辅助数据中学习E的连续嵌入,如图1所示。为了系统地解决第一个问题,我们建立了三个标准,这些标准界定了在何种情况下p(Y | X, E)是有益的,随后证明了它们的必要性。值得注意的是,这些标准中的两个可以通过标准模型进行经验性测试,并且被证明是该方法成功的必要条件。

打开网易新闻 查看精彩图片

当测试环境与训练环境高度不同时,所有DG方法都会进入一个未知成功前景的外推区域,并增加了静默失败的风险。虽然边际迁移学习并非不受这种“外推的诅咒”,但我们发现它有一种自然的方式来可靠地在集合表示空间中检测新环境,并界定其能力范围[Müller等人,2023]。因此,我们提出了一种方法,可以在专门针对分布内(ID)设置的模型与对分布外(OOD)场景具有鲁棒性的模型之间进行选择。这样,我们就可以克服ID预测性能与对分布偏移的鲁棒性之间臭名昭著的权衡[Yang等人,2022b,Müller等人,2022,Magliacane等人,2018]。

总结来说,我们的贡献包括:

- 我们明确了边际迁移学习方法可以从上下文信息中获益并改进标准方法的必要和可经验验证的条件;

- 我们进行了广泛的实证评估,并展示了当理论的必要条件未满足或需要外推时,我们能够可靠地检测到失败案例

- 我们展示了如何通过检测新环境来进行模型选择,从而克服了预测性能和鲁棒性之间的权衡。

2 方法

在接下来的部分,我们将简要介绍在DG中上下文感知模型(也称为边际迁移学习)。然后,我们将讨论我们可以期待从额外的集合表示中获益的条件。之后,我们将解释与这些条件相匹配的理论数据生成过程,为上下文感知方法在实践中可能证明是有利的分布偏移提供见解。最后,我们将讨论识别需要外推的新环境的过程,这可能导致失败案例。

2.1 符号表示

我们将输入表示为X ∈ X,输出表示为Y ∈ Y,对输入和输出空间X和Y没有严格的要求。我们将(未知的)域标签E视为一个随机变量,并用S(n)表示来自给定域的n个独立同分布样本集(即,一组额外的输入)。域标签E仅在训练期间已知,在推理期间未知。

2.2 上下文感知模型

上下文感知模型由两个关键组件组成(如图1所示):(i)一个排列不变的网络hψ(“集合编码器”),其参数为ψ,将集合输入S(n)映射到一个摘要向量hψ(S(n));(ii)一个推理网络fϕ,其参数为ϕ,将输入X和摘要向量hψ(S(n))映射到最终预测。完整的模型表示为fθ(X, S(n)) = fϕ(X, hψ(S(n))),参数θ = (ψ, ϕ),简称为θ。

对于给定的监督学习任务,我们的目标是找到以下优化问题的最小值‍

打开网易新闻 查看精彩图片

其中c是任务特定的损失函数(例如,分类的交叉熵或回归的均方误差)。算法1详细描述了方程1的优化过程。

2.3 改进的标准

接下来,我们建立了上下文信息可以利用环境之间的分布偏移并产生改进预测的标准。总共,我们提出了三个实现增量改进所必需的标准。在定理2.1中,我们展示了这些标准是如何相互关联的。在下面的公式中,I(X; Y)表示随机向量X和Y之间的互信息,I(X; Y | Z)表示给定第三个随机向量Z时的条件互信息。符号⊥(分别表示独立)和≠⊥(分别表示依赖)用于表示两个随机向量X和Y在给定第三个随机向量Z时是独立的(分别表示依赖的)或条件独立的(分别表示依赖的)。

首先,我们要求给定输入X,来自同一环境的另一组独立同分布输入S(n)提供了关于Y的增量信息。这正是我们需要实现改进预测性能的,我们可以将其正式定义为我们的第一个标准:

打开网易新闻 查看精彩图片

在图1中,一个实例X不能完全确定地分配给一个环境。因此,进一步的数据提供了关于环境的额外信息。一般来说,我们考虑的数据越多,我们就能更好地预测起源环境。至关重要的是,如果我们仅从单例输入X中就能恢复起源环境,则此标准不满足。

第三个标准要求,如果我们还考虑X的起源环境E,单例输入X携带关于Y的信息。

此标准可以作为健全性检查,以防我们有一个能够以完美准确度识别数据起源环境的预言机。

打开网易新闻 查看精彩图片

这个定理的证明可以在附录C.3中找到。

不幸的是,我们不能一般性地得出Y ⊥ S(n) | X遵循标准2.2和标准2.3的结论。一个反例,其中标准2.2和标准2.3成立,但标准2.1被违反,提供在附录C.2中。

同样值得注意的是,标准2.3可能是可实现的,而标准2.2是不可达到的,反之亦然。例如,当我们可以从一个样本中推断出原始环境(标准2.2是不可达到的),X和Y之间的关系可能仍然随着环境而变化(标准2.3是可实现的)。

2.4 源成分偏移

使用我们的方法,我们可以描述允许我们的标准被满足的分布偏移类型。源成分偏移指的是数据来自具有不同特征的多个源(或环境)的场景[Quinonero-Candela 等, 2008]。源成分偏移可以通过图1中的图形模型描述,其中环境直接影响输入X和结果Y。符合图1中图的问题有两个重要含义。首先,每当环境变化时,输入分布也会变化。1其次,输入和结果之间的关系随环境变化(对应于标准2.1)。有关这种分布偏移的更多细节,请参阅Quinonero-Candela 等[2008]。值得注意的是,图1中的图对应于辛普森悖论[Peters 等, 2017, von Kügelgen 等, 2021],这为我们的方法提供了一个概念验证(参见实验1)。需要强调的一点是,经常遇到的协变量偏移,其中只有P(X)在P(X, Y) = P(Y | X)P(X)中随环境变化[Quinonero-Candela 等, 2008],不符合标准2.3中指定的条件。因此,在协变量偏移下(假设所有模型都收敛到最优),上下文感知模型与标准模型相比没有优势。

2.5 新环境的检测

在测试阶段,数据可能来自与训练环境之一相对应的环境(但其来源未知),也可能来自之前未见过的环境。接下来,我们将解释如何检测可能导致潜在失败案例的第二种情况,这些失败案例源于外推时遇到的基本挑战。根据Müller等人[2023]的研究,我们可以在模型fθ(X, S(n))隐含的摘要向量hψ(S(n))上定义一个分数s(hψ(S(n))),该模型旨在预测目标变量Y。作为评分函数,我们考虑的是hψ(S(n))在集合编码器特征空间中与训练数据中k个最近邻的距离。因此,如果某个集合表示所得的分数超过某一特定阈值,则认为它来自一个新颖的环境。

遵循Müller等人[2023]的方法,我们考虑分数分布,并设定一个阈值,以将一定比例(记为q)的来自已知环境的样本分类为源自已知环境。为了确定这个阈值,我们考虑从验证集中获得的分数的第q百分位数。我们还将我们新颖的环境检测器与仅使用单一特征g(X)计算得出的相同评分函数进行了比较(预览见表1)。

3 相关工作

3.1 领域泛化(Domain Generalization, DG)

领域泛化(DG)的目标是训练出在分布变化下仍能良好泛化的模型[Muandet等, 2013; Zhou等, 2022]。与领域适应(Domain Adaptation, DA)[Wang和Deng, 2018]不同,在DG中,训练期间不提供来自测试领域(domain)的样本,因此训练时无法得知测试环境的信息。DG和DA都涉及在训练期间利用领域间的异质性来访问来自多个领域的数据。关于DG的概述,可参见Wang等[2022]、Zhou等[2022]的研究。

作为DA和DG之间的折中方案,测试时适应(Test-Time Adaptation, TTA)[Liang等, 2023]和边际迁移学习[Blanchard等, 2021]涉及在测试期间提供未标记样本。在TTA中,模型通常根据提供的样本进行微调[Liang等, 2023]。在DG中的边际迁移学习指的是在测试时提供对边际特征分布的访问权限,并通过将其提供给模型[Blanchard等, 2021]。在此上下文中,σ表示应用于每个Xi的特征提取模型,求和操作确保操作在置换下保持不变。文献中探索了σ的不同选择。具体而言,Zhang等[2021]利用了卷积神经网络(CNNs),Blanchard等[2021]、Dubey等[2021]结合了核嵌入,而Bao和Karaletsos[2023]则采用了补丁嵌入。虽然这些工作突出了其方法的优势,但在分析相对于标准模型而言,哪些具体设置和条件对这些益处做出贡献方面却有所欠缺。此外,它们没有解决潜在失败案例的检测或利用上下文嵌入进行模型选择的问题。最近的一种方法提出使用Transformer来利用先前见过的样本,而不是学习置换不变嵌入[Gupta等, 2023]。

在识别内部分布(In-Distribution, ID)性能和外部分布(Out-Of-Distribution, OOD)性能之间的权衡是众所周知的[Müller等, 2022; Magliacane等, 2018; Zhang等, 2023]。Zhang等[2023]提出了一种缓解这种权衡的方法。他们的方法预先假定了对数据起源环境的了解,而我们的目标是推断出这一信息。

3.2 学习置换不变表示

近年来,利用神经网络分析集合结构数据在理论和实证方面都获得了很大的动量[Wagstaff等, 2022; Bloem-Reddy和Teh, 2020; Murphy等, 2018; Zaheer等, 2017; Lee等, 2019; Zare和Van Nguyen, 2021]。例如,Zare和Van Nguyen[2021]基于集合变换器架构[Lee等, 2019]构建,并为注意力编码器增加了学习基于注意力的池化动态模板的能力。不同的是,dan Guo等[2021]建议使用最优传输(Optimal Transport, OT)优化准则来学习集合特定表示以及全局“原型”。值得注意的是,上述方法未在集合表示上施加任何概率结构,因为后者主要用作下游任务的确定性特征。在贝叶斯文献中,集合表示有限可交换序列,体现了大多数贝叶斯模型的核心概率结构[Orbanz和Roy, 2014]。通常,使用分层(又称多级)贝叶斯模型通过将观测值组织成集群或层次来处理辛普森悖论[Wikle, 2003; Gelman等, 2013],这反映了领域泛化(Domain Generalization, DG)中领域或环境的概念。事实上,分层贝叶斯模型已在科学领域的许多方面成功应用,但通常局限于线性模型或广义线性模型(Generalized Linear Models, GLMs),优先考虑可解释性而非预测性能。

机器学习文献中富含从集合结构数据学习不变摘要统计量的变分方法[Edwards和Storkey, 2016; Garnelo等, 2018; Kim等, 2019, 2021; Zeng等, 2022]。然而,上述方法无一追求我们工作的具体目标,即通过基于集合的环境表示来提高领域泛化性能。为实现这一目标,我们在所有实验中均采用DeepSet[Zaheer等, 2017]和SetTransformer[Lee等, 2019]架构的变体作为我们的骨干集合编码器。有趣的是,我们观察到,在所考虑的问题中,我们的方法对于集合编码器架构的选择具有广泛的鲁棒性。

3.3 异常检测与选择性分类

检测与训练集样本偏离的不寻常输入一直是机器学习和统计学习中一个具有概念复杂性的长期问题[Aggarwal和Yu, 2001; Yang等, 2021; Shen等, 2021; Han等, 2022; Yang等, 2022a]。标记出分布外(Out-of-Distribution, OOD)实例涉及识别可能损害机器学习系统可靠性的不常见数据点[Yang等, 2021]。OOD检测与带有拒绝选项的推断(也称为选择性分类)密切相关[Geifman和El-Yaniv, 2017; El-Yaniv等, 2010],这使得分类器能够避免对模糊或新条件进行预测[Hendrickx等, 2021]。拒绝选项在统计和机器学习中得到了广泛研究[Hellman, 1970; Fumera和Roli, 2002; Grandvalet等, 2008; Wegkamp和Yuan, 2012],其早期工作可追溯至20世纪50年代[Chow, 1957, 1970; Hellman, 1970]。

最近,Müller等[2023]探索了选择性分类在领域泛化(Domain Generalization, DG)设置中的效用。他们研究了各种事后得分,以在特征空间中定义一个“胜任区域”,在该区域内,分类器被认为是胜任的。在本工作中,我们考虑了基于特征空间中训练集k近邻的事后得分,这与Sun等[2022]的方法类似,该方法适用于分类和回归设置。与Müller等[2023]所采取的方法不同,后者的重点是单个实例的特征,而我们考虑的是集合编码器提供的集合摘要。因此,即使单例输入缺乏足够的信息,我们也能识别出新的环境。

4 实验

接下来,我们从三个不同维度探讨了上下文感知模型的各个方面。首先,我们在两个数据集上展示了,当满足源组件条件转移时,与基线模型相比,上下文感知模型在域内(In-Distribution, ID)和域外(Out-of-Distribution, OOD)设置下均能实现性能提升。其次,我们展示了如何检测新环境,以便在选择最具预测性(在ID设置下)和最稳健(在OOD设置下)的模型之间进行选择。我们还展示了新环境检测可用于避免失败案例。第三,我们证明了可以经验地验证必要标准(见第2.3小节),从而识别出无法预期该方法带来益处的情况。实验细节见附录。此外,在附录B中,我们进行了另一项与实验1类似但输入为高维的实验。

4.1 评估方法

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在这里,表示我们模型的性能度量,同样地,对于基线模型,都是在未见过的测试集上进行测量。RI > 0表示通过上下文感知方法获得的优势,因此满足了标准2.1。在回归设置中,我们考虑负L2损失作为性能度量。

为了验证标准2.2,我们训练了一个上下文环境模型,它利用集合输入S(n)和目标输入X来预测环境标签E。此外,我们还训练了一个基线环境模型,旨在仅从X预测E。然后我们计算了上下文环境预测器相对于基线环境预测器的相对改进RII2。RII2 > 0表示标准2.2得到了满足。在我们的实验中,我们选择集合大小n,以便我们的上下文环境预测器f_E|X,S(n)在ID数据上大约达到100%的准确率。

打开网易新闻 查看精彩图片

4.2 实验1:玩具示例

设置 为了进行实验准备,我们考虑了一个数据集,该数据集如图2所示,并在附录E.1中进行了详细说明。该数据集包含了来自五个不同环境的数据,这些环境由不同的高斯分布定义。每个高斯分布因其位置(即均值向量)而有所偏离。该数据集展示了辛普森悖论,即如果不考虑环境因素对数据进行朴素拟合,将会得到一条负斜率的线(见图10)。相反,如果利用环境信息进行预测,则能够捕捉到真正的潜在模型,即具有正斜率的线,从而抵消了均值向量的整体负趋势。

打开网易新闻 查看精彩图片

结果 作为对第2.2条标准的初步检验,我们评估了与单个输入相比,集合输入是否能提供关于环境的额外信息。图2表明,额外的集合输入显著提高了区分环境的能力,并且我们包含的样本越多,区分的效果就越好。正如预期的那样,环境边缘均值之间的距离越小,就需要越多的样本来区分不同的环境。有趣的是,如附录I所示,对于预测环境标签而言,置换不变网络的具体架构选择似乎并不起重要作用。

打开网易新闻 查看精彩图片

接下来,我们评估了上下文感知方法在所有可能的“留一环境出”(leave-one-environment-out)场景中的预测能力。这涉及到在所有环境中训练模型,但留出一个环境,并将其作为新的域外(OOD)场景进行处理。在这里,我们考虑了线性模型,以确保问题具有最佳归纳偏置(附录E.3显示,非线性模型也获得了类似的结果)。从图3中可以看出,第2.1条、第2.2条和第2.3条标准都得到了满足。与基线模型相比,在域内(ID)和域外(OOD)设置中,以集合输入的形式提供上下文信息都显著提高了性能(见图3中的I和I(OOD))。我们还观察到,当直接提供环境标签(见图3中的II)时,与使用集合编码器的输出(见图3中的I)相比,相对改进略有提高。这与我们的预期相符,因为集合输入在目标值方面提供的信息并不比环境标签本身更多。请注意,对于图3中的III,我们实现的相对改进较小,因为这里我们考虑的是准确率,而不是L2损失。

打开网易新闻 查看精彩图片

最后,在图4中,我们针对一个训练好的模型,可视化了基线方法和我们的集合编码器方法的预测结果。我们的模型能够捕捉并利用每个环境的特征来进行预测。相比之下,由于环境之间存在显著重叠,基线方法难以区分不同环境,因此无法处理环境差异。需要注意的是,我们通过考虑一类与数据生成过程一致的线性模型,获得了最佳结果。然而,我们观察到,当所考虑的模型过于复杂且缺乏强归纳偏置时,其外推性能会下降(见附录E.3)。

打开网易新闻 查看精彩图片

4.3 实验2:彩色MNIST

设置 彩色MNIST数据集[Arjovsky等人,2019]是标准MNIST数据集的一个扩展,其中类别数量减少到两类(所有标准标签小于5的被分配为新标签0,所有标签大于或等于5的被分配为新标签1)。此外,还故意添加了标签噪声,因此只有75%的情况下,标签才能根据形状正确预测。为了增加难度,图像背景可以采用两种颜色,这两种颜色也与图像标签相关联。在第一个环境中,这种关联性是90%,在第二个环境中是80%。因此,基线模型往往会利用背景进行预测,而不是实际形状。然而,在第三个环境中,这种关联性被颠倒,所以基于背景颜色的模型只能达到10%的准确率——比随机猜测还差。

这个数据集体现了在域内(ID)预测性能与域外(OOD)鲁棒性之间的权衡,如[Arjovsky等人,2019]和[Zhang等人,2023]所讨论。例如,一个仅依赖于物体形状的不变模型将能够抵御域迁移的影响,但代价是在前两个环境中的准确率会降低(从80%或90%降低到75%)。相比之下,基线模型在前两个域中的准确率会更高(80%和90%),但在第三个域中会严重失败(只有10%)。

结果 在这里,我们假设不变模型是已知的(详细情况见附录G),但也可以通过不变学习获得,例如使用不变风险最小化方法[Arjovsky等人,2019]。利用我们新颖的环境检测方法(见第2.5小节),我们可以兼顾两者之长,规避固有的权衡。在识别出域内(ID)设置时,我们使用在观察到的环境中预测性最高的基线模型。在检测到域外(OOD)设置时,我们使用不变模型。我们比较了这种基于我们模型固有的特征hψ(S(n))与基线模型提取的特征来进行模型选择的结果。结果如表1所示。通过利用基于集合摘要hψ(S(n))的模型选择,我们几乎恢复了域内准确率,同时在域外数据上保持了与不变模型相同的性能。显然,这种新颖的环境检测只能与集合摘要一起工作。从单个样本中提取的特征无法提供足够的信息来可靠地检测分布变化,这导致在选择基线模型和不变模型时遇到困难,如表1所示。

4.4 实验3:违反准则的情况

设置 我们考虑了PACS数据集[Li等人,2017],在Cartoons(卡通画)、Sketches(素描)和Paintings(油画)这三个环境下训练我们的模型,并在测试时在Art(艺术品)环境下评估其性能。该数据集包含带有我们打算预测的标签的图像。对于第二个分类任务,我们深入研究了OfficeHome数据集[Venkateswara等人,2017]。与PACS数据集类似,我们处理分类问题,在三个特定环境下进行训练,然后评估一个新的环境作为域外(OOD)场景。

结果 当准则未得到满足时,即使在域内(ID)设置下也无法获得任何好处。这已经在定理2.1中得到了证明,并且我们在这里通过两个场景的实验进行了验证(见图5)。我们发现,在PACS数据集上,准则2.2没有得到满足:如图5a所示,与基线环境模型f_{E|X}相比,上下文环境模型f_{E|X,S^{(n)}}的表现并不更好。值得注意的是,仅通过一个样本就足以推断出源环境,从而能够从一个单独样本中以99.7%的准确率预测出正确的环境(见附录H)。同样,准则2.3也没有得到满足,如图5a所示。由于准则未得到满足,我们既没有在域内设置下获得相对于基线模型的任何好处,也没有在域外设置下获得好处,如图5a所示。

打开网易新闻 查看精彩图片

在OfficeHome数据集上,我们发现准则2.2没有得到满足,而准则2.3得到了满足。结果如图5b所示。我们观察到,集合输入对于预测数据来源环境(对应于准则2.3)是有益的。然而,即使为目标分类器提供了环境标签(环境oracle模型),我们也没有获得相对于基线模型的改进,这表明准则2.2没有得到满足。如图5b所示,与预期一致,我们的方法相比基线模型没有带来好处。

4.5 实验4:失败案例检测

设置 除了未满足的准则外,上下文感知方法可能无法获得益处的另一个原因是分布变化需要进行外推。模型可能无法实现这一点,因此引入拒绝选项是有益的。我们使用BikeSharing数据集[Fanaee-T, 2013]来证明,在夏季或冬季等不同季节代表不同环境的情况下,可能需要进行外推。对于这个数据集,我们考虑的任务是基于天气数据预测一天中出租的自行车数量。在这里,我们探索了除冬季外对所有季节进行训练的场景。有关数据集、预处理步骤和其他场景的详细信息,请参见附录J。

结果 在表5中,我们证明了在域内(ID)设置下,上下文感知方法略优于基线模型。然而,在新的冬季环境中,基线方法和上下文感知方法都出现了性能下降。为了检测新的环境,并因此检测潜在的失败案例,我们根据第2.5小节的建议计算了分数,并评估了它在区分ID与域外(OOD)环境方面的效果。我们指定了一个独立的ID测试集,并使用训练期间排除的环境(这里是冬季)作为OOD集进行评估。表5中的受试者工作特征曲线下面积(AUROC)表明,基于置换不变嵌入的分数能够完美检测新的环境,而标准方法则如预期般失败。

打开网易新闻 查看精彩图片

5 结论

在本研究中,我们的目标是深化对领域泛化中边际迁移学习的理论理解。因此,我们制定了必要且易于实证验证的准则,以确保该方法能够带来益处。此外,我们明确指出了源组件偏移这一场景,在该场景中,上下文感知模型可以发挥优势,从而有助于识别有利的场景。另外,我们还展示了识别新环境的能力,从而能够检测潜在的失败案例。这反过来也支持了模型选择,即选择对域内(ID)数据最具预测性且对域外(OOD)数据最稳健的模型。

https://arxiv.org/pdf/2312.1010