模型误设下贝叶斯最优实验设计的泛化性能分析

Generalization Analysis for Bayesian Optimal Experiment Design under Model Misspecification

https://arxiv.org/pdf/2506.07805v1

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

摘要
在科学和工业的许多场景中,例如药物发现和临床试验,一个核心挑战是在时间和预算限制下设计实验。贝叶斯最优实验设计(Bayesian Optimal Experimental Design, BOED)是一种选择信息量最大设计的范式,近年来已被越来越多地应用于此类问题。在训练阶段,BOED 根据预设的采集准则选择输入。在测试阶段,训练期间学习到的模型会遇到自然出现的测试样本分布。这导致了一种协变量偏移(covariate shift)的情形,即训练样本和测试样本来自不同的分布。先前的研究表明,在模型误设(model misspecification)存在的情况下,协变量偏移会放大泛化误差。我们的第一项贡献是提供了一个泛化误差的数学分解,揭示了在模型误设情况下泛化误差的关键成因。我们指出,误设下的泛化误差不仅源于协变量偏移,还源于一种我们称之为“误差(去)放大”(error (de-)amplification)的现象——这一现象在以往工作中尚未被识别或研究。我们的第二项贡献是提供了详细的实证分析,表明那些能产生具有代表性且具备去放大特性的训练数据的方法,可以提升泛化性能。我们的第三项贡献是开发了一种新颖的采集函数,通过引入一个“代表性”项并隐式诱导去放大效应,来缓解模型误设的影响。实验结果表明,我们的方法在存在模型误设的情况下优于传统 BOED。

1 引言
贝叶斯建模是在数据稀缺或获取成本高昂时进行推断的一种原则性方法。大多数贝叶斯机器学习方法都是在假设真实数据生成过程(DGP)包含在所选模型族中的前提下开发的 [1]。然而,在复杂的现实世界环境中,这一假设很少成立,学习者无法获知真实的 DGP [2, 3]。因此,真实的 DGP 通常位于所假设的模型族之外。模型误设这一现象的不可避免性,被一句略带讽刺意味的名言所概括:“所有模型都是错的”[5, 6]。模型误设的常见原因包括遗漏变量 [7]、对误差项结构的错误认知(例如未能考虑异方差性或自相关性)[8, 9],或选择了信息不足或表达能力不足的模型类 [7, 10]。模型误设的后果包括推断偏差 [8, 11, 12, 13]、不可靠的近似(例如在基于模拟的推断方法中 [14, 15, 16]),以及次优决策 [17, 18]。

已有大量文献研究了在数据独立同分布(i.i.d.)或从学习者希望其推断能泛化的分布中“被动”收集的情况下,模型误设对贝叶斯推断的影响 [19, 20, 21, 4, 22, 23]。然而,由于大规模数据集的广泛可用,主动学习方法的使用变得越来越普遍 [24]。这些方法通过选择训练数据以适配特定的学习目标 [25, 26]。主动学习方法两次依赖于指定的模型:一次用于拟合训练数据的推断,另一次用于选择数据 [27]。因此,模型误设对这些方法具有双重影响,可能在采集函数和最终推断中都引入偏差。特别是在主动学习的背景下,模型误设可能导致低质量的数据集 [28, 29, 30, 31, 26]。理解模型误设的后果对于开发鲁棒的主动学习方法至关重要。

在贝叶斯框架下,贝叶斯最优实验设计(BOED)是一种自然且常用的主动学习方法 [18]。BOED 通过最大化一个称为期望信息增益(expected information gain)的采集函数来选择最优设计,从而在许多应用中实现时间和预算效率 [18, 32],例如药物发现 [33]、临床试验设计 [32]、化学 [34, 35]、生物学 [36, 37] 和心理学 [38, 39]。尽管文献中已承认 BOED 在模型误设情况下的局限性,但仅有少数论文对此进行了研究 [18, 40, 41, 42, 43]。

我们对模型误设下的泛化误差提供了新颖的理论分析。我们的分析表明,能够对模型误设具有鲁棒性的训练数据集具备两个特性:它们代表了目标数据生成分布,并且具有“去放大”(de-amplifying)特性。期望信息增益既不包含代表性项,也不包含去放大项,因此标准 BOED 可能导致既不具代表性也不具去放大特性的训练数据集。从这个意义上说,标准 BOED 对模型误设并不鲁棒。

非代表性训练数据。BOED 选择样本以实现特定目标,而这些样本很可能无法反映学习者希望泛化的分布。换句话说,BOED 引入了一种分布偏移形式,即用于(主动)学习的分布与用于评估的分布不同。近期关于模型误设与分布偏移相互作用的研究提出了“误设放大”(misspecification amplification)的概念 [44],即由误设引起的泛化误差被测试与训练输入分布之间的密度比“放大”。在 BOED 的背景下也观察到了类似现象:在模型误设存在的情况下,某些设置中的泛化误差已被证明同时依赖于模型误设的程度和分布偏移的程度 [41]。

去放大训练数据。正如我们对泛化误差的新颖分解所示,泛化性能不仅取决于训练数据的代表性,还取决于其与模型(误)设定的交互方式:当训练数据最能代表测试分布,并且同时位于模型误设方向“有益”(即减少误差)的区域时,泛化性能得到提升。我们将这一特性称为误差“去放大”(error “de-amplification”),以强调其作用是抵消而非放大误设的影响。

贡献。在本工作中,我们探讨了模型误设下的 BOED 问题,并做出以下贡献:

  • 泛化误差的理论分解。以往工作主要探讨了误设和分布偏移的影响,忽略了去放大设计的作用。我们正式将泛化误差分解为三个组成部分:(1) 误设偏差,(2) 估计偏差,以及 (3) 我们引入的一个新项——误差(去)放大。我们还推导了一个泛化误差的上界,刻画了其对训练数据代表性、去放大程度以及模型误设的依赖关系。
  • 模型误设下 BOED 的实证分析。我们从对模型误设的鲁棒性角度评估了短视(myopic)和非短视(non-myopic)BOED 方法。结果表明,性能差异可由我们分解中的各项解释。我们提供了详细的实证分析支持这一效应:能产生具有代表性且去放大训练数据的方法提升了泛化性能。
  • 通过代表性与去放大构建的新采集函数。我们提出了一种新颖的采集函数,旨在通过识别那些不仅信息丰富、而且具有代表性并隐式具备去放大特性的设计,来缓解模型误设的影响。我们的实验证明,该新采集函数在存在模型误设的情况下优于传统 BOED。

2 预备知识

2.1 问题设定

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2.2 贝叶斯最优实验设计

贝叶斯最优实验设计(Bayesian Optimal Experimental Design, BOED)是一种基于模型的框架,通过最大化关于参数的期望信息量来选择最优设计,从而实现预算和时间效率 [18, 32]。其主要目标是找到一个设计 ξ ,该设计在能够提供关于参数 θ θ最多信息的意义上是最优的。期望信息增益(Expected Information Gain, EIG)用于刻画关于 θ 所获得的信息量 [47, 48]:

打开网易新闻 查看精彩图片

传统 BOED 方法 [49, 50],亦称贝叶斯自适应设计(Bayesian Adaptive Design, BAD),通过反复评估式 (3) 来做出设计决策,并利用贝叶斯推断对迄今为止所获数据进行建模,从而更新底层模型。传统 BOED 在计算上代价高昂,原因在于每一步均需耗费大量计算资源以估计和优化 EIG(ξ) 并更新模型。为缓解这些局限性,已提出基于策略(policy-based)的算法 [43, 51],例如深度自适应设计(Deep Adaptive Design, DAD)[40],该方法通过在一组模拟实验轨迹上训练一个神经网络,实现对设计选择过程的完全 amortization;由此,基于策略的方法消除了逐步在线模型更新的需求,显著降低了计算开销。

2.3 分布偏移

打开网易新闻 查看精彩图片

3 理论结果
3.1 泛化误差的分解

近期研究表明,泛化误差取决于协变量偏移程度(即训练数据在多大程度上不能代表测试分布)与模型误设程度之间的相互作用 [44, 52, 53]。在本节中,我们指出,泛化误差还额外依赖于一种我们称之为误差(去)放大(error (de-)amplification)现象的存在程度。我们证明,泛化误差可被分解为三项,分别反映了误设偏差估计偏差误差(去)放大各自所作出的贡献。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3.2 一个含误差(去)放大项的泛化误差上界

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

我们的结果。定理 3.7 通过显式刻画泛化误差的行为,将 [44] 的结果进行了扩展,其中纳入了误差(去)放大项。在 BOED 的有限训练样本设定下,这一额外项尤为重要,因为它刻画了训练数据与模型误设之间的交互作用如何放大去放大泛化误差。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4 一种新颖的采集函数

利用定理 3.7 所提供的洞见,我们设计了一种采集函数,该函数能够识别出既具有代表性又具备去放大特性的设计,同时还能提供关于感兴趣参数的信息。尽管该采集函数并未包含一个显式的去放大项(因为这一性质在实践中不可计算;参见备注 3.9),但我们的实证结果表明,它仍然倾向于比其他 BOED 方法选择更多具有去放大特性的样本。为了度量两个数据集所隐含分布之间的距离,我们采用最大均值差异(Maximum Mean Discrepancy, MMD)。

为应对协变量偏移,我们通过引入一个基于 MMD 的修正项对标准 EIG 采集函数进行修改。其核心思想是鼓励选择那些不仅具有高信息增益,而且有助于减小训练点与测试点分布之间差异的设计点。具体而言,我们采用如下形式:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5 实验

本节包含对比实验与分析,旨在探究在模型误设存在的情况下,何种算法在两种实验范式(一个玩具示例与一个源位置定位范式)中表现最优。我们还通过实验对第 3 节中的理论结果进行了经验性验证。

我们比较以下方法:

  • 随机策略(Random strategy):从测试分布中随机选择设计;
  • 贝叶斯自适应设计(Bayesian Adaptive Design, BAD)[49]:依据传统 BOED 策略逐次选择设计,即在实验的每一步进行选择;
  • 深度自适应设计(Deep Adaptive Design, DAD)[40]:依据一种基于策略的 BOED 算法选择设计,即对整个设计过程进行完全 amortized(离线训练);
  • 修正版 BAD(Adjusted BAD, BAD-Adj.):依据我们提出的新型采集函数选择设计。

除我们新采集函数的相对性能外,我们亦关注模型误设如何影响 BAD 与 DAD 算法的性能差异。BAD 的迭代范式可使其在每次迭代中直接与真实 DGP 交互,从而在模型误设时获得适应机会;相比之下,DAD 为离线训练,无法通过与真实 DGP 的交互进行适应。

5.1 玩具示例

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

代表性与泛化误差之间的关系:图 1 表明,在正确设定情形下,所有方法均产生相似的泛化误差(图 1d),无论协变量偏移程度如何(图 1a)。这表明,当模型正确设定时,协变量偏移不会显著影响泛化性能。然而,在模型误设情形下,协变量偏移对模型性能产生负面影响。如图 1a 所示,BAD 所诱导的协变量偏移程度高于随机方法所诱导的程度(图 1a)。这种更高的协变量偏移程度转化为更大的泛化误差(图 1d)。这表明,在模型误设存在的情况下,非代表性设计(即更大的协变量偏移)会降低模型性能。图 1b 和图 1e 展示了我们的采集函数在不同 λ λ 取值下的性能表现。对于较大的 λ λ 值,我们预期代表性项将主导采集函数,从而产生一个接近测试分布的设计分布。图 1b 显示,当设计更具代表性时,泛化误差降低(图 1e),这与定理 3.7 中的理论预测一致。这些结果再次证明:具有代表性的设计能有效减小估计偏差并提升泛化性能。

降低误差放大的能力:为说明命题 3.2 中各项在每个设计点上的行为,我们选取 20 次运行中的某一次,在完成 10 步实验后,计算误差分解中的每一项,并将各值绘制于设计范围 [ − 4 , 4 ]上。相关结果见图 2。

打开网易新闻 查看精彩图片

在训练阶段,随机策略(Random strategy)选择具有代表性的设计,但未包含任何针对(去)放大效应的项。如图 2a 所示,该策略有时会偶然选中去放大设计(蓝色线取正值),从而导致误差(去)放大项在所有训练设计上的期望值略为负值。

相比之下,BAD 与 DAD 所采用的采集函数均未显式包含对应于(去)放大或代表性的项。图 2b 与图 2c 表明:尽管如此,这些方法所选择的设计在训练数据上总体仍导致一个负的放大项(即倾向于放大)。尽管 DAD 相较于 BAD 选择了更具代表性的设计,但总体而言,DAD 所选设计比 BAD 所选设计更具放大性(对应蓝色线的取值更低于零)。这与定理 3.7 的结论一致,并如图 1a 所示,导致 DAD 在测试分布上产生更高的泛化误差。

图 2d 显示,我们提出的方法 BAD-Adj 所生成的训练集同时包含放大与去放大设计,表明尽管我们提出的采集函数并未直接针对去放大区域进行优化,但它选择去放大设计的概率仍高于 BAD 或 DAD。图 2d 还显示,BAD-Adj 所选设计诱导出的整体(取)放大程度接近于零。这些结果表明,与随机策略类似,BAD-Adj 有时也会偶然选中去放大设计。上述结果共同说明:选择去放大设计有助于降低泛化误差(如图 1e 所示),这与定理 3.7 中建立的理论结果一致。

5.2 声源定位实验

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

6 结论

本文探讨了模型误设对 BOED 方法的影响。与以往仅关注训练样本代表性的研究不同,我们引入了一个新术语——“误差(去)放大”(error (de-)amplification),并刻画了“(去)放大”样本对模型误设鲁棒性的贡献。

局限性与未来工作本研究的一个局限在于,主要贡献依赖于定理 3.7 所提供的洞见,而该定理仅给出了泛化性能的一个上界。该上界在多大程度上反映实际泛化性能,取决于这些界是否紧致(tightness)。因此,评估这些界的紧致性是未来工作的一个重要方向。

另一项局限在于,我们所提出的采集函数未显式纳入对放大风险的度量。与代表性不同,学习者无法评估训练样本在多大程度上具有(去)放大特性,因为这需要获知(未知的)最优拟合近似。本工作一个显而易见的拓展方向是:探究是否可利用非参数模型来捕捉模型的误设情况,从而以一种原则性和自动化的方式指导(去)放大设计的选择。

原文: https://arxiv.org/pdf/2506.07805v1