广义贝叶斯推理下的稳健实验设计

Robust Experimental Design via Generalised Bayesian Inference

https://arxiv.org/pdf/2511.07671

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

摘要

贝叶斯最优实验设计是一种基于原则的实验框架,它利用贝叶斯推断来量化从选择某一特定设计中预期能获得多少信息。然而,准确的贝叶斯推断依赖于一个假设:即我们对数据生成过程所采用的统计模型是正确设定的。如果这一假设被违反,贝叶斯方法可能导致糟糕的推断和对信息增益的错误估计。广义贝叶斯(或吉布斯)推断是一种更具鲁棒性的概率推断框架,它用一个合适的损失函数替代贝叶斯更新中的似然函数。在本工作中,我们提出了广义贝叶斯最优实验设计(GBOED),这是将吉布斯推断扩展到实验设计场景的方法,在设计与推断两方面均实现了鲁棒性。借助一个扩展的信息论框架,我们推导出一种新的采集函数——吉布斯期望信息增益(Gibbs EIG)。我们的实证结果表明,GBOED 能够增强对异常值和关于结果噪声分布错误假设的鲁棒性。

1 引言

许多现实场景在数据收集方面受到严重的资源和时间限制。在这种情况下,有效的学习要求从业者仔细选择这些稀缺的数据,以最大化其学习目标。贝叶斯(最优)实验设计(BOED)正是用于在此类场景中优化数据获取的框架(Atkinson 和 Donev, 1992;Ryan 等, 2016;Rainforth 等, 2024;Huan 等, 2024)。该框架已在众多学科中得到应用,例如系统生物学(Busetto 等, 2013;Pauwels 等, 2014)、心理学(Myung 等, 2013;Valentin 等, 2021)以及(医学)成像(Karimi 等, 2021;Hyvönen 等, 2024)。

BOED 利用贝叶斯推断来更新关于感兴趣参数的信念(Rainforth 等, 2024)。其关键假设是:数据由一个结构已知的统计模型生成,只是在某些(未知的)参数取值下运行。贝叶斯推断的目标是通过观测数据构建后验分布,从而识别这些参数值。

BOED 将贝叶斯推断进一步扩展,用于指定建模者希望如何分配资源以设置实验设计。在 BOED 中,建模者选择使某个目标函数(效用函数)最大化的实验设计,从而根据该目标最优地开展实验。最优设计取决于真实世界的状态,而我们对此状态并不确定;贝叶斯推断为此不确定性提供了连贯的建模方法。一种常见的效用函数是期望信息增益(Lindley, 1956),它评估了关于感兴趣参数所能获得的预期信息量。因此,在 BOED 的背景下,建模者两次依赖模型:一次用于设计实验,另一次用于进行推断。

假设所采用的统计模型是良好设定的——即该模型能够准确捕捉真实的数据生成过程(DGP)——这一假设在现实世界中常常被打破。当领域知识准确可用时,科学家通常会选择用简单且易于处理的模型来表示这些知识,但由于科学上的不确定性或为了可解释性,这些模型会忽略现实的某些方面。而很多时候,准确的领域知识根本就不可得。

模型误设(model misspecification)指的是由于有意简化和/或缺乏领域知识,导致所采用的统计模型无法完全捕捉真实 DGP 的情况(Walker, 2013)。即使在标准数据收集场景中,模型误设也会对通过贝叶斯框架进行的推断产生不利影响(Berk, 1966;Kleijn 和 van der Vaart, 2012)。在 BOED 情境下,它还可能通过提供无信息量或误导性的设计选择,影响设计序列的最优性(Vincent 和 Rainforth, 2017;Sloman 等, 2022;Tang 等, 2025)。

图 1 展示了模型误设对 BOED 有效性可能造成的损害。上排展示了在一个旨在定位两个信号发射物体(红色十字)的实验中,BOED 在整个实验过程中所选择的设计,这些设计基于在预定义网格上选定位置测得的信号强度。当模型设定良好时,BOED 选择的设计会聚集在物体周围,为实验者提供充足信息以精确定位物体。相反,当模型误设时,所选设计却聚集在没有物体存在的区域。由于误设模型无法准确评估某一位置所能提供的信息量,其所指导的设计选择方法反而使实验者逐步远离目标物体。

打开网易新闻 查看精彩图片

一种对模型误设具有鲁棒性的设计选择方法,将不容易被不准确的模型误导。图 1 的下排展示了我们提出的方法——广义 BOED(GBOED)所选择的设计序列。由于 GBOED “意识到”其所依据的模型在评估潜在信息增益方面能力有限,因此它会探索更广泛的设计空间,即它所选择的设计不像 BOED 那样频繁地聚集在单一区域。

尽管 BOED 中的模型误设问题已受到相当多的关注,但相比之下,很少有研究探讨广义贝叶斯推断(或吉布斯推断;Bissiri 等, 2016;Knoblauch 等, 2022)在实验设计背景下的应用,尽管它在更新关于感兴趣参数的信念时对误设统计模型具有鲁棒性。在吉布斯推断中,一个损失函数取代了传统贝叶斯更新中的似然函数。吉布斯推断作为贝叶斯推断在模型误设情况下的替代方案,已展现出有前景的理论和实证结果(Knoblauch 等, 2022;Martin 和 Syring, 2022)。

在本工作中,我们将吉布斯推断扩展到实验设计场景,将吉布斯框架同时应用于设计选择和参数推断。我们引入了广义贝叶斯最优实验设计(GBOED),这是一个利用吉布斯推断应对模型误设的新框架。其实现需要用户指定一个损失函数,以应对诸如数据中的异常值等挑战。我们考虑了加权得分匹配损失(Altamirano 等, 2024),该损失函数特别适用于实验设计这类序列化应用场景,并提出了一种该函数的新参数化形式。

我们的贡献可概括如下:

  1. 我们提出一种广义的贝叶斯最优实验设计(BOED)框架——GBOED,旨在应对模型误设问题。
  2. 我们引入若干新颖、非传统的信息论概念,使我们能够使用在吉布斯推断中出现的、违反概率密度函数性质的测度。
  3. 我们推导出期望信息增益的一种广义形式,我们将其命名为“吉布斯期望信息增益”(Gibbs expected information gain),并给出近似该效用的若干方法。
  4. 最后,我们提供多项实证结果,详细说明在何种条件下使用 GBOED 优于传统 BOED,以及使用我们所提出的效用函数优于其他替代方案。

2 预备知识

2.1 记号
加粗的大写希腊字母或拉丁字母表示随机变量(rvs)(例如,Θ 是分配给参数空间的随机变量)。随机变量的实现用加粗小写字母表示(例如,θΘ 的一个实现)。集合用花体大写字母表示(例如,Θ 可取参数空间 中的值)。ₚ₍ₓ₎[()] 表示函数 () 关于(关于)概率密度函数(pdf) 对变量 的期望。未加粗的大写希腊字母或拉丁字母表示概率分布。

2.2 贝叶斯推断
实验者选择设计 ,以产生输出数据 。 取值的随机性由随机变量 刻画。他们并不知道 所服从的真实分布,但假定其形式为似然函数 ( ∣ , )。我们将该假设性似然函数称为统计模型。

在贝叶斯推断中(Gelman 等,2013),学习者为其关于参数值 ∈ 的初始信念赋予先验密度 ()。随后,他们基于新观测到的数据 ∣ ,将该先验更新为后验密度 ( ∣ , )。

更具体地说,贝叶斯后验分布的概率密度函数为

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2.3 贝叶斯最优实验设计

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

可验证的是,期望信息增益(EIG)等价于参数 Θ 与数据 Y ∣ ξ 之间的互信息(Rainforth 等,2024)。通过选择使 EIG 最大的设计 ξ*,目标在于高效利用实验资源,以减少关于 Θ 的不确定性。传统 BOED 通过每次获得一个新的“设计–观测”对时执行一次后验更新来实现该过程。

请注意,实验者在计算 EIG 时以及在计算贝叶斯后验时,均两次依赖统计模型 p ( y ∣ θ , ξ ) :一次用于计算 EIG,另一次用于更新关于 θ 的信念。当模型设定良好时,此双重依赖已被证明是一种有效的信念更新程序(Zellner, 1988;Paninski, 2005)。然而,当模型存在误设时,这种双重依赖会同时损害 BOED 在拟合已有数据和收集新数据两方面的有效性(Rainforth 等,2024),其后果可能是实验资源的浪费和/或产生误导性的推断。

打开网易新闻 查看精彩图片

广义似然使损失函数能够提供关于数据的信息,从而在吉布斯后验更新中赋予某些参数取值更高的权重。当统计模型可用时,可通过设学习率 ω = 1
并令 ℓ θ ( ξ , y ) = − log ⁡ p ( y ∣ θ , ξ )来恢复贝叶斯推断(Zellner, 1988)。当模型设定良好时,此方法是最优的。在可能存在误设的情形下,已有研究探索了若干特定类型的损失函数,旨在提升对误设模型的鲁棒性(参见 Knoblauch 等,2022 提供的损失函数综述)。

尽管损失函数本身无需依赖统计模型,但在许多情况下,该模型仍包含部分有效信息。例如,它可能捕捉到一种被异常值污染的一般趋势。在此类情形下,实验者通常希望其推断能反映模型中所包含的信息。依赖于统计模型的损失函数可称为“评分规则”(scoring rules)(Dawid 和 Musio, 2014;Giummolè 等, 2018)。本文考虑评分规则,因其既能从模型中提取相关信息,又能同时实现鲁棒推断。

2.5 评分规则

本文所研究的评分规则包括幂似然(power likelihoods)(Holmes 和 Walker, 2017;McLatchie 等, 2025)与评分匹配(score matching)(Barp 等, 2019;Matsubara 等, 2023;Altamirano 等, 2023)。有关我们所用评分规则的更多细节,见附录 C。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3 广义贝叶斯最优实验设计

我们提出的框架——广义贝叶斯最优实验设计(GBOED)——是将 BOED 扩展至广义贝叶斯推断场景的框架。在传统 BOED 中,我们旨在选择设计 ξ ∗ ,以最大化贝叶斯期望信息增益(BEIG)。而在 GBOED 中,我们采用广义贝叶斯推断来更新关于感兴趣参数的信念,因此“所获信息量”成为吉布斯后验的函数。本文中,我们引入吉布斯期望信息增益(Gibbs EIG),即在吉布斯推断框架内对期望信息增益的度量。定义 8 表明,与 BEIG 类似,我们的 Gibbs EIG 定义可被解释为:从吉布斯后验到先验的 KL 散度。定理 1 则表明,Gibbs EIG 的计算避免了对昂贵的后验计算的依赖,从而提升了效用函数的可计算性。

全文中,我们假设可访问一个(可能误设的)模型 p ( y ∣ θ , ξ ) ,正如在传统贝叶斯推断中那样。该假设用于定理 1 中 Gibbs EIG 的可 tractable 计算,并用于我们所选用的评分规则——其目的正是使推断对模型误设具有鲁棒性。

3.1 补充记号

第 2.3 节引入了 KL 散度,用于量化贝叶斯框架下期望信息增益的大小。我们的目标是构建一个适用于吉布斯推断的类似度量。然而,“期望信息增益”这一概念要求对结果分布进行期望运算;而在贝叶斯推断中,该期望分布由边缘分布 p ( y ∣ ξ )
和条件分布 p ( y ∣ θ , ξ ) 共同导出(二者均源于似然函数)。在吉布斯推断中,由于缺乏似然函数,无法定义期望结果分布,导致第 2.3 节中的 BEIG 不再适用。因此,为在吉布斯框架下合理讨论“预期获得的信息”,我们除广义推断框架外,还需引入一个广义的信息论框架。

令式 (2) 的分母称为边缘广义似然(marginal generalised likelihood),记作 π ~ ( y ∣ ξ )

。全文中,我们使用波浪号(tilde)表示那些刻画隐含随机过程的量,我们称其为伪随机变量(pseudo-random variables, pseudo-rvs)。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3.2 吉布斯信息的度量
我们的第一个挑战是在吉布斯推断框架内定义类似于“信息论”的意外性(unexpectedness)和散度(divergence)度量。这些度量使得我们能够基于损失函数构建效用函数,而这些效用函数可在无需计算昂贵归一化常数的情况下进行评估(参见附录 B)。

打开网易新闻 查看精彩图片

3.3 吉布斯期望信息增益

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3.4 IMQ 参数的指数衰减

回顾第 2.5 节,加权评分匹配损失使用一个 IMQ 核函数来削弱观测值的影响,而该核函数中“某次观测是否为异常值”的判定主要取决于核参数的选择(Altamirano 等, 2024)。为调节 IMQ 核的参数,并使其能根据某次观测是否为异常值而动态调整其影响,Laplante 等(2025)提出:应基于后验预测均值与标准差,分别指定中心函数 γ γ 与收缩函数 c c。

在大数据场景下,后验标准差(即后验估计的精度)通常与后验均值的偏差(即后验估计的准确性)密切相关。然而,在驱动实验设计方法的小数据场景中,精度与准确性的关系可能截然不同:后验方差通常随每次更新而减小(即精度提高),而后验预测方差(控制我们对观测值的降权程度)也随之减小。在所选先验对数据生成值 θ θ赋予较低先验概率的情形下,精度的增长速度往往快于准确性的提升:此时需要更多后验更新才能识别出真实的 θ θ 值,而非大幅降低后验方差。在初始实验阶段,后验均值可能是一个对数据中心位置的较差估计;若收缩函数 c c 衰减过快,我们将对一个不可靠的预测均值赋予过高置信度。

应对这一问题的一种方法是:采用一种不同的自适应策略选择 c c,而不依赖于后验预测分布(原因已在前文说明)。我们采用指数衰减方式选择 c c:在实验开始时将其初始化为一个预设值,并按预定时间表在其后的实验过程中逐步减小。更具体地,我们的指数衰减方法按如下公式计算第 i i 次实验的 c c 值:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4 相关工作

已有多种方法被提出用于应对 BOED 中的模型误设问题。其中许多方法属于“M-闭合”(M-closed)设定,即假设真实模型存在于一个已知的可能模型集合之中。BOED 可应用于从该集合中选择最能解释数据的模型(Cavagnaro 等, 2010;Hainy 等, 2022)。类似地,也可通过修改效用函数,使其对整个模型集合具有鲁棒性——例如,对由该模型集合生成的数据取期望(Catanach 和 Das, 2023)。另一种方法是在某个单一的替代模型下对效用函数取期望,该替代模型被认为能更好地捕捉真实的数据生成过程(DGP)(Overstall 和 McGree, 2022)。最后,还可采用另一种采集函数来选择设计,以增强对模型误设的鲁棒性(Forster 等, 2025;Tang 等, 2025)。相比之下,GBOED 不仅在实验设计上具有鲁棒性,还通过广义贝叶斯推断在参数推断上也实现了鲁棒性。

利用吉布斯推断进行实验设计的想法最早由 Overstall 等人(2023)提出。然而,他们的框架要求提供一个被称为“设计者分布”(designer distribution)的替代模型。该分布被假定具有足够的灵活性且接近真实 DGP,并允许通过从该分布中抽样来计算期望效用。这种方法的问题在于,这一假设通常不成立:我们往往无法选择一个确信接近真实 DGP 的模型。我们的方法避免了这一假设,而是利用吉布斯推断(基于一个可能误设的统计模型)将鲁棒性引入实验设计过程。在此,我们承认:尽管存在误设,该统计模型仍可能包含对实验者有用的信息,代表了我们对现实运作机制的最佳理解。这使得我们可以使用能够直接利用统计模型的损失函数进行吉布斯推断,特别是通过评分规则(scoring rules)(Dawid 和 Musio, 2014;Giummolè 等, 2018)。此外,我们采用信息论方式,基于吉布斯测度计算期望效用,而非像 Overstall 等人(2023)那样直接对统计模型取期望(关于我们的方法与 Overstall 等人(2023)方法的比较,见附录 B.3)。

我们的方法与 Overstall 等人(2023)的另一区别在于:Overstall 等人对吉布斯后验采用了正态近似——该近似既用于推断,也用于计算期望效用。尽管在某些误设情形下,正态近似是可行的(参见 Bochkina, 2023 的综述),但这类近似通常要求拥有足够大的数据集才能有效。而在实验设计场景中,这一大数据要求通常无法满足。

5 实验

我们在三个难度各异的实验设计问题上,对 GBOED 与标准 BOED 方法进行了实证比较。在线性回归设定中,学习者假设一个带有高斯误差的线性模型,并选择协变量以估计系数。在药代动力学(pharmacokinetics)设定中,学习者使用一个药代动力学(PK)模型(Ryan 等, 2014)研究药物浓度随时间的变化,通过为小规模患者队列选择给药时间来学习模型参数。定位(location finding)设定则构成一个高维挑战:任务是从选定位置观测到的信号强度推断两个物体在 d 维空间中的位置(离物体越近,信号越强)。

我们进一步在两种模型误设场景下测试了鲁棒性:非对称异常值(Asymmetric Outliers,即被异常值污染的数据)和误设的误差方差(Misspecified Error Variance,即噪声模型错误)。与 Overstall 等人(2023)采用后验正态近似不同,我们选择使用(广义)变分推断(Knoblauch 等, 2022)。在此方法中,指定一个变分族(variational family),并用该族中最接近真实后验的成员对其进行近似。相关实验细节及其他信息见附录 E。学习率 ω ω 的选择细节见附录 D。

我们展示了在不同损失函数下所提出的 GBOED 框架(Gibbs EIG + Gibbs 推断)的结果,有助于理解每种损失函数的优势。我们还进行了消融研究,以理解使用新提出的 Gibbs EIG 进行设计选择的效果:我们还将 GBOED 与结合其他采集函数的 Gibbs 推断进行了比较。在表格/图中,“Random” 和 “BEIG” 分别表示在指定损失函数下,结合 Gibbs 推断的随机设计选择和基于 BEIG 的设计选择。此处的比较隔离了推断方法、采集函数和损失函数各自的影响,从而明确哪些因素驱动了性能表现。

每种方法的性能通过以下指标评估:均方根误差(RMSE)、最大均值差异(MMD;Gretton 等, 2012),以及预测分布抽样值与真实 DGP 抽样值之间的(负)对数似然(NLL)(更多细节见附录 F)。我们还提供了定性性能描述,例如图 1 所示。

结果总结:在模型设定良好的情况下,GBOED 与 BOED 相当,仍能提供相对可靠的推断。这在(不太可能的)模型良好设定情形下是有益的。由于 GBOED 是专门为应对模型误设而提出和设计的,我们在此聚焦于误设情形。关于良好设定情形的进一步讨论见附录 G.1。

图 2、表 1 及附录 G.1 的结果表明,当使用精心选择超参数的评分规则时,GBOED 相比 BOED 能带来更优的预测性能。总体而言,GBOED 在处理模型误设方面比 BOED 更有效。我们的消融研究表明,在至少两个实验设计问题中,GBOED 的性能优势可归因于 Gibbs EIG 和 Gibbs 推断的共同作用。特别是,当采用加权评分匹配——其中 c c 按照我们提出的指数衰减方法或 Laplante 等人(2025)的方法选择时——性能最佳。在线性回归的图 2 结果中,我们提出的指数衰减方法优于 Laplante 等人(2025)的 IMQ 参数调优方法,因为其 c c 值是逐步下降而非快速下降。当模型函数形式的真实后验与初始先验相差较远时,这一点尤为有用;而当两者接近时,指数衰减方法仍与 Laplante 等人(2025)的方法具有竞争力。附录 G 包含了完整的结果集和额外细节。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

隔离 Gibbs EIG 的作用:在存在模型误设的情况下,Gibbs EIG 在线性回归和 PK 设定中带来了比使用 BEIG 或 Random 更好的预测性能(见图 2)。这可能是由于设计选择与参数推断相互补充(BEIG 使用贝叶斯后验,Gibbs EIG 使用吉布斯后验),也可能是因为 Gibbs EIG 所查询的设计更能应对观测误差。在定位问题中,随着维度升高,性能表现随采集函数的选择而变化,但当 d = 2
时,Gibbs EIG 平均优于 BEIG(见表 1)。附录 G.3.2 提供了进一步结果,表明:若使用 BOED 获取数据集后再进行 Gibbs 推断,并不能获得最优预测性能。换言之,在实验过程中主动使用 GBOED,而非先用 BOED 再对最终数据集进行 Gibbs 推断,可显著提升性能。

Gibbs EIG 的探索行为:在缺乏先验知识时,随机查询设计(完全探索)是一种自然策略,在模型误设下可能优于 BEIG(Sloman 等, 2022;Tang 等, 2025)。我们将定位问题中 Random 与 Gibbs EIG 的定性比较留至附录 G.5.3,其中表明 Gibbs EIG 的探索性依赖于所选损失函数。总体而言,Gibbs EIG 展现出强大的探索能力,可通过调节学习率 ω ω 进一步增强。在线性回归设定中,BEIG 倾向于选择设计空间边缘处的设计,而 Gibbs EIG 则倾向于远离边缘进行查询。附录 G.3.4 和 G.4.3 分别展示了线性回归和 PK 设定中 Gibbs EIG 在设计空间上的分布。

我们可通过图 1 直观地观察 BOED 与 GBOED 在定位问题中的探索行为,这提供了对“所构建数据集质量”的另一种视角,而非仅依赖预测性能指标进行判断。我们发现,当数据流中存在异常值时,BOED 所选设计会聚集在设计空间的错误区域(右上图)。而 GBOED 能够避免这种聚集,转而在可能遭遇异常值的区域进行更多探索。这种探索行为反过来防止了 BOED 所表现出的预测性能下降。相比之下,尽管 Laplante 等人(2025)的方法在我们的指标上得分较高,但通过指数衰减获得的数据集探索了更广泛的设计空间(见附录 G.5.3)。

高维下的 GBOED:随着待学习设计与参数的维度 d 上升,GBOED 比 BOED 更强大。表 1 包含了使用 Laplante 等人(2025)方法进行 GBOED 的结果,我们发现该方法在预测性能上最强。有趣的是,这一现象在良好设定和误设情形下均出现。

然而,我们的消融研究表明,性能差异可能源于 Gibbs 推断本身,而非 Gibbs EIG:Gibbs EIG 并不总是在结合 Gibbs 推断时优于其他采集函数。当学习率较小时(导致计算出的后验对先验的偏离较小),GBOED 的性能会提升,这可能使 Gibbs EIG 相对于其他方法更具优势(见附录 G.5.2)。

在处理异常值方面,2D 定位问题中随机选择设计似乎表现最佳,这可能是因为设计空间受限。但随着 d 增大,这一优势不再成立。另一方面,当噪声模型错误时,使用 BEIG 的表现优于 Gibbs EIG 和 Random,表明此时重度利用(exploitation)更有利。Ivanova(2024)指出,我们用于近似后验的变分推断在定位问题中远非最优,尤其在短视地最大化 EIG 时更是如此。避免使用变分推断可能会提升 GBOED 的性能,因为这或许正是 BOED 即使在良好设定情形下也失败的原因(如表 1 所示)。

6 讨论

我们提出了 GBOED,一个在模型误设情况下进行序列实验设计的框架。GBOED 利用广义贝叶斯推断以改进参数推断,并使用吉布斯期望信息增益(Gibbs EIG)来选择最优的实验设计序列。实证结果表明,与先前文献一致,在模型误设存在时,贝叶斯期望信息增益(BEIG)会导致次优性能。在这些情形下,Gibbs EIG 促使对设计空间进行更充分的探索,通常能比 BEIG 产生更具鲁棒性的设计选择和推断。借助该框架,科学家现在即使面对可能误设的模型,也能同时稳健地选择实验设计并进行推断。

我们的框架并非没有局限,这些局限可在未来工作中加以解决。首先,定理 1 中的重要性采样机制在统计模型不适合作为计算 Gibbs EIG 的提议分布时可能带来不良后果,导致高方差和数值不稳定性。此时,人们或许希望采用一个更合适的替代分布作为提议。评分匹配及许多其他评分规则与统计模型紧密相关,从而降低了出现此类问题的可能性。其次,我们可以采用更好的近似方法来计算 Gibbs EIG,因为已知 NMC 估计器收敛速度较慢,可被变分估计器所替代(Foster 等, 2019)。第三,GBOED 依赖于一个精心选择的学习率;目前我们仍缺乏适用于实验设计场景的学习率选择方法。最后,如定位问题所示,我们的框架在复杂且高维的实验设计问题中不易扩展。近期在摊销(amortisation)和学习策略方面的进展(Foster 等, 2021;Blau 等, 2022)有助于实现非短视(non-myopic)的设计选择,但仅有少量工作探讨了在摊销实验设计设定下(先验和/或模型)误设与泛化能力的问题(Ivanova 等, 2024;Barlas 和 Salako, 2025;Tang 等, 2025)。

原文链接:https://arxiv.org/pdf/2511.07671