在线精确校准贝叶斯优化|拟合|显式|神经网络|算法|贝叶斯

Online Sharp-Calibrated Bayesian Optimization

在线精确校准贝叶斯优化

https://arxiv.org/pdf/2605.10572

摘要

贝叶斯优化（BO）是一种广泛使用的优化昂贵黑盒函数的框架，通常基于高斯过程（GP）代理模型。其有效性依赖于在整个 BO 轨迹上既精确（信息量大）又校准良好的不确定性量化。在实践中，GP 核超参数是未知的，并且会从顺序收集的（非独立同分布）数据中在线重新拟合，这可能导致不确定性校准不良或过于保守，并且超出了标准 BO 遗憾理论中固定核的假设。我们提出了在线精确-校准贝叶斯优化（OSCBO），这是一种 BO 算法，通过将超参数选择构建为受约束的在线学习问题，自适应地平衡 GP 的精确度和校准度。我们还表明，OSCBO 通过利用底层在线学习算法的理论保证，保持了次线性遗憾界。在经验上，OSCBO 在合成和现实世界基准测试中表现具有竞争力，在最终简单遗憾方面位列最强方法之一，同时保持了稳健的累积遗憾表现。

1 引言

许多现代设计问题归结为在严格的评估预算下优化昂贵的黑盒函数。贝叶斯优化（BO）通过维护一个概率代理模型来解决这一场景，通常是带有选定核的高斯过程（GP），其后验均值和不确定性由采集函数组合以选择新的评估点 [14]。这种由不确定性驱动的采样已在材料、生物学和机器人等多样领域实现了高效优化 [8, 30]。

BO 的核心理论视角是遗憾（regret），它衡量了随着评估预算的增长，算法接近全局最优的速度有多快。对于基于 GP 的 BO，遗憾分析将高概率 GP 不确定性界与 GP-UCB [29] 等策略的探索-利用行为相结合。然而，这些结果几乎总是假设在整个 BO 循环中 GP 核是固定的，或者等价地，假设由核超参数诱导的再生核希尔伯特空间（RKHS）是固定的。在实践中，超参数是在线重新拟合的（例如，通过最大化边际似然）。这改变了不确定性估计和隐含的函数类，导致标准 BO 实践与现有遗憾理论之间的不匹配。

在每次 BO 迭代中广泛重新拟合 GP 超参数的做法表明，超参数选择是优化循环的核心部分。由于超参数塑造了后验不确定性，它直接决定了采集值，从而决定了下一次评估。基于校准在序贯决策中处于核心地位的观点 [11]，我们将经典的探索-利用原则重新表述为预测不确定性的校准度与精确度（sharpness）之间的权衡。校准度询问 GP 置信区间是否在自适应查询序列上达到其名义覆盖率，通过覆盖率差距来量化；而精确度则测量置信区间的宽度。过于保守的不确定性可能保持校准但会减缓利用；过于自信的不确定性虽然精确但校准不良，可能触发过早的利用。因此，在在线超参数自适应过程中显式地平衡校准度和精确度，提供了一种原则性的方法，在实验成本高昂时避免校准不良和过度保守。

一个关键的复杂因素是 BO 数据是非独立同分布（non-i.i.d.）的：查询点是根据过去的观测和当前模型自适应选择的。在独立同分布采样下，边际似然超参数拟合可被解释为优化一个适当评分规则，这与概率预测的校准-精确度范式相一致 [16]。在自适应查询下，这种一致性可能会失效：采样分布随算法而变化，因此标准的超参数拟合或基于独立同分布的重新校准都无法保证沿优化轨迹的不确定性可靠 [11]。这促使我们将超参数选择视为序贯决策问题的一部分，在自适应数据收集下显式控制校准度和精确度。

贡献。 我们提出了在线精确-校准贝叶斯优化（OSCBO），一种在自适应、非独立同分布数据收集下通过权衡精确度和校准度来在线调整 GP 核超参数的方法。基于具有长期约束的在线学习 [7]，OSCBO 将超参数选择构建为一个受约束的在线问题，在促进窄置信区间的同时控制累积覆盖率违规。当与上置信界（UCB）策略结合使用时，OSCBO 保留了次线性遗憾保证。我们的贡献如下：

• 概念上： 我们通过精确度-校准度的视角重新解释了探索-利用及其产生的遗憾保证。

• 方法上： 我们提出了 OSCBO，一种原则性的在线超参数选择方案。它在非独立同分布采样下积极促进精确的不确定性量化，同时确保长期校准误差不超过指定阈值。

• 理论上： 我们表明 OSCBO 通过利用底层在线算法的遗憾保证，实现了次线性遗憾界。

• 经验上： 我们在合成和现实世界基准测试上评估了 OSCBO，表明它在最终简单遗憾方面位列最佳方法之一，并且在累积遗憾方面保持稳健。

2 相关工作

未知超参数下的 BO。 越来越多的研究探讨了当 GP 超参数未知且必须在线学习时的 BO，放松了经典遗憾界背后的固定核/再生核希尔伯特空间（RKHS）假设。一个典型的例子是核长度尺度，它控制相关范围，从而决定有效平滑度。[4]（A-GP-UCB）和 [38]（LB-GP-UCB）提出了具有遗憾保证的原则性长度尺度自适应方案，旨在确保诱导的 RKHS 最终足够丰富以包含目标函数。相关结果涵盖了具有固定平滑度的 Matérn 核 [23]，而互补的方法使用元学习从先前任务中初始化超参数 [35, 13]。我们的工作也针对迭代重新拟合下的遗憾，但遵循不同的原则：选择超参数以管理沿 BO 轨迹的校准与精确度（sharpness）权衡。

自适应 BO 下的校准与重新校准。 最近的研究探讨了 BO 的校准不确定性，更广泛地说，探讨了在分布偏移和对抗性选择数据下的序列预测。在 BO 中，[31] 将 GP 后验与共形预测相结合，以在协变量偏移下生成校准的预测集，而共形方法更广泛地将覆盖率保证从独立同分布设置扩展到分布偏移和自适应数据收集 [33, 15, 3, 1]。作为补充，[10] 提出了一种基于修改后的分位数损失（pinball loss）的在线事后重新校准规则，而 [11]（OCBO）在任意对手下（包括序列数据）提供了校准保证。精确-校准高斯过程（SCGP）[6] 也使用精确度-校准目标学习 GP 不确定性参数，但它们是为校准回归而非自适应 BO 设计的：它们依赖于训练/校准数据划分，并针对固定置信水平的预测集进行校准，而不是沿优化轨迹优化 BO 采集函数。这些方法主要针对校准的预测不确定性或分位数/CDF 的重新校准，并未直接解决任意 BO 采集函数内部 GP 超参数选择的在线校准-精确度权衡问题。相反，我们在线调整 GP 超参数以优化精确度，同时在 BO 轨迹上控制长期的覆盖偏差（miscoverage）。

带约束与动态环境的在线学习。 BO 中的超参数自适应可被视为具有长期约束的在线学习，其中学习者在优化目标的同时控制累积的校准违规。因此，相关的理论保证是最优性差距与约束违反界，这与 BO 遗憾不同。[7] 针对随机和对抗性奖励/约束，提供了兼顾两者的保证，使用了非凸黑盒子程序与执行-恢复（play–recovery）机制。相关地，[5] 使用乐观可行性估计时变可行集，研究了具有长期约束的赌博机问题。

3 预备知识 (Preliminaries)

3.1 基于 GP 代理模型的贝叶斯优化 (Bayesian Optimization with GP Surrogates)

3.2 自适应设置下的校准与锐度 (Calibration and Sharpness under Adaptive Setting)

4 关于 GP-UCB 的锐度—校准视角

综上所述，推论 4.1 和 4.2 表明，在固定核函数下，GP-UCB 置信区间将概率锐度、校准和累积遗憾界联系在了一起，从而引出了 OSCBO。然而，当超参数在线选择时，BO 轨迹不再受单个固定核置信事件的支配，这种联系也不再自动成立。下一节将介绍超参数选择期间的显式锐度—校准控制。

5在线精确校准的BO

我们提出了在线锐度校准贝叶斯优化（Online Sharp-Calibrated Bayesian Optimization, OSCBO），它将 GP 超参数选择视为一个约束在线优化问题，旨在平衡锐度与长期校准违背。5.1 节定义了从每个 BO 查询中提取的每轮锐度损失和校准约束。5.2 节描述了由此产生的原始—对偶在线更新以及 play-recovery 机制。5.3 节将此更新与 BO 循环相结合，从而得到 OSCBO。

5.1 锐度损失与校准约束

遗憾最小化器。 OSCBO 将原始和对偶学习者视为黑盒 RMs（第 3.3 节，第 B.2 节），通过 INIT 和交替的 NEXTELEMENT/OBSERVEUTILITY 更新进行实例化。我们的实现对偶 RM 使用带有负熵正则化器的在线镜像下降；原始 RM 使用 FTPL 来处理非凸的 Θ （第 B.3 和 B.4 节）。

6 理论分析

6.2 锐度与校准的在线学习保证

假设定理 6.1 的高概率事件成立，约束在线学习分析得出了关于锐度最优性差距和累积校准违背的次线性界。

6.3 带有 GP-UCB 的 OSCBO 的 BO 遗憾界

我们现在将在线学习的保证转化为带有 UCB 采集函数的 OSCBO 的 BO 遗憾界。定理 6.1 中 β t 的选择起到两个作用：它导出了上文使用的关于 Θ 的统一置信事件，并且其数值也足够大，以支持下文遗憾证明中的 UCB 乐观步骤。结合引理 6.2，这将 BO 分析简化为控制在参考核（reference kernel）下的累积锐度损失，而这是通过最大信息增益来实现的。

该界限比具有已知核超参数的经典 GP-UCB 更宽松，因为在线超参数自适应引入了原始/对偶（primal/dual）遗憾项以及 β t 的覆盖数（covering-number）膨胀。由于这些代价保持次线性，OSCBO 仍然实现了次线性遗憾。相比之下，通用的在线学习方法应用于 BO 时可能会产生每轮的学习代价，从而导致线性遗憾 [18]。

7 实验

基线方法。 我们报告了我们方法的两个变体：OSCBO（校准惩罚公式 7 中 p = 2 ）和 OSCBO-L1（使用 p = 1 ），GP-UCB-MLL [29]，在线校准 BO (OCBO) [11]，自适应 GP-UCB (A-GP-UCB) [4]，长度尺度平衡 GP-UCB (LB-GP-UCB) [38]，锐度校准 GP (SCGP) [6]，以及用于 BO 的 TabICLv2 [25, 27, 36]。详细信息见附录 D.1。

实现细节。 OSCBO 和基于 GP 的基线方法是在 BoTorch [2] 中实现的；TabICLv2 是通过自定义的 BO 包装器使用的。除非另有说明，我们使用各向同性（isotropic）Matérn 核， ν = 2.5 ，固定输出尺度和固定观测噪声，仅估计长度尺度。我们在合成基准和真实世界任务上进行评估，包括 Lunar 12D [12]，Material 5D [24, 38]，Concrete 7D [37]，以及 Crossbarrel 4D [17]。对于每个任务，我们报告 20 个随机种子上的平均值 ± ± 标准误。关于任务和超参数的更多细节见第 D 节。

7.1 结果

图 2 报告了跨合成和真实世界基准的简单遗憾（simple regret）。OSCBO 始终是最强的方法之一：它在几个任务上与 GP-UCB-MLL 持平或有所改进，同时避免了仅校准或基于调度（schedule-based）替代方案的较弱表现。OSCBO-L1 略逊于默认的 OSCBO 变体。总之，这些结果表明锐度—校准更新提供了一种调整长度尺度的有效方法，其中校准惩罚的选择控制了最终简单遗憾与轨迹级性能之间的权衡。TabICLv2 具有竞争力但非主导的表现表明，绕过 GP 长度尺度优化并不能消除显式长度尺度自适应的价值。

图 S1 中的累积遗憾类比图展示了一个互补的画面。OSCBO-L1 实现了最佳的聚合累积遗憾排名，而默认的 OSCBO 位于主要的基于 GP 的基线簇中。结合简单遗憾的结果，这指向了一个由校准指数控制的权衡： p = 2 有利于最终解的质量，而 p = 1 提高了沿轨迹的预算高效性能。我们将在下一节回到这一分析。

7.2 敏感性和消融分析

我们使用主实验中的配置对 BO 循环进行消融：各向同性 Matérn-5/2 GP 代理模型，UCB 采集，以及默认的 p = 2原始校准更新。每个面板仅包含相应的修改有意义且可用的基线。

对核和采集选择的鲁棒性。 图 3 显示 OSCBO 并不局限于单一的核 - 采集对。（显示了任务平均排名；原始遗憾轨迹见图 S2）。改变 Matérn 平滑度始终使 OSCBO 在多次试验中保持为表现最好的方法之一。此外，用 LogEI 替换 UCB 保持了 OSCBO 的竞争力，表明锐度—校准更新在 UCB 之外也是有效的。当使用 ARD 长度尺度时，OSCBO 的表现略差于 GP-UCB-MLL，主要是由于 Lunar 任务（图 S2）。由于 ARD 为每个维度引入了一个长度尺度，我们也包含了 VanillaBO [19]；然而，其行为并非始终更强，可能是因为基准测试的维度仍然适中。

校准惩罚和诊断的影响。 图 3（右上方面板）总结了 OSCBO 和 OSCBO-L1 之间的简单—累积遗憾权衡，而诊断面板（图 3，底行；图 S3）阐明了 Levy 5D 上的潜在动态。这两个变体的不同之处在于校准约束（公式 7）的指数 p ，该指数同时进入了 FTPL 和 OMD 目标（公式 S5 和 S7）。当 p = 2 时，二次校准惩罚类似于 GP 边缘似然的数据拟合几何，且 OSCBO 在遗憾、锐度—校准和长度尺度轨迹上紧密跟踪 GP-UCB-MLL。当 p = 1 时，大残差仅受到线性惩罚，减少了罕见的大预测误差的影响，并导致较少的长度尺度修正。这改变了锐度—校准的权衡：OSCBO-L1 改善了累积遗憾，但代价是在各个任务上最终简单遗憾略弱。

8 讨论

我们引入 OSCBO 是基于一个核心观察：在自适应查询下，探索—利用权衡可以被视为尖锐（sharp）与校准（calibrated）不确定性之间的权衡。将 GP 超参数重新拟合视为在线决策问题，使我们能够形式化并控制 BO 轨迹上的这种张力。特别是，默认的二次 OSCBO 更新反映了 GP 边缘似然的对数行列式和二次数据拟合结构，这解释了它与 GP-UCB-MLL 在经验上的紧密一致性。然而，与黑盒 MLL 重新拟合不同，OSCBO 将此更新置于约束在线学习过程中，从而为所得的 GP-UCB 规则产生了次线性遗憾分析。更广泛地说，我们的结果表明重新拟合目标本身就是一种设计选择：改变原始校准惩罚会改变长度尺度动态，其中 OSCBO-L1 以最终简单遗憾的微小代价提供了更具预算效率的轨迹。一个特别有前景的途径是将 OSCBO 风格的锐度/校准控制转移到具有更具挑战性不确定性的代理模型上，如贝叶斯神经网络 [22] 或可扩展的近似 GP。最后，我们的理论仅涵盖 UCB；将其扩展到期望改进（Expected Improvement）或汤普森采样（Thompson Sampling）等策略留待未来的工作。

https://arxiv.org/pdf/2605.10572