曲率感知期望自由能:贝叶斯优化采集函数

Curvature-aware Expected Free Energy as an Acquisition Function for Bayesian Optimization*

https://arxiv.org/pdf/2603.26339

打开网易新闻 查看精彩图片

摘要

我们提出一种基于期望自由能的贝叶斯优化采集函数,用于解决联合学习与优化问题,即同时优化并学习底层函数。我们证明,在特定假设下,期望自由能可简化为上置信界、下置信界和期望信息增益。我们证明期望自由能对凹函数具有无偏收敛保证。基于这些推导结果,我们为期望自由能引入了一种曲率感知更新律,并通过范德波尔振荡器的系统辨识问题验证了其概念。通过严格的仿真实验,我们表明,我们自适应的基于期望自由能的采集函数在最终简单遗憾值和高斯过程学习误差方面均优于最先进的采集函数。

I. 引言
联合优化与学习是机器人与控制领域的核心问题,智能体必须同时获取环境(或现象)的精确地图并识别高价值区域(例如搜救中人类高密度区域或目标搜索中高检测概率区域)。快速高效的信息采集可提高精准农业的生产效率,在搜救行动中挽救生命,并助力工业检测与维护[1]。由于现实世界中的查询代价高昂,开发能够以最快速度进行高效查询以实现联合优化与学习的方法至关重要。然而,大多数采集函数(AF)旨在实现高效优化,而非精确学习底层函数[2]。我们旨在通过提出一种用于贝叶斯优化(BO)的采集函数来弥合这一差距,该函数利用曲率信息来平衡探索与利用,不仅是为了优化,也是为了学习底层函数[3]。受主动推理[4](关于人脑如何进行推理的前沿计算神经科学理论)的启发,我们提出期望自由能(EFE)作为一种新的采集函数。我们指出,EFE是一种通用采集函数,其他采集函数如上置信界(UCB)[5]、下置信界(LCB)和期望信息增益(EIG)均可从中推导出来。

关于黑箱优化的采集函数,BO已有大量文献[6],包括信息论遗憾界[5]。由于BO对于评估代价高昂的多模态函数优化尤为有用,它已广泛应用于控制系统中以调整控制器[7]和进行系统辨识[8]。利用梯度信息改进BO的想法也得到了广泛研究,特别是关于观测梯度[9][10]和后验梯度[11]的研究。我们的方法不同于这些方法,因为我们使用高斯过程(GP)后验的二阶梯度来调整探索与利用之间的平衡。近年来,将主动推理思想用于BO的兴趣日益增长。最近的一项相关工作通过将基于玻尔兹曼分布的能量函数置于偏好分布上,提出了一种基于主动推理的采集函数[12]。我们的工作不同之处在于,我们特别从高斯偏好先验出发推导EFE,将其作为一个特例。这条路径更为简洁,因为一个简单的线性化步骤就能直接恢复UCB和LCB,而无需做出不现实的假设[12]。我们进一步通过提出一种曲率感知规则来改进这一EFE,以提升性能。另一项类似工作是[13],它提出了一种基于主动推理的采集函数。他们使用了期望未来的自由能[14]作为目标,而非EFE,这在根本上与我们的公式不同,并且未能揭示UCB与主动推理之间的等价性。我们工作的核心创新在于,在EFE采集函数中利用曲率信息来平衡联合优化与学习问题中的探索与利用。我们在数学上证明了EFE的驻点与曲率无关。基于这一结果,我们为EFE提出了一种新颖的曲率感知自适应规则,该规则鼓励在高曲率区域重新采样,并探索低曲率的不确定区域。本文的核心贡献包括:i) 证明在特定假设下,EFE可简化为UCB、LCB和EIG(第III-B节);ii) 证明EFE对凹函数的无偏收敛性(第IV-A节);iii) 引入EFE的曲率感知更新规则(第IV-B节);iv) 展示我们自适应的(曲率感知)EFE在联合优化与学习方面优于最先进的采集函数(第V节)。

II 问题陈述

打开网易新闻 查看精彩图片

III. EFE 与其他采集函数

本节推导 GP 下的 EFE,并证明 UCB 和 LCB 是 EFE 的线性代理。

A. GP 模型下的 EFE

我们将未知函数的优化问题视为一个智能体必须通过与环境的交互进行学习以达到目标的问题。探索指的是学习函数(发现其形状),利用指的是优化。行动由下一个查询位置的选择来表示,传感器观测值由该查询位置上的未知函数值表示。我们隐含地假设环境是时不变的,即 f ( x ) 不会因选择了哪些查询点而改变。在主动推理中,通过最小化一个 EFE 泛函来找到最优平衡探索与利用的行动 [4]。我们将 GP 上候选查询位置 x x的单步(短视)EFE 定义为 [15]:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

B. 与已知采集函数的关系

EFE 是贝叶斯优化采集函数的一个推广,因为它包含了若干已知的采集函数。下面我们证明这一论断,并展示导致 LCB、UCB 和 EIG 的具体限制条件。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

因此,在假设 1 和一个简单的线性化步骤下,当 EFE 的不同项被丢弃时,EFE 可以简化为 UCB、LCB 和 EIG。表 I 总结了这些结果。我们推测这表明,完整形式的 EFE 是一种具有优越性能的通用采集函数。例如,在不采用假设 1 的情况下,EFE 将考虑完整 GP 上的净信息增益。在能够利用问题的子模性的情形下,这可能会带来 EFE 更优越的性能:由于数据之间的相关性,在一个位置进行查询可以提供关于地图中其他位置信息的有用信息。例如,在搜救地图上找到一个受害者,可以让智能体了解地图上其他受害者的位置。
为简化起见,本文其余部分将考虑假设 1 下的 EFE。

打开网易新闻 查看精彩图片

IV. EFE 作为采集函数

在本节中,我们给出 EFE 在局部严格凹函数上收敛的充分条件,并提出一种曲率感知的更新规则。

A. 基于 EFE 的采集函数的收敛性分析

定理 IV.1(EFE 无偏局部收敛的充分条件)。设 f f具有唯一最大化点 x ⋆ ,并且

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

V. 仿真实验

本节旨在展示我们提出的自适应 EFE 在联合学习与优化问题上相较于最先进采集函数的优越性能。我们首先在一个简单的系统辨识问题上验证自适应 EFE 的概念,然后在一个高度随机化的函数空间上,将结果与其他六种基准方法进行对比。

A. 自适应 EFE 与非自适应 EFE

本节通过在范德波尔振荡器上的系统辨识问题,展示了我们提出的自适应 EFE 相较于非自适应 EFE 的优势。该振荡器由下式给出:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

B. 学习与优化

下运行 50 次迭代。仿真设置的详细内容见附录 D。
打开网易新闻 查看精彩图片
下运行 50 次迭代。仿真设置的详细内容见附录 D。

性能通过最终 GP 回归误差(整个定义域上的均方误差)和相对于真实全局最大值的简单遗憾值来报告,从而能够在异质测试函数上公平比较平均性能和变异性。图 2 显示了将自适应 EFE 与基准方法 UCB、期望改进(EI)、改进概率(PI)、VAR(以标准差 σ 为目标)、汤普森采样(TS)和知识梯度(KG)进行比较的结果。由于 EFE 位于图的左下角区域,它是用于联合优化与学习的最佳方法。

表 II 报告了所有方法在最终均方误差和最终简单遗憾值上的均值。EFE 具有最低的简单遗憾值,并且其 GP 均方误差接近纯探索策略(VAR)。这表明,在高度随机化的通用一维函数空间中,EFE 在联合优化与学习问题上优于其他采集函数。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

VI. 结论

期望自由能(EFE)以一种原理性的方式统一了探索与利用,因此具有成为下一代贝叶斯优化采集函数的强大潜力。受此启发,我们针对联合学习与优化问题,提出了一种新颖的曲率感知的 EFE 贝叶斯优化采集函数。我们从数学上证明了 UCB 和 LCB 是 EFE 的线性代理,并且 EFE 对凹函数具有无偏收敛保证。仿真结果表明,与最先进的采集函数相比,EFE 具有很强的竞争力。

未来的一个自然发展方向是开发可扩展的、类模型预测控制(MPC)风格的多步 EFE 规划器,沿候选动作序列传播高斯过程信念,从而实现非短视的查询选择,能够预见未来后验状态的完整演变。这类规划器有望大幅提升信息采集的效率,使智能体能够高效执行现实世界中的探索、监测和决策任务。

原文链接:https://arxiv.org/pdf/2603.26339