非参数分布匹配的免似然自适应贝叶斯推断方法

Likelihood-Free Adaptive Bayesian Inference via Nonparametric Distribution Matching

https://arxiv.org/pdf/2505.04603

打开网易新闻 查看精彩图片

摘要

似然函数在解析上不可得且计算上难以处理时,近似贝叶斯计算 (ABC) 已成为一种广泛使用的近似后验推断方法;然而,在高维设置或扩散先验下,它存在严重的计算效率低下问题。为了克服这些限制,我们提出了自适应贝叶斯推断框架。该框架绕过了传统的数据空间差异度量,转而通过在后验空间内进行非参数分布匹配来直接比较分布。通过利用一种新颖的针对后验测度的边际增强切片Wasserstein距离并挖掘其分位数表示,ABI 将衡量后验分布间差异的难题转化为一系列易于处理的一维条件分位数回归任务。此外,我们引入了一种新的自适应拒绝抽样方案,该方案通过生成式密度估计更新提议分布,从而迭代地精化后验近似。在理论上,我们建立了修剪后 MSW 距离的参数化收敛速率,并证明当容差阈值趋近于零时,ABI 后验收敛于真实后验。通过广泛的实证评估,我们证明 ABI 显著优于基于数据的 Wasserstein ABC、基于摘要统计量的 ABC 以及最先进的免似然模拟器,尤其是在高维或观测数据存在依赖关系的场景中。

关键词:近似贝叶斯计算;免似然推断;基于模拟器的推断;条件分位数回归;非参数分布匹配;自适应拒绝抽样;生成式建模;Wasserstein 距离

1 引言

贝叶斯建模在自然科学与工程学科中被广泛使用。它使研究人员能够通过前向抽样技术轻松构建任意复杂的概率模型,同时通过融入先验知识来稳定病态问题。然而,在许多场景中,似然函数可能难以评估或完全无法获取(Zeng 等人,2019;Chiachío-Ruano 等人,2021),这导致基于马尔可夫链的算法——如 Metropolis-Hastings 及更广泛的马尔可夫链蒙特卡洛方法——不再适用于后验推断。当模型参数的精确后验推断不可行时,近似贝叶斯计算 (ABC) 成为一种引人注目的方法(Tavaré,2018)。由于其最少的建模假设和易于实现的特点,ABC 在多个贝叶斯领域广受欢迎,包括免似然推断(Markram 等人,2015;Alsing 等人,2018)、贝叶斯反问题(Chatterjee 等人,2021)以及基于模拟器的随机系统后验估计(Wood,2010)。ABC 通过一个基于拒绝的过程生成一组具有高后验密度的参数:它为不同的参数抽取模拟生成虚假数据集,并仅保留那些产生的数据与观测值足够相似的参数。

然而,当数据维度较高或先验分布对观测数据信息量不足时,ABC 变得极其低效,通常需要大量拒绝才能保留一个样本。事实上,引理 B.1 和 B.2 表明,保留一个样本所需的期望模拟次数会随着数据维度的增加而呈指数级增长。为了提高计算效率,研究人员常采用低维摘要统计量,并在摘要统计量空间中进行拒绝抽样(Fearnhead 和 Prangle,2012)。然而,Pitman-Koopman-Darmois 定理规定,低维充分统计量仅存在于指数族中。因此,实际问题通常需要大量判断来选择适当的摘要统计量,且通常以问题特定的方式进行(Wood,2010;Marin 等人,2012)。此外,使用可能非充分的摘要统计量来评估差异,可能导致 ABC 近似虽然有用,但相对于原始后验分布会造成信息的系统性损失。例如,Fearnhead 和 Prangle (2011) 以及 Jiang 等人 (2017) 提出了一种采用后验均值近似作为摘要统计量的半自动方法;然而,该方法仅确保一阶精度。

打开网易新闻 查看精彩图片

由此,本次讨论引出了两个基本问题:什么构成了信息量充分的摘要统计量集合?以及,什么是衡量数据集间差异的适当度量?为解决上述问题,我们提出了自适应贝叶斯推断框架,它通过分布匹配直接比较后验分布,并通过拒绝抽样自适应地精化估计的后验。ABI 的核心在于,它绕过基于观测的比较,而是选择那些由合成数据诱导出的后验与目标后验紧密对齐的参数,这一过程我们称之为非参数分布匹配。为此,ABI 通过利用 Wasserstein 距离与条件分位数回归之间的联系,在后验空间而非观测空间中学习一个差异度量,从而将任务转化为一个易于处理的监督学习问题。然后,ABI 在连续迭代中同时精化后验估计和近似后验差异。

从摘要统计量框架来看,我们提出的方法提供了一种原则性方法来计算一个与模型无关的一维核统计量。从差异度量框架来看,我们的方法近似了后验空间上的一个积分概率度量,从而绕过了基于数据的 IPM 评估的局限性,如样本量小和观测值之间的依赖性。

贡献我们的工作主要有三点贡献。首先,我们引入了一种新颖的积分概率度量——边际增强切片Wasserstein距离,它定义在后验概率测度空间上。然后,我们将 ABI 近似后验刻画为通过以那些诱导出的后验落在目标后验的预设 MSW 容差范围内的数据集为条件而获得的参数分布。传统方法依赖于经验数据分布上的积分概率度量,而我们的基于后验的差异度量即使在观测样本量 n n小、样本依赖结构复杂以及参数不可识别的情况下也能保持稳健。我们进一步论证,考虑轴对齐的边际分布有助于提高基于均匀切片的 Wasserstein 距离的投影效率。其次,我们证明了后验 MSW 距离可以通过条件分位数回归来准确估计,这是通过利用单变量 Wasserstein 距离与分位数差异之间的等价性实现的。这一新颖的洞见将传统上在后验空间中操作的挑战性任务简化为一个监督分布回归任务,我们使用深度神经网络高效地解决了该任务。同一公式自然地适应了多维参数,并通过拒绝抽样实现了便捷的顺序精化。第三,我们提出了一种顺序版本的拒绝-ABC 方法,据我们所知,这是第一个非基于蒙特卡洛的顺序 ABC。文献中现有的顺序精化方法通常依赖于自适应重要性抽样技术,例如序贯蒙特卡洛(Del Moral 等人,2012;Bonassi 和 West,2015)和群体蒙特卡洛(Beaumont 等人,2009)。这些方法,特别是其基本实现,通常受限于从先验样本中得出的经验分布的支撑集。

尽管更先进的变体理论上可以通过新生步骤和 MCMC 移动探索超出这一初始支撑集的区域,但它们仍需谨慎选择转移核和辅助反向转移核(Del Moral 等人,2012)。相比之下,ABI 通过拒绝抽样迭代地精化后验分布:它使用来自前一步骤的生成式后验近似(通过生成模型学习得到,请注意不要与免似然设置中的原始模拟器混淆)来更新提议分布。基于生成模型的后验推断方法利用神经网络的表达能力来捕捉复杂的概率结构,而无需显式的分布设定。这一生成式学习阶段使 ABI 能够超越经验参数分布的受限支撑集,并且消除了对显式先验密度评估的需求(与 Papamakarios 和 Murray (2016) 不同),从而适应先验分布本身可能也难以处理的情况。

我们刻画了 MSW 距离的拓扑和统计行为,确立了其参数化收敛速率及其在后验测度空间上的连续性。我们的证明采用了一种新颖的基于鞅的论证方法,诉诸 Doob 定理,这为现有的基于勒贝格微分定理(Barber 等人,2015)的证明提供了一种替代技术。这一新技术对于研究其他顺序算法的收敛性可能具有独立的理论意义。然后我们证明,当容差阈值趋近于零时(观测数据固定),ABI 后验依分布收敛于真实后验。最后,我们推导了近似拒绝抽样过程引起的偏差的有限样本界。通过全面的实证实验,我们证明 ABI 相比基于数据的 Wasserstein ABC 以及几种最新的、最先进的免似然后验模拟器,实现了极具竞争力的性能。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

1.1 近似贝叶斯计算

我们首先简要回顾经典的近似贝叶斯计算。给定阈值 ϵ > 0 ,以及摘要统计量 s ( ⋅ )
上的一个距离度量 D ( ⋅ , ⋅ )
,经典 ABC 从以下近似后验中生成样本:

打开网易新闻 查看精彩图片

关于在 ABC 中使用充分统计量时的收敛速率和偏差-成本权衡的结果,参见 Barber 等人 (2015),他们通过勒贝格微分定理建立了 ABC 后验期望的一致性。

1.2 切片 Wasserstein 距离

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

1.3 条件分位数回归

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

1.4 生成式密度估计

打开网易新闻 查看精彩图片

1.5 文章结构与相关文献

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

论文组织本文剩余部分结构如下。第 2 节介绍 ABI 框架及其算法组成。第 3 节建立所提出的 MSW 距离的经验收敛速率,刻画其拓扑性质,并证明当容差阈值趋近于零时,ABI 后验收敛于目标后验。第 4 节通过广泛的实证评估展示了 ABI 的有效性。最后,第 5 节总结全文并概述未来的研究方向。技术结果的证明和额外的模拟细节见附录。

2 自适应贝叶斯推断

在本节中,我们介绍所提出的自适应贝叶斯推断方法。ABI 的基本思想是通过直接在后验空间中操作,以超越基于观测的比较。具体来说,我们将目标后验近似为:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

利用这一等价关系,我们的核心洞见在于:通过在后验测度上应用一个分布度量,将无限维的后验映射“压缩”成一个一维核统计量——从而保留其本质的几何结构,这在概念上类似于“核技巧”。我们通过新颖的边际增强切片 Wasserstein 距离来具体实现这一想法。MSW 距离保留了边际结构并缓解了维度灾难,当 p = 1 时可以达到参数化收敛速率(见第 3.4 节)。此外,MSW 与经典的 Wasserstein 距离拓扑等价,保留了其几何性质,例如能度量弱收敛。

2.1.2 通过深度条件分位数回归估计修整后 MSW 距离

为了缓解 Wasserstein 距离和切片 Wasserstein 距离对重尾众所周知的敏感性,我们采用了一种稳健的、修整后的 MSW 距离变体,这是在 Alvarez-Esteban 等人 (2008) 和 Manole 等人 (2022) 工作的基础上进行的扩展。为了为我们的多元推广奠定基础,我们首先回顾一维情形下修整 Wasserstein 距离的定义。对于单变量概率测度 μ μ和 ν ν,以及修整参数 δ ∈ [ 0 , 1 / 2 ) , δ δ-修整 W p
距离定义为:

打开网易新闻 查看精彩图片

休整后的 MSW 距离由两个组成部分构成:切片 Wasserstein 项(通过对单位球面上的随机投影捕捉联合交互作用)和边际增强项(用于衡量沿坐标轴的分布差异)。加入边际项增强了 MSW 距离对每个坐标轴上差异的敏感性,弥补了标准 SW 投影由于从均匀随机采样的非信息方向而导致的效率低下问题。此外,由于 SW 距离是通过蒙特卡洛近似的,因此明确考虑坐标方向的边际分布尤为重要,因为这些边际分布直接决定了相应的后验可信区间。纳入轴对齐边际分布的价值在最近的研究中也得到了强调(Moala 和 O'Hagan,2010;Drovandi 等人,2024;Chatterjee 等人,2025;Lu 等人,2025)。为简洁起见,除非另有说明,在本节后续部分中,我们将修整后的 MSW 距离简称为 MSW 距离。

打开网易新闻 查看精彩图片

定义 2.3 (MSW 距离的分位数表示)。定义 2.2 中定义的修整后 MSW 距离可以等价地用分位数表示为:

打开网易新闻 查看精彩图片

基于定义 2.3,我们将后验比较重新表述为给定 X = x 时 θ 的条件分位数回归问题。具体而言,MSW 距离是依据分布的一维投影来构建的,以利用单变量 Wasserstein 距离评估可用的闭式表达式。通过用 K 个蒙特卡洛采样的方向近似球面积分,计算 MSW 距离因此简化为拟合一系列条件分位数回归,每个回归对应一个不同的单维投影。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

总的来说,本节中的内容构成了我们所提方法中非参数分布匹配部分的核心。分布匹配的相应算法过程总结在算法 3 中。

打开网易新闻 查看精彩图片

原文链接:https://arxiv.org/pdf/2505.04603