深度生成分位数贝叶斯

Deep Generative Quantile Bayes

https://proceedings.mlr.press/v258/kim25d.html

打开网易新闻 查看精彩图片

摘要
我们通过深度生成式分位数学习,开发了一种多元后验抽样方法。其抽样过程隐含于一个前推映射中,该映射可以变换从后验分布中抽取的独立同分布随机向量样本。我们利用多元分位数中的蒙日-坎托罗维奇深度,直接从贝叶斯可信集中抽样,这是典型后验抽样方法不具备的独特功能。为优化分位数映射的训练,我们设计了一个能自动执行概要统计量提取的神经网络。这种额外的神经网络结构带来了性能优势,包括支持收缩(即我们的后验近似会随着观测样本量的增加而收缩)。我们在几个示例中展示了本方法的实用性,这些示例因缺乏似然函数而使得经典MCMC方法不可行。最后,我们为该分位数学习框架提供了如下频率派理论依据:估计的向量分位数、恢复的后验分布以及相应的贝叶斯可信集的一致性。

1 引言

本研究的目的是为似然函数仅能通过模拟获取的隐式模型,开发一种从贝叶斯后验分布中抽样的生成式方法。我们提出了一种基于分位数学习的新方法,作为对现有对抗性抽样方法(Wang and Ročková, 2022)的替代。在贝叶斯领域之外,分位数学习已在广泛的实践应用中证明其价值,尤其适用于目标分布呈现出偏斜、厚尾特征,或尾部行为是主要关注点的场景(Yu 等人, 2003)。近期,统计学界内部对于将分位数学习应用于生成式建模的兴趣日益增长,这包括了贝叶斯视角(Polson 和 Sokolov, 2023)和频率派视角(Wang 等人, 2024)的研究。我们的工作将此关注点从一维拓展到了多维领域。

定义一个多元分位数具有挑战性,因为从均匀分布到目标多元分布的映射并不唯一。此外,尽管分位数函数的单调性在单变量情况下可以得到保证,但这一性质无法自动推广到多元情境。这些模糊性可以通过仅考虑那些作为凸势函数梯度的映射来得到解决(Carlier 等人, 2016)。

遵循 Wang 和 Ročková (2022) 的方法,我们通过在由似然模拟器(即前向采样器)和先验模拟器生成的模拟数据上训练我们的采样器,从而避免了对 MCMC 的需求。然而,我们采用了一种直接学习分位数映射的不同路径。

打开网易新闻 查看精彩图片

相反,我们的目标是计算均匀分布与给定 X X 时 θ θ 的条件分布之间的 2-Wasserstein 距离,这自然地产生了一个可用于后验抽样的传输映射。这种方法不同于 Wang 和 Ročková (2022),他们是通过迭代估计并最小化这个 Wasserstein 距离来实现的(更详细的比较请参见附录 A)。

本文的一个特定贡献是将概要统计量纳入到后验分位数映射中。受“噪声外包引理”的启发,这一关键的技术扩展不仅使得学习凸势函数具有可行性,而且使得一系列分位数学习方法能获得理论上的收敛性保证。摘要统计量学习这一关键步骤已在文献中被广泛研究。例如,长短期记忆网络(LSTM, Hochreiter (1997))处理相关观测,适用于数据点顺序至关重要的情况。同时,深度集合神经网络(下文简称 DeepSet, Zaheer 等人 (2017))专为表示可交换数据的摘要统计量而设计。我们的方法整合了这两种架构以增强摘要统计量的学习。

由于真实后验会随着样本量增加而收缩,一致的置信集合也应随着 n n的增加而缩小,这一现象我们称之为支撑收缩。我们通过实验证明,应用 DeepSet 的我们的方法展现了支撑收缩。此外,在真实后验已知的模拟研究中,即使维度 n n很高,我们方法得到的置信集合也接近于真实集合,这与我们的理论发现一致。虽然 Jiang 等人 (2017) 也利用深度学习进行自动摘要统计量学习,但他们的方法与 Polson 和 Sokolov (2023) 更为接近,因为他们明确地应用监督学习,在给定 X i
时预测 θ i

我们的方法学习从一个球面均匀分布出发的前推映射。因此,任意水平 τ ∈ ( 0 , 1 ) 的可信集,可以通过将此映射应用于半径为 τ τ的内球来获得。与传统的贝叶斯后验抽样方法(如MCMC或ABC)需从后验抽取中间接抽样不同,我们的方法无需重抽样。可信集的形式定义依赖于数据深度Hallin等人,2021)这一概念。我们选择的是蒙日-坎托罗维奇深度Chernozhukov等人,2017),它可以看作是向量分位数的一个副产品,在分位数空间中可解释为一个势函数。其等势面扮演着分位数等高线的角色,可等价地视为可信集。

文献中已有众多研究探索了深度分位数回归的理论。White (1992) 使用筛法建立了基于单隐层前馈网络的非参数条件分位数估计器的一致性。Padilla 等人 (2022) 证明了最小化分位数损失的条件分位数估计的一致性结果。我们基于 Chernozhukov 等人 (2017) 提出的一个更通用的框架,并证明了估计的向量分位数的渐近一致性。我们还证明了恢复的后验分位数在 2-Wasserstein 距离的意义上收敛于真实后验。

我们的贡献可以总结如下:

  1. 我们使用两种策略将 Polson 和 Sokolov (2023) 的方法从一维参数 θ 扩展到 d 维。第一种简单策略利用联合分布 π ( θ ∣ X ) 的链式法则表示,学习 d 个单变量采样器。给定 θ 中变量的一个特定排序,我们通过将先前参数(从先前的单变量后验采样器模拟得到)加入序列中下一个参数的训练数据表中,来顺序地学习这些采样器(参见第 D 节)。接下来,我们为生成式贝叶斯开发我们的分位数学习方法。

  2. 作为副产品,我们的多元分位数学习方法使得能够直接从多元贝叶斯可信集进行模拟。可信集是贝叶斯推断的基础,我们可以直接针对它们进行模拟,而无需施加任何严格的几何结构(若使用 MCMC 或 ABC 方法则需施加结构)。然后,采样点的凸包提供了可信集的估计。

  3. 并非所有深度学习架构在生成式建模中都具有同等效用。我们设计了一种特定的网络,用于自动学习摘要统计量,能够同时处理不断增加的观测数量以及它们之间的依赖关系。使用这种方法,我们观察到估计的可信集会随着样本量的增加而收缩,我们称此现象为支撑收缩。如果可信集正收敛于基于真实后验的真实集合,那么支撑收缩是一个必然的标志。

  4. 我们为我们的多元分位数学习方法以及 Polson 和 Sokolov (2023) 的初始方法提供了频率学派理论。现有的关于单变量分位数学习的理论结果无法直接推广到多变量情况;我们的工作填补了这一空白。

具体而言,我们证明,当 N → ∞
时:
(1) 估计的向量分位数函数实现了一致性,
(2) 恢复的后验分布在 2-Wasserstein 距离的意义上一致收敛于真实后验,以及
(3) 贝叶斯可信集收敛于真实集。
这些通用的理论结果适用于所有基于前馈神经网络、利用摘要统计量学习凸势函数的分位数学习方法。

本文后续内容安排如下。第 2 节回顾多维分位数学习的最新进展。第 3 节介绍我们的生成式分位数方法。第 4 节的理论研究证明了估计的向量分位数以及从中恢复的后验分布的一致性。我们在第 5 节中探究所提方法的实证性能。最后,在第 6 节对全文进行总结。

2 多元分位数学习

分位数学习在统计学中已有悠久的文献历史。关于一维分位数学习的简要回顾将在附录 B.1 节(补充材料)中提供。由于在中不存在明显的“排序”概念,因此将分位数、符号和秩等概念从单变量情形扩展到多元设定也并非易事。关于多元分位数各种概念的全面讨论,我们参考 Hallin (2022)。我们的工作基于最近发展起来的最优传输视角之一。

2.1 用于分位数学习的最优传输

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3 生成式贝叶斯计算

在本节中,我们拓展了 Carlier 等人 (2016)的条件向量分位数,以采用摘要统计量进行贝叶斯分位数学习。然后,介绍我们的深度生成式贝叶斯算法与实现,以及可信集的计算。

3.1 生成式贝叶斯的向量分位数

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

同样值得指出的是,引入任意形式的摘要统计量 f ( X ) 是对 Carlier 等人 (2017) 原始方法的一种改进,后者用 X X本身代替 f ( X ) 。该方法依赖于一个假设,即势函数

打开网易新闻 查看精彩图片

这是 (3.2) 式一个可行的拓展,因为存在多种摘要统计量,通常是一个在某种变换下不可数的类。更重要的是,假设 1在我们的方法论中扮演核心角色,不应简单视为仅仅是 (3.2) 式的技术性推广。学习势函数 ψ ( u , x ) 的目标被拆分为两个子任务:学习摘要统计量 f ( x ) 以及拟合凸的函数系数 φ ( u )
和 b ( u )
。这为一类具有理论保证的分位数学习方法敞开了大门,并成为了我们所提算法的基石。

3.2 深度生成式分位数贝叶斯

打开网易新闻 查看精彩图片

为了训练函数 φ、b 和 f,我们对以下目标函数进行优化:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在我们的实现中,我们使用 Adam 优化器及其默认的超参数设置,学习率为 0.01。在每个周期(每 100 次迭代),我们将学习率乘以 0.99 进行衰减。

3.3 摘要统计量的自动学习

打开网易新闻 查看精彩图片

我们通过 DeepSet 和 LSTM 设计 f ( ⋅ )
的方式,有潜力扩展到其他基于深度学习的贝叶斯方法,包括 Wang 和 Ročková (2022)以及 Kim 和 Rockova (2023)。当使用标准的全连接神经网络时,网络规模(需要优化的网络参数量)会随着输入维度的增加而扩大,这对于较大的 n n来说是不现实的。深度集合的设计也被用于神经估计器,例如,在极值分析(Sainsbury-Dale 等人,2024)和空间数据分析(Richards 等人,2023)中。

3.4 可信集计算

生成式分位数后验学习使得我们能够直接从多元后验可信集中采样。现有的采样器(如 MCMC 和 ABC 方法)需要先对集合的几何形状做出假定(例如椭球体),然后基于选定的度量使用后验抽取样本来计算这些集合。相反,我们的方法不对几何结构施加任何特定的限制,并且能够自动学习可信集的形状。

正如 Chernozhukov 等人 (2017) 和 Hallin 等人 (2021) 所提出的,向量分位数定义了数据深度,由此我们可以推导出深度区域(最深集合)和分位数等高线。那么,概率为 τ τ的深度区域就可以用作概率为 τ τ的可信集。得益于 MK 深度的这些理想特性,我们将在第 4 节中看到,我们的方法是渐近有效的,即这些可信集会收敛于由真实底层后验推导出的理想集合。

4 理论研究

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

一个重要的说明与支撑收缩相关。随着观测数量 n n的增加,真实的底层后验会发生收缩,从而导致真实集合的收缩。如果我们目前所做的所有假设都得到满足,那么推论 4 意味着贝叶斯可信集应该以与真实集合相似的方式收缩。违反这些假设可能是许多先前方法未能观察到支撑收缩的原因,这也是可信集未收敛于真实集的一个迹象。

本节的理论分析并非专门针对第 3 节中的方法,而是更为通用。作为对第 3.1 节讨论的补充,我们希望强调,假设 1 的动机源于引理 1,即噪声外包引理。在更广泛的层面上,只要这些方法能够同时学习摘要统计量 f ( X )
以及凸函数 φ ( u )
和 b ( u ) ,并且满足技术条件,那么由该假设所支持的广泛分位数学习方法在理论上都可以是一致的。

5 数值研究 5.1 高斯共轭模拟

打开网易新闻 查看精彩图片

这里,我们使用 DeepSet 特征提取器,针对少数选定的 X = x
值来增加 n n。通过 DeepSet 特征网络(顺序不变网络设计),我们可以看到我们的方法能够适应不断增加的 n n值。我们在图 2(第二行)中强调,当 x x相对靠近原点时,随着 n n的增加,可以清晰地观察到支撑收缩(即估计的后验等高线集收缩)。在此图中,我们还可以看到使用 DeepSet 的效果,并与没有特征提取器( f ( x ) = x
)或使用非充分统计量( f ( x ) = x
的情况进行了比较。在附录的 E 节中,我们提供了更多实验细节、与 B-GAN (Wang 和 Ročková, 2022) 以及自回归方法的比较,以及当 n = 2 时网络选择的影响。

打开网易新闻 查看精彩图片

5.2 Brock Hommes 模型

Brock 和 Hommes (1998) 开发了一个基于智能体的模型来模拟人工股票市场上的资产交易,捕捉了遵循不同交易策略的异质交易者之间的互动。Brock 和 Hommes 模型是最基础的基于智能体的经济模型之一,因其简洁性而被广泛使用,同时有效融入了异质智能体。最近,Platt (2020) 应用该模型来评估基于智能体的经济模型的校准。模型如下:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在附录的 G 节中,我们还展示了与其他方法的比较,例如标准 ABC(拒绝式 ABC)和序贯蒙特卡洛 ABC(SMC-ABC, Sisson 等人 (2007)),这些比较显示了我们的方法在样本质量和计算时间方面的竞争力。

6 结论

本文通过分位数学习,开发了一种从多元参数后验分布中进行隐式抽样的方法。该方法能够适应(可能具有依赖关系的)观测数量的变化,并表现出支撑收缩,即后验近似随样本量 n n的增加而收缩。此外,我们提供了一种无需强加严格几何结构即可估计后验近似(包括后验可信集)轮廓的工具。对于使用更传统的抽样方法(如 MCMC 或 ABC)来构建多元可信集,这种几何结构是必需的。然而,必须指出,我们的方法与 ABC 和 MCMC 方法有根本的不同。一旦我们的后验生成器训练完成,它就可以应用于任何数据集的实现,而无需重新训练。相比之下,MCMC 和 ABC 都必须为每个新数据集重新运行,这在实践中显著增加了它们的计算负担。这种可重用性使得我们的方法在需要高效分析多个数据集的情景中尤其具有优势。

我们的工作重点关注似然函数难以处理且参数空间为连续低维的模型。将这项工作扩展到离散参数空间将是有趣的。当前训练数据并非针对特定观测数据 定制。这可以通过构建一个包含与更相似的样本的数据集来改进,例如采用 O’Hagan 等人 (2024) 的方法,该方法为训练观测值分配重要性权重,然后将这些权重纳入学习准则中。

原文:https://proceedings.mlr.press/v258/kim25d.html