Minimaxity and Admissibility of Bayesian Neural Networks

贝叶斯神经网络的极小极大性与容许性

https://arxiv.org/pdf/2604.04673

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

摘要

贝叶斯神经网络(BNNs)为深度学习模型中的推断提供了一种自然的概率表述。尽管它们广受欢迎,但从统计决策理论的视角来看,其最优性所受到的关注却十分有限。在本文中,我们研究了在二次损失下,由深度全连接前馈ReLU贝叶斯神经网络在正态位置模型中诱导出的决策规则。我们证明,对于固定的先验尺度,所诱导的贝叶斯决策规则并非极小极大最优的。随后,我们在BNN先验的有效输出方差上提出了一种超先验,该超先验能产生超调和的平方根边际密度,从而证明所得的决策规则同时具备容许性与极小极大性。我们进一步将这些结果从二次损失设定扩展到具有库尔贝克-莱布勒(KL)损失的预测密度估计问题。最后,我们通过数值模拟验证了我们的理论发现。

关键词: 贝叶斯神经网络;贝叶斯估计;极小极大性;多元正态均值;恰当贝叶斯;二次损失。

1 引言

在过去几年中,神经网络迅速普及,并在图像分类、时间序列预测和语言建模等广泛任务中展现出卓越的性能。它们的成功在很大程度上归功于其建模灵活性,以及提高了其可操作性的计算硬件进步,例如图形处理单元(GPU)的广泛应用。贝叶斯神经网络(BNNs)通过在权重上设置先验分布来扩展标准神经网络,从而能够实现概率建模和不确定性量化,例如通过可信区间[2, 22]。凭借其灵活性和表示不确定性的能力,BNNs被广泛应用于医学、金融和天气预报等对不确定性至关重要的领域。例如,[16]使用BNN对乳腺癌术后患者的预后进行分析。类似地,[7]使用BNNs预测新冠疫情爆发前及期间的股票价格。在[17]中,开发了两种BNNs:一种用于预测严重冰雹的尺寸,另一种用于对冰雹尺寸进行分类。

大量文献考察了BNNs的理论性质。例如,[21]表明,在极限情况下,具有无限多隐藏单元的BNNs会收敛于高斯过程。随后的研究(包括[19])更深入地探讨了这种高斯过程行为。[12]表明,在训练和推理过程中应用Dropout近似对应于深度高斯过程中的贝叶斯推断。其他研究方向建立了后验集中结果。例如,[23]针对尖峰-平板先验证明了此类结果。类似地,[8]建立了具有重尾先验分布的BNNs的后验收缩结果,并将这些结果扩展到变分贝叶斯的类比形式。然而,许多理论研究依赖于高度技术化且不现实的假设,这限制了它们的适用性。例如,与许多理论贝叶斯深度学习文献不同,我们的分析不需要任何深度或宽度随样本量增长的网络架构缩放设定。该结果适用于任意固定的有限架构,这使其与实际应用中使用的设置直接相关。

尽管关于BNNs的理论研究十分丰富,但从统计决策理论视角出发的研究却寥寥无几。统计决策理论为在不确定性下选择估计量提供了一个原则性框架。这一视角有助于解释BNNs在各任务中强大的实证表现,并为架构选择(如先验分布和网络深度)提供指导。在本工作中,我们从决策理论的视角研究BNNs的性能。

具体而言,我们研究了它们在二次损失下的正态位置模型中的风险。尽管正态位置问题相对简单,但它已足以让我们识别出哪些BNN建模选择能在极小极大意义上产生性能良好的估计量。关于正态位置问题中估计量的极小极大最优性已有丰富的文献,涵盖了多种极小极大标准和证明技术,这些内容凸显了先验分布、诱导的后验分布以及所得决策规则的影响。因此,正态位置问题提供了一个放大镜,突显了BNNs的哪些方面表现良好,以及标准BNN先验在何处可以改进,例如通过引入收缩先验。

BNNs面临的一个核心挑战是在网络权重上构建信息丰富的恰当先验,这些先验既要在计算上易于处理,又要倾向于产生具有理想频率学派性质的解。事实上,[22]将先验设定视为贝叶斯深度学习中最突出的未解决问题之一,并强调网络参数上的先验会诱导出函数空间行为,而该行为最终主导了泛化能力。在此背景下,我们的贡献是在一个典型设定中,为这一问题提供清晰的决策理论解释。具体而言,我们证明了标准BNNs所诱导的贝叶斯规则在二次损失下的正态位置问题中并非极小极大最优的,这表明广泛使用的贝叶斯设定可能无法满足这一基本的最优性标准。关键在于,这一缺陷并非贝叶斯神经建模本身所固有的,而是源于超先验的选择:在适当的超先验下,所诱导的贝叶斯规则同时具备极小极大性和容许性。通过将这些结果扩展到预测密度估计,我们进一步表明,先验设计的影响不仅限于点估计,还会直接影响预测性能。更广泛地说,这些发现表明,贝叶斯深度学习的未来不仅取决于使神经贝叶斯过程更具表达力,还取决于确保其所采用的先验能够诱导出决策理论上严谨的规则。通过这种方式,本文解决了当代贝叶斯深度学习中的一个核心关切:用理论证明的标准取代启发式的先验选择,以判定神经过程何时符合、何时不符合决策理论的合理性。

鉴于[20]提出的先验-数据拟合网络(PFNs)的兴起,这一视角尤为及时。PFNs通过训练Transformer来近似对从先验中采样的任务进行贝叶斯预测。诸如TabPFN [15]等方法表明,该范式在实践中具有极强的威力,基于Transformer的PFN在小型表格预测问题上达到了最先进的性能。正因为PFNs学习近似由所选先验诱导的预测分布,我们的结果表明,先验设定不仅仅是一种建模上的便利,而是决定所学预测器是否具备坚实决策理论基础的核心因素。从这个意义上讲,PFNs的兴起使得本分析尤为重要:随着PFN类方法日益突出,理解底层先验何时能产生极小极大且容许的规则变得至关重要。

本文的结构安排如下。在第1节中,我们介绍符号记号,回顾贯穿全文所使用的正态位置模型的统计决策理论结果,描述由固定尺度ReLU BNN所诱导的先验密度的一般形式,并推导出该先验的一种更为便捷的正态分布尺度混合表示形式。在第2节中,我们证明由固定尺度ReLU BNN先验所诱导的边际密度的平方根并非超调和的。随后,我们推导相应的决策规则,并证明其并非极小极大最优的。在第3节中,我们在BNN先验的尺度上引入超先验,并证明所得先验会诱导出一个极小极大决策规则。在第4节中,我们将上述结果扩展至库尔贝克-莱布勒(KL)损失下的预测密度估计问题,表明所提出的超先验在该设定下同样能诱导出一个极小极大规则。最后,在第5节中,我们通过模拟实验阐明我们的理论结果,将固定尺度BNN先验与所提出的层次BNN先验,同由其他流行先验(包括采用Dropout的BNN以及马蹄先验)所诱导的决策规则进行比较。证明概要列于正文,完整证明则置于补充材料中。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2 固定尺度的深度贝叶斯 ReLU 网络不是极小极大的

打开网易新闻 查看精彩图片

欧几里得空间上的径向函数是指其在任一点处的值仅取决于该点到某一固定中心的距离的函数。众所周知,径向函数满足以下微分方程。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

极小极大性提供了最坏情况风险的一致界,而超调和性是边缘密度平方根的一个逐点准则。当超调和性不成立时,它仅表明进入密度的局部量在样本空间的某些区域变得不利,这往往会导致该区域的风险膨胀。然而,由于风险是对所有数据值的平均,违反该准则的区域可能携带可忽略的概率质量,因此其本身未必排除极小极大性。尽管如此,超调和性的失败是一个警示信号,需要单独的论证来得出诱导决策规则不是极小极大的结论。

打开网易新闻 查看精彩图片

从这个表达式来看,该估计量具有自然的收缩形式,因为它向 0 收缩。然而,极小极大性取决于在 ∣ ∣ Y ∣ ∣上的一致性收缩轮廓。正如我们在证明中所示,当 ∣ ∣ θ ∣ ∣ ∣ 很大时,风险超过了极小极大水平。这是因为固定尺度诱导出的先验预测密度尾部过轻,导致对于大信号的收缩适应性不足。这意味着固定尺度的 BNN 先验可能会导致过程在最坏情况下的表现次优,尽管它们在典型数据集上表现良好。因此,在第 3 节中,我们引入尺度混合以恢复极小极大保证,并针对所有 ∣ ∣ θ ∣ ∣ > 0达到极小极大风险(或更低)。我们在补充材料中提供了定理 2.6 的完整证明。我们首先将固定尺度 BNN 的贝叶斯规则重写为 Barancik 形式:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3 诱导极小极大贝叶斯决策规则的尺度超先验示例

打开网易新闻 查看精彩图片

先验,因为它具有重尾特性,允许通过增加方差来解释大信号,而不是对其进行强制收缩。由此得出以下定理。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

值得注意的是,尽管重尾分布在本文中有理论动机,但在贝叶斯深度学习中也观察到它们在实践中出现。特别是,众所周知,在使用随机梯度下降训练前馈神经网络期间,权重变得越来越重尾。因此,增加深度,更重要的是,引入适当的方差超先验可能有助于减轻可能错误设定的先验(例如权重的标准高斯先验)的影响,正如第 1.4 节所讨论的那样。关于这种行为及其与冷后验效应(cold posterior effect)的关系的更多信息,请参见 [9]。

鉴于混合密度的形式,我们还可以推导出诱导的贝叶斯决策规则的容许性。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Strawderman 先验 [26] 在正态均值问题的收缩因子上放置了一个 Beta 超先验,诱导出了一个既是极小极大又是容许的正常贝叶斯估计量。其关键机制在于诱导出的边缘密度具有足够重的尾部——具体而言,其平方根是超调和的(superharmonic)——这正是保证极小极大性的条件。在 BNN 设定中,对输出方差采用 Beta-Prime 超先验同样产生了一个超调和的平方根边缘密度,从而导出了一个极小极大容许贝叶斯规则。因此,Beta-Prime 构造是 Strawderman 先验的自然类比,并已针对网络架构产生的参数化进行了适配。

4 预测密度问题中的极小极大性和容许性

在本节中,我们考虑 [5] 和 [14] 中讨论的估计预测密度的问题。特别是,我们可以将正态位置模型在二次损失下的容许贝叶斯决策规则扩展到预测密度估计设定中。

4.1 决策问题

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.2 极小极大性与容许性

在本节中,我们证明:由在有效输出方差上具有 BetaPrime 超先验的深度 ReLU BNN 所产生的先验分布所诱导的贝叶斯预测密度是极小极大的(minimax)且是容许的(admissible)。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

我们已经证明,由带有 BetaPrime 超先验的深度 ReLU 贝叶斯神经网络所产生的先验,诱导出了一个极小极大决策规则,该规则既适用于在二次风险下估计正态位置模型的均值,也适用于在 Kullback-Leibler 风险下的正态位置模型设定中估计预测密度。我们的结果表明,极小极大性在方差重缩放下是稳定的。也就是说,预测改进并不绑定于特定的噪声水平,并且避免了我们需要针对每种预测方差组合重新检查超调和性条件。特别是,鉴于 [14] 中的引理 2,该先验分布在这两个问题中通过收缩默认估计量,诱导出了类似的收缩行为。在二次风险设定中,这是最大似然估计量 Y ,而在 Kullback-Leibler 风险设定中,这是在均匀先验下的贝叶斯预测密度。我们还证明了诱导出的贝叶斯预测密度是容许的。

打开网易新闻 查看精彩图片

5 模拟示例

打开网易新闻 查看精彩图片

5.1 径向决策规则模拟

回顾第 2 节,由固定尺度贝叶斯神经网络(BNN)诱导的决策规则是

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5.2 依赖于稀疏性的模拟

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

6 结论

我们已经证明,在二次损失下,由深度、固定尺度的 ReLU BNN 诱导的决策规则在正态位置模型中不是极小极大的(minimax),因为先验预测密度具有拉伸指数尾部,这对大信号施加了过度保守的收缩。随后,我们在网络先验的有效输出方差上提出了一个 BetaPrime 超先验,它通过诱导足够重的尾部来恢复极小极大性:它对弱信号向原点强烈收缩,并对大信号足够快地减少收缩。我们进一步确立了诱导贝叶斯规则的容许性(admissibility),并将极小极大性和容许性结果都扩展到了 Kullback–Leibler 损失下的预测密度估计。这些理论性质在二次损失下的数值模拟研究中得到了验证。未来工作的一个有趣方向是刻画那些诱导极小极大决策规则的更广泛的超先验族;一条自然的途径是利用 Fox-H 函数 [18],它包含了许多超先验族,包括此处提出的 BetaPrime 超先验。

原文链接:https://arxiv.org/pdf/2604.04673