BAYESIAN PREDICTIVE CODINGcc

贝叶斯预测编码

https://arxiv.org/pdf/2503.24016?

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

摘要

预测编码(Predictive coding, PC)是关于大脑信息处理的一个有影响力理论,它为反向传播提供了一种生物学上较为合理的替代方案。PC 的动机源于贝叶斯推理,通过在变分自由能上进行梯度下降来优化隐藏状态和参数。然而,现有的 PC 实现依赖于对隐藏状态的最大后验估计(MAP)和对参数的最大似然估计(ML),这限制了其量化认识不确定性(epistemic uncertainty)的能力。

在本研究中,我们探讨了一种对 PC 的贝叶斯扩展方法,该方法对网络参数估计后验分布。这一方法被称为**贝叶斯预测编码**(Bayesian Predictive Coding, BPC)。BPC 保留了 PC 的局部性,并导出了闭合形式的赫布型权重更新规则(Hebbian weight updates)。与 PC 相比,我们的 BPC 算法在全批量(full-batch)设置下收敛所需轮次更少,在小批量(mini-batch)设置下也具有竞争力。此外,我们展示了 BPC 提供的不确定性量化能力可与现有的贝叶斯深度学习方法相媲美,同时还能改善收敛性能。

综上所述,BPC 为大脑中的贝叶斯学习提供了一种生物学上合理的机制,也为深度学习中的不确定性量化提供了一种有吸引力的新方法。

1 引言

预测编码(Predictive Coding, PC)框架起源于神经科学领域 [1, 2, 3, 4],它提出神经可塑性的功能是最小化局部预测误差,即估计信号与观测信号之间的差异。该框架已被改造为一种仅使用局部信息训练深度神经网络的方法,成为反向传播(Backpropagation, BP)的一种生物学上较为合理的替代方案 [5, 6, 7, 8]。与BP相比,PC具有多个优势,包括在在线学习和持续学习场景中表现更佳 [9]、具备良好的优化特性 [10]、既可以以生成方式也可以以判别方式灵活使用 [11],以及拥有内在的自联想记忆能力 [12]。

PC传统上是通过变分贝叶斯推理来加以解释的 [13, 14],它用概率分布描述隐藏状态与参数之间的关系。然而,现有的PC实现通常并不直接操作概率分布,而是采用对隐藏状态的最大后验估计(MAP)和对参数的最大似然估计(ML)。这与贝叶斯深度学习 [15] 形成对比,在后者中,目标是对参数的后验分布进行估计,从而量化认识不确定性(epistemic uncertainty)和偶然不确定性(aleatoric uncertainty),并用于模型比较、网络剪枝或具有良好校准的信心估计。无论如何,不确定性量化对于学习系统的鲁棒性、可靠性和可解释性至关重要,而大脑如何执行这一过程仍然是一个未解之谜。

在本研究中,我们提出了一种对PC的扩展方法,该方法可以对网络参数估计近似贝叶斯后验分布。我们将这种方法称为贝叶斯预测编码(Bayesian Predictive Coding, BPC)。BPC以一种允许使用共轭先验分布的方式来参数化神经活动,从而推导出权重分布的闭合形式更新规则。所得的更新规则是前突触与后突触活动的赫布函数(Hebbian functions),而隐藏状态的更新仍保留其作为“精度加权预测误差”的解释,因此保留了PC算法局部性与简洁性。此外,能够在闭合形式下计算后验更新意味着BPC可以在比基于梯度的方法更少的迭代次数内收敛 [17]。相关工作综述见附录E。

在一系列实验中,我们实证验证了BPC在全批量训练中实现了与PC和传统BP相当的性能,并在小批量训练中也保持竞争力。值得注意的是,在全批量训练环境下,BPC在极少数轮次内即可收敛。此外,我们展示了所学到的后验分布能够在合成回归任务中稳健地量化认识不确定性偶然不确定性。我们将BPC与当前流行的贝叶斯深度学习基准方法进行了比较,结果表明我们的方法不仅在不确定性量化方面表现更优,而且在准确率收敛速度方面也有提升。综上所述,我们的研究结果表明,BPC是一种可行的、利用局部信息训练具备不确定性感知能力神经网络的方法,也为大脑中的不确定性量化机制提供了一个潜在的解释路径。

2 方法

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

对于每一个小批量数据,我们迭代应用方程(4) ,如算法1 中所述。

在测试阶段,我们通过三种不同的方式来处理由参数后验分布所捕捉到的不确定性:

打开网易新闻 查看精彩图片

3 实验

3.1 准确率

我们实现了贝叶斯预测编码(BPC)算法来训练带有ReLU激活函数的神经网络,并将其在准确率上与通过预测编码(PC)和反向传播(BP)训练的网络进行比较。具体来说,我们在两个小型数据集上使用全批量训练进行评估:来自UCI数据集库的能源数据集[21] 和 双月数据集(two moons dataset)[22];在一个较大的MNIST数据集[23] 上则使用小批量训练。有关超参数和数据集细节的信息,请参见附录F。

实验结果如图1所示。在全批量训练设置中,由于BPC使用了对参数后验分布的闭合形式更新,它在前几个训练轮次内就实现了收敛,而PC和BP则需要多个轮次才能收敛。在小批量训练设置中,BPC的表现与PC和BP相当,在平均准确率上仅相差约0.3%。值得注意的是,BP和PC均使用Adam优化器[24]进行优化,且PC还需要引入权重衰减(weight decay)[25]。当改用基础随机梯度下降(vanilla SGD)训练时,BP和PC的收敛速度明显慢于BPC,且PC的准确率往往显著低于其他方法。这些实验结果验证了:方程(7)中的后验更新提供了一种可行的方法,用于通过局部更新规则训练贝叶斯深度神经网络

打开网易新闻 查看精彩图片

3.2 不确定性量化

为了评估所学习到的后验分布,我们在两个合成回归任务 上训练了一个紧凑结构的BPC模型,并实证验证 该模型能够量化偶然不确定性 (aleatoric uncertainty)与认识不确定性 (epistemic uncertainty)。为了量化偶然不确定性 ,我们通过网络传播不确定性,以估计输出的一阶矩和二阶矩。这种方法自然适用于同方差噪声 (homoscedastic variance);对于异方差噪声 (heteroscedastic variance),我们还按照文献[20]中描述的方法,在输出层中引入一个方差节点 (variance node)进行参数化。为了量化认识不确定性 ,我们从参数后验分布中多次采样,并可视化所预测的函数。如图2所示的结果表明,我们的模型能够准确捕捉这两种不确定性。有关回归任务与网络超参数的详细信息,请参见附录F。

打开网易新闻 查看精彩图片

最后,我们将BPC与一种流行的贝叶斯深度学习基准方法——“通过反向传播实现贝叶斯推断”(Bayes by Backprop, BBB)[26]进行了比较。BBB通过从后验分布中采样来估计变分自由能,并随后使用反向传播更新变分参数。我们在多个UCI回归任务[21]中使用对数预测密度 (LPD)和均方根误差 (RMSE)对BPC与BBB进行了比较。对于两种方法,LPD都是通过对权重上的后验分布进行多次采样,并计算数据点的平均对数似然得到的。

表1显示,在大多数任务中,BPC在LPD和RMSE指标上都优于BBB。图2展示了在游艇数据集(yacht dataset)上,LPD与RMSE随训练轮次的变化情况,结果表明由于BPC采用了闭合形式更新,其收敛速度更快。我们在其他数据集中也观察到了类似的收敛性能提升。

打开网易新闻 查看精彩图片

4 讨论

在本研究中,我们提出了贝叶斯预测编码 (Bayesian Predictive Coding, BPC)——一种通过在网络参数上引入贝叶斯后验分布来扩展预测编码 (Predictive Coding, PC)的算法。

我们展示了由此得到的更新规则自然地转化为前突触与后突触活动的赫布型函数 (Hebbian functions),从而保留了PC所强调的局部计算特性与生物学合理性 。此外,这些更新规则为后验参数提供了闭合形式表达式 ,使得在全批量训练中具备更优的收敛性能

总体而言,我们的研究结果表明,BPC为在生物系统中实现贝叶斯神经网络提供了一种可行的方法

当前工作存在两个主要局限性:

  1. 计算成本问题

    :该方法继承了在每次权重更新之前对隐变量 Z 执行梯度下降所带来的计算开销。这一局限性同样存在于PC中,导致两种算法在每轮训练中的计算时间相近。

  2. 参数后验分布的复杂性

    :使用 矩阵正态-逆维希特分布 (Matrix Normal Wishart)作为参数后验带来了额外的计算复杂度。对于更大的神经网络,有必要采用结构化的低秩近似方法。因此,如何选择后验近似方式是未来研究的重要方向之一。

需要指出的是,本文所有实验均在消费级CPU上运行。

仍有多个值得进一步探索的方向:

例如,可以先使用反向传播对模型进行预训练,然后应用BPC通过对隐变量 Z 的估计和对 λ 的闭合形式后验更新,在新批次数据上量化模型不确定性。

此外,还可以更深入地研究BPC的优化特性。例如,当前对 Σ 的估计在隐变量 Z 推断过程中起到了自适应学习率 的作用,能够动态强调更具信息量的(低方差)维度。

进一步地,使用共轭先验分布可能会促进有益的优化行为;例如,对 Σ 使用类似单位矩阵的先验可能鼓励潜在维度之间的独立性,从而有助于形成更解耦的表征,提升跨任务泛化能力。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

原文链接: https://arxiv.org/pdf/2503.24016?