Weighted Fisher divergence forhigh-dimensional Gaussian variational inference
高维高斯变分推断的加权 Fisher 散度
https://arxiv.org/pdf/2503.04246
摘要:
贝叶斯推断对于复杂模型有许多优势。然而,用于总结后验分布的标准蒙特卡洛方法在计算上可能非常耗时,因此考虑基于优化的变分近似方法具有吸引力。我们的研究考虑了具有稀疏精度矩阵的高斯近似,这种结构在高维问题中易于优化。尽管最优高斯近似通常被定义为在 Kullback-Leibler 散度下最接近目标后验分布的形式,但在高斯假设较为粗糙的情况下,考虑其他类型的散度也是有益的,以便捕捉后验分布在特定应用中的重要特征。我们的研究关注加权 Fisher 散度,它聚焦于目标后验与其近似之间的梯度差异,其中 Fisher 散度和基于得分的散度是其特殊情况。
我们做出了三个主要贡献。首先,在均场假设下,我们将加权 Fisher 散度的近似与 Kullback-Leibler 近似进行了比较,适用于高斯和非高斯的目标分布。其次,我们超越了均场假设,考虑了具有稀疏精度矩阵的近似方法,以反映分层模型中后验分布的条件独立性结构。我们使用随机梯度下降来实现稀疏性约束,并提出了两种基于重新参数化技巧和目标函数批量近似的方法来最小化加权 Fisher 散度。最后,我们通过逻辑回归、广义线性混合模型和随机波动模型等实例检验了我们方法的表现。
关键词和短语:Fisher 散度,基于得分的散度,随机梯度下降,高斯变分近似
1. 引言
贝叶斯推断是一种强大的不确定性量化工具,但其实施存在两个方面的挑战。首先,为所有未知变量和可观测变量指定一个完整的概率模型需要仔细思考,并且模型的各个部分需要根据数据进行验证。其次,贝叶斯计算较为困难,通常需要近似高维积分。对于许多贝叶斯模型来说,精确的后验推断是不可行的,实践中常使用多种数值方法来总结后验分布,例如马尔可夫链蒙特卡洛(MCMC)和变分推断(VI)。
MCMC 是渐进无偏的,这意味着只要迭代次数足够多,我们就可以以任意精度估计后验量。尽管 MCMC 常被视为后验估计的黄金标准,但在处理大数据集或复杂模型时,其计算成本可能过高(Robert and Casella, 2004; Maclaurin and Adams, 2015)。
另一方面,VI 通过最小化真实后验与一个更简单的变分分布之间的散度,将后验计算问题转化为一个优化问题。这种方法使得推理更快、更具扩展性,并利用了优化算法的发展成果(Blei et al., 2017)。因此,VI 因其在大规模问题中的计算效率而日益受到欢迎。
VI 的性能主要取决于所选择的变分近似族、优化技术以及用于刻画真实后验与变分密度之间差异的散度。大量 VI 文献集中于提高变分族的表现力和增强优化方法,通常使用 Kullback-Leibler 散度(KLD)作为衡量近似质量的标准。为了更好地捕捉变量间的依赖结构——这在分层模型中尤为明显——可以采用模仿真实依赖结构的结构化变分近似(Hoffman and Blei, 2015; Tan and Nott, 2018; Durante and Rigon, 2019; Tan, 2021)。最近,基于流的方法也被引入,该方法通过一系列可逆变换将初始简单分布转换为更灵活的形式(Rezende et al., 2014; Dinh et al., 2017; Agrawal and Domke, 2024)。这些方法使 VI 能够捕捉高度复杂的后验分布,显著增强了推理的灵活性。
尽管 KLD 非常流行,研究其替代散度仍然很重要,特别是在使用简单的变分族时,这些变分族可能因高维问题的可操作性而被采用。这些近似可能无法很好地匹配目标后验,而选择适当的散度可以帮助捕捉特定应用中后验最重要的特征。
一类包含 KLD 作为特殊情况的散度是 Rényi 的 α 族(Li 和 Turner, 2016),其中参数 α 可以调整,从而得到 Hellinger 距离(α = 0.5)、χ² 散度(α = 2)和 KLD(α = 1)。α 的取值可以平衡模式寻求(mode-seeking)和覆盖整个分布质量(mass-covering)的行为。然而当 α = 1 时,优化变分 Rényi 界最实用的方法使用的是有偏的随机梯度。
Stein 散度也逐渐成为 VI 中一种有力的目标函数。Ranganath 等人(2016)提出了算子变分推断(operator variational inference),这是一种极小极大方法,通过基于 Stein 算子构建变分目标来优化 Stein 差异。Liu 和 Wang(2016)开发了 Stein 变分梯度下降法(Stein variational gradient descent),该方法使用核化的 Stein 差异逐步将粒子向后验分布靠近。
在本文中,我们探讨在高斯变分推断中使用加权 Fisher 散度的应用,特别关注 Fisher 散度和基于得分的散度这两种特殊情况。这些散度的定义及其研究动机将在下文中介绍。
1.1 加权 Fisher 散度
得分匹配(Score matching,Hyvärinen, 2005)则关注对数密度关于变量 θ 的梯度之间的接近程度,尽管“得分函数”(score function)通常是指对数似然关于参数的梯度。这类差异的一种形式是加权 Fisher 散度(weighted Fisher divergence,Barp 等人, 2019),其定义为:
近年来,加权 Fisher 散度在变分推断(VI)中的应用引起了越来越多的关注。Huggins 等人(2020)表明,以广义 ℓp 范数定义的 Fisher 散度是 p-Wasserstein 距离的一个上界,对其优化可以确保变分密度在重要的点估计和不确定性方面与真实后验分布接近。Yang 等人(2019)推导出一种迭代加权最小二乘算法,用于最小化基于指数族变分近似的 Fisher 散度。Elkhalil 等人(2021)在其 Fisher 自编码器框架中采用可分解的多项式指数族作为变分近似,其性能与其他现有方法相当。Modi 等人(2023)通过最小化目标分布与高斯变分密度之间的 KLD,并施加以得分函数匹配为约束条件,提出了具有闭合形式更新规则的高斯得分匹配变分推断方法。对于结构化的隐式变分族,Yu 和 Zhang(2023)使用 Fisher 散度将优化目标重新表述为一个极小极大问题。Cai 等人(2024)提出了一种基于正交函数展开的变分族,并利用 Fisher 散度将优化目标转化为一个最小特征值问题。
本文的贡献主要有三个方面:
首先,我们研究了在均场高斯变分推断中,加权 Fisher 散度在高斯和非高斯目标下的表现,揭示了其相较于 KLD 更严重地低估后验方差的趋势。
其次,我们为高维分层模型开发了高斯变分推断方法,其中通过稀疏精度矩阵捕捉后验的条件独立性结构。我们使用随机梯度下降(SGD)进行参数更新,并提出了两种用于最小化加权 Fisher 散度的方法:第一种方法依赖于重新参数化技巧(reparametrization trick,Kingma 和 Welling, 2014),第二种方法则依赖于每次迭代中基于一批样本的目标函数的有偏估计(Elkhalil 等人, 2021;Cai 等人, 2024)。
第三,我们研究了在均场假设下,使用重新参数化技巧计算的无偏梯度估计的方差,以及基于批量近似的加权 Fisher 散度在极限情况下的行为。
本文的结构如下:在第 2 节和第 3 节中,我们分别研究了在变分推断(VI)中使用加权 Fisher 散度时,针对高斯目标和非高斯目标的后验众数与方差近似的质量。第 4 节通过使用稀疏精度矩阵来捕捉后验的条件独立性结构,介绍了针对分层模型的高斯变分推断方法。第 5 节和第 6 节分别基于重新参数化技巧(reparametrization trick)和批量近似(batch approximation)提出了两种用于最小化加权 Fisher 散度的随机梯度下降(SGD)方法。第 7 节讨论了实验结果,并将其应用于逻辑回归、广义线性混合模型(GLMMs)和随机波动模型。第 8 节总结全文的研究发现,并展望未来的工作方向。
2. 高斯目标下散度的排序
3. 非高斯目标下散度的排序
三种散度都能成功捕捉到位于 0 的目标后验众数。从表 1 可以看出,基于得分的散度(SD)对后验方差的低估最为严重,其次是 Fisher 散度(FD),而 KLD 的低估程度最小。在积分绝对误差(IAE)方面,FD 和 SD 得到的近似结果比 KLD 具有更高的准确率。图 2(前三个图)比较了变分密度与目标密度,可以看出,KLD 在众数附近的概率质量估计上比 FD 和 SD 更严重地偏低。
3.2 对数变换的逆伽马分布
表 3 显示,基于得分的散度(SD)提供了最准确的众数近似,但也表现出最严重的方差低估。
另一方面,KLD给出的众数近似最不准确,但在匹配目标方差方面最为接近。
总体而言,KLD具有最高的准确率,其次是FD和SD。
图 2(最后一个图)给出了可视化结果。
我们设定 m=0,并令 t∈{1,5}、λ∈{1,2,5}。从表 2 可以看出,在所有设置中,基于得分的散度(SD)对众数的捕捉最为准确,其次是KLD和FD(当尺度和偏度都较大时,FD 对众数的估计非常差)。
三种散度都低估了方差,其中KLD和FD的低估程度较轻,而SD的低估最为严重(在 t 和 λ 增大时,其方差估计趋近于零)。
当 t=1 且 λ∈{1,2} 时,FD和SD的准确率与KLD非常接近;但随着偏度和尺度的增加,KLD的准确率高于FD和SD。
图 3 展示了目标密度与最优变分近似的密度图。SD在识别众数方面表现良好,而FD和KLD在估计方差方面更为准确。在此背景下,SD被检测出存在多个局部最小值。
本节中的例子表明,如果目标密度具有偏态,SD在捕捉众数方面比FD和KLD更加准确,但也最严重地低估了后验方差。当目标密度具有偏态时,KLD的准确率高于FD和SD;而当目标密度是对称且具有重尾时,KLD的准确率则较低。
4. 稀疏高斯变分近似
5. 基于重参数化技巧的随机梯度下降(SGD)
5.1 梯度估计的方差分析
我们研究了通过对 KL、Fisher 和基于得分的散度应用重参数化技巧所得到的无偏梯度估计的方差,以考察条件矩阵 的影响。这些梯度的方差在优化稳定性中起着关键作用,因为较大的方差可能导致“之字形”现象,从而使收敛变得困难。
这些梯度估计的方差依赖于真实目标分布的均值和精度(它们是固定的),以及变分近似分布的均值和精度(它们在 SGD 过程中不断变化)。假设 Λ 和 T 均为对角矩阵,则:
6. 基于批次近似的随机梯度下降(SGD)
基于重参数化技巧得到的无偏梯度估计涉及 Hessian 矩阵 ,这在计算上较为昂贵,存储需求高,并且会增加梯度估计的方差。这可能导致在最小化 Fisher 散度(FD)和基于得分散度(SD)时出现不稳定性。
为了解决这些挑战,我们提出了一种替代方法,通过在每次迭代中从当前变分近似分布中随机选取一个样本批次,来计算 FD 和 SD 的有偏估计值,并最小化这些估计值,从而消除了对 Hessian 矩阵的依赖。
首先,SD 和 FD 可以分别表示为:
6.1 解释与相关方法
此前,Elkhalil 等人(2021)设计了基于使用 SGD 最小化 Fisher 散度的批次近似值的自编码器(autoencoders)。Cai 等人(2024)也提出了一种 BaM 算法,该算法通过最小化目标函数,推导出了 (μ,Σ)的闭式更新公式,
此外,BaM 是为全协方差矩阵设计的,不清楚如何在精度矩阵中施加稀疏性,以利用分层模型后验中的条件独立结构。在实际应用中,BaM 还可能遇到病态矩阵导致的不稳定性和数值问题,即使增加批量大小也可能无法缓解这些问题。
相比之下,SGD 允许直接更新精度矩阵的 Cholesky 因子,使得稀疏结构可以轻松被施加。同时也可以使用更小的批量,进一步减轻计算和存储负担。
综上所述,虽然 BaM 更适合全协方差高斯变分推断,但我们的方法为具有条件独立结构的高维分层模型提供了一种更具可扩展性和稳定性的替代方案。
6.2 均场假设下的批次近似目标函数
接下来,我们在第2节中考虑的均场假设下,研究批次近似下的 Fisher 散度(FD)和基于得分散度(SD)的行为。
7. 应用
我们通过将表4和表5中的算法应用于逻辑回归、广义线性混合模型(GLMMs)和随机波动模型,并将其结果与 BaM 和 MCMC 进行比较,从而评估这些算法的性能。
MCMC 抽样使用 RStan 实现,运行两条并行链,每条链进行 50,000 次迭代。前一半迭代作为预热(burn-in)被舍弃,剩余的 50,000 次抽样用于计算核密度估计,作为金标准(gold standard)。
为了评估变分近似相对于 MCMC 的多变量精度,我们使用最大均值差异(Maximum Mean Discrepancy, MMD;Zhou 等,2023)。我们计算:
为了评估收敛性,我们追踪了下界(lower bound)的无偏估计 L^,并对 SGD 方法每 1000 次迭代、对 BaM 每 50 次迭代进行平均,以减少噪声。在 BaM 中使用的平均迭代次数较少,因为其使用闭式更新,使得轨迹更加稳定,振荡更小。
此外,BaM 通常需要更大的批量大小,并且比 SGD 方法收敛得更快。
当拟合于过去五个下界平均值的线性回归线的梯度小于 0.01,或达到最大迭代次数时,算法终止。
FDb 和 SDb 的批量大小根据模型复杂度进行调整,对于更复杂的模型使用更大的批量。
所有实验均在一台配备 16GB 内存的 Apple M1 计算机上运行,使用 R 和 Julia 1.11.2 编程实现。
我们将逻辑回归模型应用于来自 UCI 机器学习仓库(UCI machine learning repository)的两个真实数据集。
第一个是德国信用数据(German credit data),该数据集包含 1000 名个体,被分类为“信用良好”或“信用不良”,并具有 20 个属性。所有定量预测变量均被标准化为均值为零、标准差为一,定性预测变量则使用虚拟变量(dummy variables)进行编码。
第二个是 Adult 数据集,包含 48,842 条观测,用于预测某人的年收入是否超过 50,000 美元,基于 14 个属性。为了使 MCMC 方法可行,我们使用了预处理后的 a4a 数据(网址:www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html),该数据集是从 Adult 数据中提取出的 4781 个训练样本。
在预处理之后,德国信用数据的维度 d=49,而 a4a 数据的维度 d=124。由于 a4a 数据维数较高且观测数量庞大,我们仅从两条并行链中各抽取 10,000 次迭代,共生成 10,000 个 MCMC 样本。
对于 FDb 和 SDb,我们使用的批量大小为 B=3;对于 BaM,则使用 B=50。最大迭代次数设置为 60,000。
图6展示了 SGD 方法下界(lower bound)的演化过程。FDr 和 SDr 收敛非常缓慢,并且在终止时所达到的下界远低于其他方法。这可能是由于它们的梯度估计具有较高的方差,正如第5.1节所讨论的那样。
相比之下,SDb 收敛速度很快,并且在前一千次迭代内就达到了最高的下界,甚至超过了 KLD。而 FDb 所达到的下界则低于 KLD 和 SDb,但其表现仍优于 FDr 和 SDr。
从表6中的 MMD 结果来看,FDr 和 SDr 得到的变分近似远不如 KLD 准确;而 FDb 和 SDb 相比 FDr 和 SDr 有显著改进。特别是,SDb 在德国信用数据上产生的结果与 KLD 相当,在 a4a 数据上的表现甚至优于 KLD。
在运行时间方面,KLD 是所有 SGD 方法中最快的。对于德国信用数据,FDr、SDr、FDb 和 SDb 每千次迭代大约各需 0.25 秒,但 FDb 和 SDb 收敛所需的迭代次数更少。而对于 a4a 数据,由于高维情况下计算 Hessian 的代价更大,FDr 和 SDr 每千次迭代需要约 3.5 秒,而 FDb 和 SDb 仅需约 1.5 秒。
BaM 收敛最快,在运行时间上优于所有 SGD 方法。其在德国信用数据上的 MMD 值与 KLD 相当,而在 a4a 数据上的 MMD 值则远高于所有 SGD 方法。
总体而言,基于批次近似的 FD 和 SD 优化所得的 MMD 值始终高于基于重参数化技巧的方法。在准确捕捉边缘众数(marginal mode)方面,SDb 和 BaM 在德国信用数据上与 KLD 表现相当,在更具挑战性的 a4a 数据上则优于 KLD。
所有变分近似方法至少比 MCMC 快一个数量级,并且随着维度和观测数量的增加,这种加速效果更加明显。
7.2 广义线性混合模型(Generalized Linear Mixed Models, GLMMs)
首先,我们考虑来自一项临床试验的癫痫数据(Thall 和 Vail,1990),该数据包含 n=59 名患者,他们被随机分配到药物组(服用普加巴林,Trt = 1)或安慰剂组(Trt = 0)。反应变量是每位患者在四次随访期间所经历的癫痫发作次数。
协变量包括患者基线时年龄的对数值,并通过减去均值进行了中心化处理(记为 Age);试验前癫痫发作次数的四分之一的对数值(记为 Base);随访次数,编码为 −0.3、−0.1、0.1、0.3(记为 Visit);以及是否为第四次随访的指示变量(记为 V4)。
我们考虑具有随机截距和随机斜率的泊松混合模型(Breslow 和 Clayton,1993):
接下来,考虑De Backer 等人(1998)提供的关于脚趾甲感染的数据,这些数据来自一项临床试验,比较了两种口服抗真菌药物对脚趾甲感染的治疗效果。共有294名患者参与,每名患者最多接受了七次随访检查,总共产生了1908个观测值。
患者被随机分配接受每日250毫克的特比萘芬(Trt = 1)或每日200毫克的伊曲康唑(Trt = 0)。反应变量(因变量)是二分类的:0 表示无分离或轻度甲分离,1 表示中度或重度甲分离。
随访时间(以月为单位)进行了标准化处理,使其均值为0,方差为1。对该数据拟合了一个逻辑斯蒂随机截距模型(logistic random intercept model),
最后,我们分析Hosmer 等人(2013)提供的多重用药数据(polypharmacy data),该数据包含500名受试者,每人在7年内被观察其药物使用情况,共产生了3500个二分类响应值。
协变量包括:
性别(Gender):1 表示男性,0 表示女性;
种族(Race):0 表示白人,1 表示其他种族;
年龄(Age):取 log(age/10);
是否有住院精神健康就诊记录(INPTMHV):若没有住院精神健康就诊记录则为0,否则为1。
门诊精神健康就诊次数(MHV)被编码为以下三类:
MHV1 = 1,如果 1 ≤ MHV ≤ 5;
MHV2 = 1,如果 6 ≤ MHV ≤ 14;
MHV3 = 1,如果 MHV ≥ 15。
我们考虑拟合一个逻辑斯蒂随机截距模型(logistic random intercept model)。
在本节中,我们对FDb和SDb使用的批量大小(batch size)为 B=5。
对于BAM方法,在癫痫数据中使用的批量大小为 B=100,而在脚趾甲数据和多重用药数据中使用的批量大小为 B=1000。
在后两种情况下使用更大的批量大小,是因为BAM 方法非常容易出现病态更新(ill-conditioned updates),并且在较小的批量大小下收敛速度非常慢。
对于癫痫数据,最大迭代次数设置为 60,000;而对于包含更多观测值的脚趾甲数据和多重用药数据,最大迭代次数减少至 30,000。
图7显示,在各种随机梯度下降(SGD)方法中,SDb是收敛速度最快的之一。在Epi I、Epi II 和 polypharmacy 数据集上,它达到的下界高于 KLD;而在toenail 数据集上,其表现与 KLD 相当。
虽然FDb在 Epi I 和 Epi II 上收敛很快,但在脚趾甲(toenail)和多重用药(polypharmacy)数据上,在最大迭代次数 30,000 次内未能完成收敛。
总体来看,基于有限差分(FD)的方法(如 FDr、FDb)似乎比基于随机差分(SD)的方法(如 SDr、SDb)收敛得慢得多。
从表7中的 MMD 结果来看,FDr 和 SDr 的 MMD 最低。相比之下,FDb 和 SDb与其基于重参数化技巧的对应方法相比有了显著改进,达到了更高的 MMD 值。
在基于加权 Fisher 散度的 SGD 方法中,SDb 的 MMD 最高,甚至超过了 Epi I 上的 KLD。
BaM在 Epi I 和 Epi II 上的表现优于 KLD,但在 toenail 和 polypharmacy 数据上表现不佳,这反映了 BaM 在高维情况下面临的挑战——即当参数 θ 的维度更高时,其性能会下降。
KLD 能够最准确地捕捉每个变量的边缘后验众数(marginal posterior mode),SDb 和 BaM 的表现则与之相当。
BaM 在 Epi I 和 Epi II 中最准确地捕捉了边缘后验方差(marginal posterior variance),但在更高维的 toenail 和 polypharmacy 数据中,其表现落后于 KLD。
SDr 对边缘后验方差的估计低估最为严重,这一点让人联想到其在平均场设定下所面临的“变分坍缩”(variational collapse)问题。
BaM 能以最少的迭代次数实现收敛,这是因为它利用了闭合形式的更新公式以及更大的批量大小。然而,BaM 每次迭代的计算成本远高于 SGD 方法,因为后者可以利用精度矩阵的稀疏结构。随着参数 θ 维度的增加,这一问题变得更加明显。
在 SGD 方法中,KLD 的运行时间最短。基于 FD 的方法通常比基于 SD 的方法需要更多的迭代次数才能收敛,因此运行时间更长。
SDb 能够在与 KLD 大致相同的迭代次数内收敛,尽管每次迭代所需的时间更长。
图8比较了使用 MCMC 得到的边缘密度与来自 KLD、SDb 和 BaM 的变分近似结果,展示的是 Epi I 和 polypharmacy 数据集中部分变量的结果。
对于第一行的 Epi I 数据,所有变分方法都与 MCMC 结果非常接近,除了变量 ζ,其中SDb 对边缘后验方差的低估比 BaM 和 KLD 更严重。
对于第二行中更高维的 polypharmacy 数据,KLD 与 MCMC 结果最为接近,而 SDb 和 BaM 更倾向于低估边缘后验方差,尽管在某些情况下它们对众数的估计更为准确。
7.3 随机波动模型
随机波动模型被广泛用于捕捉金融时间序列的动态特性。它为像布莱克-舒尔斯模型(Black-Scholes model,Black 和 Scholes,1973)这样的常数波动率模型提供了一种有吸引力的替代方案,因为在随机波动模型中,资产收益的波动率是根据一个随机过程随时间演变的。
在时间 t 的响应变量(即观测值)为:
其变分近似中与Ω具有相同稀疏结构的矩阵,推导见补充材料。
我们分析了 R 软件包Ecdat中Garch数据集提供的两个数据集。
第一个数据集包含n = 945个观测值,表示从1981 年 10 月 1 日至 1985 年 6 月 28 日的美元对英镑(GBP)工作日汇率。
第二个数据集包含n = 1866个观测值,表示从1980 年 1 月 2 日至 1987 年 6 月 21 日的美元对德国马克(DEM)工作日汇率。
对于这两个数据集,均值修正后的对数收益率序列 {yt} 是通过对汇率序列 {rt} 进行如下处理得到的:
我们对FDb和SDb使用的批量大小为 B=10,而对于GBP 数据集上的BaM方法,使用的批量大小为 B=50。
我们尝试使用更大的批量大小来运行 BaM,但结果导致了严重的病态更新(ill-conditioned updates)。
对于维度更高的DEM 数据集,尽管尝试了多种不同的批量大小,我们仍无法使 BaM 收敛。
在该任务中,使用 BaM 推断一个阶数为 d=1869 的完整协方差矩阵的挑战是非常巨大的,更不用说还要承担如此高阶矩阵求逆所带来的巨大计算成本。
我们将最大迭代次数设定为30,000次。
从表8中的 MMD 值可以看出,FDr、SDr 和 FDb的表现相较于其他方法非常差。
在优化加权 Fisher 散度的 SGD 方法中,SDb 表现最好。
它的 MMD 值与 GBP 数据集中 KLD 的值接近,在更高维的 DEM 数据集中甚至超过了 KLD。
此外,SDb 和 BaM在两个数据集上都比 KLD 更准确地捕捉到了后验分布的众数(mode)。
在运行时间方面,KLD 是最有效率的方法,它在最短的时间内达到了很高的 MMD 值。
虽然BaM 所需的迭代次数较少即可收敛,但每次迭代的计算成本非常高,导致整体运行时间很长。
例如,在 GBP 数据集上,BaM 收敛所需时间为1521 秒,几乎是 SDb 运行时间的三倍。
随着维度的增加,BaM 变得更加不稳定,更容易出现病态更新,导致收敛变得非常困难;
而SDb 则提供了一种更为可靠且在计算上可行的方法,用于优化基于批量近似的随机差分(SD)。
图9展示了在使用SDb方法时,批量大小(batch size)对收敛速度和近似质量(通过 MMD 衡量)的影响。
增加批量大小显然带来了更快的收敛速度和更优的近似质量。
如图9第一行图例中所示,总运行时间也减少了,因为收敛所需的迭代次数更少。
这表明,更大的批量大小可以同时提升 SDb 的稳定性和准确性。
图10展示了来自MCMC、KLD 和 SDb(B = 10, 100)的边缘后验密度估计结果,涵盖了一些局部变量(local variables)以及 DEM 数据集中所有的全局变量(global variables)。
SDb 比 KLD 更准确地捕捉到了边缘后验众数(marginal posterior mode),尤其是在每一个全局变量上表现更好;
但 SDb 更倾向于低估后验方差(posterior variance)。
将批量大小从 10 增加到 100 有助于减轻对后验方差的低估程度。
8. 结论
在本文中,我们通过关注Fisher 散度(FD)和随机差分(SD),评估了基于加权 Fisher 散度的高斯变分推断方法的表现。
首先,我们考虑了在均场假设(mean-field assumption)下,针对高斯和非高斯目标分布的情况。我们表明,在这种设定下:
- FD 和 SD 比 KLD 更严重地低估后验方差
对于偏态目标分布,SD 比 FD 和 KLD 更能准确捕捉后验众数,但也更严重地低估方差。
接下来,我们研究了高维分层模型,在这类模型中,可以通过在高斯变分近似中使用稀疏精度矩阵来捕捉后验条件独立结构。
为了在精度矩阵的 Cholesky 分解中引入稀疏性,我们考虑了基于随机梯度下降(SGD)的优化方法,并提出了两种基于重参数化技巧和目标函数批量近似的新方法。
- 重参数化技巧
能够提供无偏的梯度估计,但涉及 Hessian 矩阵的计算,这在计算上非常昂贵,同时会增加梯度的变异性,导致稳定性降低、收敛速度减慢。
为了解决这些问题,我们引入了一种替代方法:在每次迭代中使用一个随机样本批次,对 FD 和 SD 的目标进行有偏估计并最小化它。
这种方法消除了对 Hessian 矩阵的依赖,提高了稳定性;
它也可以被解释为在不断向后验高概率区域移动的样本点上,逐步改进后验密度与变分密度之间梯度匹配的一种新目标函数的优化过程。
我们在高斯目标下对这一新目标在均场假设下的表现进行了评估,结果表明它可以缓解之前 SD 所面临的“变分坍缩”问题。
我们将提出的方法与KLD和BaM在逻辑回归、广义线性混合模型(GLMMs)和随机波动模型(stochastic volatility models)中的应用进行了比较。
大量实验表明:
- FDr 和 SDr 收敛非常缓慢
,且常常收敛到次优的变分近似;
- FDb 和 SDb 相比 FDr 和 SDr 有了显著改进
,其中SDb 在收敛速度和变分近似质量方面表现最优;
- BaM
依赖闭合形式更新,因此所需迭代次数较少,对于逻辑回归非常有效;
但在 GLMMs 和 SSMs 中,BaM 的效率远低于 KLD;
随着维度的增加,BaM 的性能逐渐恶化,最终甚至无法收敛;
- SDb 在高维情况下相比 BaM 具有优势
,因为它能够在精度矩阵中施加稀疏性,保持计算可行性,具有更高的稳定性和对初始值不敏感的特点;
- SDb 能比 KLD 更准确地捕捉后验众数
,尽管它更容易低估方差。
未来的研究方向仍有多个值得探索:
我们的分析主要集中在FD 和 SD 的高斯变分近似上,未来可以研究在更灵活的变分族下 FD 和 SD 的表现;
虽然我们使用了SGD 进行优化,但优化器及其超参数的选择对收敛行为有很大影响,未来可探索不依赖 SGD 的其他优化技术;
我们的研究也突出了批量近似 SD 方法的潜力,值得在其他情境中进一步探讨其性质。
原文链接:https://arxiv.org/pdf/2503.04246
热门跟贴