Machine Learning and the Future of Bayesian Computation
机器学习与贝叶斯计算的未来
https://arxiv.org/pdf/2304.11251
摘要:
贝叶斯模型是研究复杂数据的强大工具,允许分析者编码丰富的层次依赖关系并利用先验信息。最重要的是,它们通过后验分布实现了对不确定性的完整刻画。实际的后验计算通常通过马尔可夫链蒙特卡洛(MCMC)方法进行,但对于具有大量观测的高维模型,这种方法在计算上可能不可行。在本文中,我们讨论了如何利用机器学习中的思想来改进后验计算。我们通过关于正则化流(normalizing flows)、贝叶斯核心集(Bayesian coresets)、分布式贝叶斯推断和变分推断的案例探讨了具体的发展方向。
关键词:核心集、联邦学习、机器学习、正则化流、后验计算、变分贝叶斯。
1. 引言
在科学、工业和政策领域,人们对复杂现实世界过程的推断和预测表现出极大的兴趣。贝叶斯模型之所以具有吸引力,是因为它们允许指定丰富的生成模型,这些模型涵盖了数据中的层次结构,能够通过先验自然地纳入专家和/或先前研究的信息,并通过后验分布和预测分布对学习/推断/预测中的不确定性进行完整刻画。将贝叶斯统计应用于复杂现实世界数据的主要障碍是后验计算。在实践中,后验计算——评估后验概率/期望、参数的可信区间、特征的后验包含概率、后验预测区间等——通常基于使用马尔可夫链蒙特卡洛(MCMC)的后验样本。标准的MCMC方法在后验具有复杂几何结构(例如多个相距较远的模式或几何/流形约束)时常常无法收敛。即使从简单的后验中采样,当数据有数千万甚至数亿个观测值时也可能具有挑战性。本文专注于贝叶斯计算的未来,重点研究具有潜在数百万数据点的高维、几何结构复杂的后验推断。
机器学习的近期爆炸性成功对我们设想贝叶斯计算的未来至关重要。为了使我们的设想具体化,我们准备了四个案例,涵盖不相交的前沿计算技术,所有这些技术都涉及机器学习的思想。第一个案例描述了正则化流作为适应复杂目标的自适应MCMC的新工具;第二个案例描述了贝叶斯核心集作为一种在采样前进行数据压缩的方法;第三个案例描述了针对超大数据集的分布式贝叶斯推断;第四个案例描述了现代变分推断,用于前面技术失效的场景。所有部分都重点探讨了未来研究的有前景的方向。
2. 使用深度生成模型进行采样
Metropolis Hastings(MH)算法(通常嵌入在Gibbs采样中)是采样后验分布最受欢迎的工具。良好的混合性能在很大程度上取决于MH提议分布与目标分布的相似程度。随着目标分布的维度增加以及几何结构变得更加复杂,所需的提议分布也必须更加灵活,而这使得调参变得困难。因此,通常的做法是选择更简单的提议分布,例如多变量高斯分布,它们能够提供对目标的良好局部近似。然后,通过自适应学习后验协方差[53,139,153]或离散化由目标驱动的动力学[106,86]来调整参数,以鼓励高效的探索。局部方法的一个主要局限性是它们在实践中难以跨越低概率区域,从而导致多峰分布的收敛速度较慢。为了克服这一问题,人们提出了许多解决方案,范围从略微修改局部核以鼓励跨越低概率区域[73,114,85],到构建全新的核,这些核是局部和全局成分的混合[7,2,129]。尽管取得了这些进展,但目前仍没有一种通用方法能够高效地采样复杂的高维分布。
我们相信深度学习将在开发更好的通用解决方案中发挥重要作用。深度生成模型在估计和近似采样复杂的高维分布方面取得了显著成功,并在图像/音频/视频合成、计算机图形学、物理/工程模拟、药物发现等领域实现了最先进的性能[56,70]。在本节中,我们讨论了如何使用深度生成模型来设计更好的MH提议分布,既可以通过增强现有核,也可以通过构建全新的分布。大多数深度生成模型使用神经网络(NN)将一个简单的基分布转换为与预指定的经验分布紧密匹配的形式。通过MH进行后验计算的设置引入了两个实际问题。首先,在采样之前无法获得目标分布的样本,这使得训练NN的过程变得复杂。其次,MH的每次迭代都需要计算接受概率,因此需要评估提议分布的密度。如果提议分布是一个简单的分布通过NN转换而来,那么这就需要逆向求解NN,这通常是不可能的,并且需要计算雅可比行列式,这在高维情况下可能在数值上难以处理。
在本节中,我们讨论了如何通过自适应调整正则化流(NF)提议来解决这些挑战。第2.1节介绍正则化流;第2.2节和第2.3节涵盖了其在MH中的应用及其直接的推广;第2.4节讨论了令人兴奋的未来研究方向。
2.1 正则化流简介
其计算复杂度为 O(D)。平面流(Planar flows)并非对所有参数选择和非线性函数都可逆,但可以利用高效的约束优化算法来确保其可逆性 [137]。然而,平面流的表达能力相对有限,可能需要较多层才能构建足够复杂的高维提议分布。已有改进的组件函数被提出,包括径向流(radial)[137]、样条流(spline)[34]、耦合流(coupling)[31]、自回归流(autoregressive)[69] 等。关于归一化流(NFs)的综述可参考 [70],关于离散流(discrete flows)表达能力的理论可参考 [122]。
连续归一化流(Continuous Normalizing Flows,CNFs)[25] 是离散框架的扩展,可能在增强表达能力的同时减少参数需求,并降低内存复杂度。其核心思想是将离散归一化流(DNFs)重新构想为计算粒子在离散时间 t ∈ {0, 1/K, 2/K..., 1} 上路径 x(t) 的方法。初始位置 x(0) 取自 Z。在时间 1/K 处,位置更新为 x(1/K) = f₁(x(0)),这一过程被迭代执行,使得 x(i/K) 在时间 i/K 处更新为 x((i + 1)/K) = fᵢ(x(i/K)),直至时间 1。最终得到路径 (x(0), ..., x(1)),其中最终位置是 Y 的一个样本。CNFs 考虑极限情况 K → ∞,其核心直觉是,相较于离散路径,通过连续路径引导 Z 的样本可以获得更灵活的 Y 分布。这一过程可以形式化为初值问题。
其中 f 是由神经网络参数化的函数,而 x(0) 是从分布 Z 中抽取的样本。实际上,方程(6)无法通过解析方法求解,但可以通过常微分方程(ODE)求解器生成分布 Y 的近似样本。使用步长为1/K 的欧拉方法可以精确地恢复一个具有 K 层的离散正则化流(DNF),但通过使用更高阶的求解器可以获得更强的表达能力。这一框架具有许多令人惊讶的技术优势;详细内容可参考文献 [25]。
2.2 正则化流提议
在本节中,我们概述了使用正则化流构建提议分布的现代方法。在此过程中,我们用 表示目标密度,其中 y 是 D 维的目标变量。
通过将正则化流(NF)提议与经典核(如HMC)结合使用,可以实现更高的初始接受率。例如,可以交替使用HMC和条件流来提议样本。经典核生成的样本为正则化流的调参提供了数据。最终,正则化流成为后验分布的良好近似,能够高效地进行全局移动,从而比单独使用经典核获得更好的混合性能。文献 [40] 构建了一种提议机制,大约每进行一次独立的正则化流提议,就进行大约10次MALA提议。这种采样器能够高效地探索多峰分布:MALA在局部探索每个峰,而正则化流则在峰之间“瞬移”链。关键是要在每个峰中至少初始化一个粒子,因为局部动力学不太可能自行发现新的峰。该算法在连续时间极限下被证明具有指数级的收敛速率。当通过最小化KL散度来自适应学习流时,部分遍历理论是可用的,尽管其他损失函数尚未被研究。
增强现有核 前面讨论的混合方法依赖于经典核进行局部探索,直到有足够的数据来训练正则化流。另一种方法是使用正则化流来增强经典核——也就是说,在链运行过程中改进经典核,而不是调整一个单独的辅助核。我们以HMC为例,其中通过抽取动量并(通常)用蛙跳积分器近似得到的哈密顿动力学来提议一个新状态 x' 。近似的一个时间步通过动量的半步进行:
该过程重复预设的次数以生成最终提议;最终的动量被忽略。得到的提议是对称且体积保持的,从而导致一个简单的接受率。跨越低概率区域需要较大的速度,如果动量是从高斯分布中采样的话,这是不太可能的。文献 [77] 使用正则化流(NFs)来学习一组动态地重新缩放动量和位置的映射,以鼓励在低概率区域之间的探索。具体来说,动量的半步被替换为
其中 是正则化流。动量再次使用方程(12)进行更新,将 x' 代入 x ,整个过程不断迭代。当所有这些正则化流均为零时,我们完全恢复了哈密顿蒙特卡洛(HMC)算法。允许正则化流非零则产生了一个非常灵活的提议分布族,可以通过重新缩放和平移动量/位置,自适应地将采样器推出低概率区域。正则化流的可逆性和易于计算的雅可比行列式使得提议密度的计算变得高效。
这一介绍简化自文献 [77],该文献还包含了随机方向、随机掩码,并且将正则化流应用于蛙跳迭代。到目前为止,上述增强技术仅应用于哈密顿蒙特卡洛(HMC)。然而,存在一类广泛的动力学系统可用于生成提议分布,包括朗之万动力学、相对论动力学、Nose-Hoover恒温器等。可以使用上述相同的方法,用正则化流增强所有这些算法。
2.3 调整提议分布
适当调整正则化流(NF)参数对于良好的混合性能至关重要。在实践中,调整通常是通过自适应地最小化某种损失函数来完成的。在本节中,我们将讨论多种候选的损失函数,包括基于测度的损失、摘要统计量以及对抗性方法。
自适应估计可以通过交替进行马尔可夫链蒙特卡洛(MCMC)采样和使用损失函数(14)的梯度更新正则化流参数来实现。梯度可以通过蒙特卡洛方法利用之前的样本进行估计。在对正则化流和目标分布进行技术假设的条件下,得到的马尔可夫链是遍历的,并且具有正确的极限分布。
除了上述方法外,还可以选择其他多种距离度量作为损失函数 d ,例如 Hellinger 距离、(切片)Wasserstein 距离、总变差距离等。这些方法大多尚未被探索用于自适应估计流,因此尚不清楚哪种方法能够获得最佳性能。这类方法的主要局限性在于,最小化差异仅间接地针对良好的混合性能;接下来我们将考虑直接通过 MCMC 诊断方法来实现良好的混合。
在某些情况下,对目标的高质量全局近似可能并不是实现足够好混合的必要条件,尤其是当正则化流与局部核(如 HMC)联合使用时。在这种情况下,使用基于距离的损失函数是过于激进的,通过切换到直接针对良好混合的损失函数,可能会获得更好的实际性能。理想情况下,我们希望最大化有效样本量,但这依赖于整个马尔可夫链的历史,并且通常计算速度较慢。因此,文献 [77] 提出最小化滞后1自相关性,这等价于最大化期望平方跳跃距离。
这种损失函数通过隐式地依赖于 。单纯优化这种损失函数并不能保证在整个空间中实现良好的混合——例如,马尔可夫链可能会在两个相距较远的模式之间来回反弹。为了解决这些问题,文献 [77] 添加了一个互反项,并转而优化:其中 是一个调参参数。互反项惩罚了期望平方跳跃距离较小的状态。文献 [77] 还添加了相同形式的项以加快收敛速度。这种复合损失函数被用于训练增强型哈密顿蒙特卡洛(HMC)变体,并实现了在分离模式之间高效移动的采样器。
其他摘要统计量也可以整合到这个框架中,例如考虑滞后 k 自相关性或多个链的总结统计量,如 Gelman-Rubin 统计量。这类损失函数的一个问题是,没有单一的摘要统计量能够检测链是否已经混合,单纯优化一个统计量可能会导致难以检测的病态行为。接下来,我们讨论一种不同的策略,这种策略可能介于雄心勃勃的距离方法和狭窄的摘要统计量方法之间。
对抗性训练:生成对抗网络(GANs) 通过让两个神经网络在一个极小化极大游戏中相互对抗来工作。第一个玩家是生成器,它将噪声转化为看起来像真实数据的样本;第二个玩家是判别器,它试图判断任意样本是合成的还是真实的。GANs 可以应用于 MCMC,将提议分布作为生成器,并训练一个判别器来区分提议和目标分布的先前样本。文献 [147] 使用这一思想自适应地训练一个正则化流提议分布,该提议在多峰分布上显著优于哈密顿蒙特卡洛(HMC)。通过利用现代 GAN 文献中的思想,可以实现许多改进。条件 GANs 允许判别器和生成器基于外部变量进行条件化。例如,可以通过基于温度变量的条件化构建一个退火对抗算法,可能加速退火 MCMC 的混合。复杂的 GAN 结构容易出现模式坍塌,因此这些泛化可能需要修改损失函数和正则化。
2.4 未来研究方向
我们已经介绍了几种不同的核结构和损失函数,它们可以组合起来开发新的自适应马尔可夫链蒙特卡洛(MCMC)算法。在本节中,我们讨论了所提出方法的不足之处,以及令人兴奋的长期研究方向。
理论保证 到目前为止,只有在最简单的情况下——通过自适应最小化KL散度来调整独立正则化流(NF)提议——才有部分遍历理论可用。依赖性/条件性提议和增强型核尚未得到充分研究,当自适应最小化基于摘要统计量或对抗性损失时,没有任何理论保证。这尤其令人担忧,因为对于基于摘要统计量的损失,不清楚最小化(例如,滞后1自相关性)是否足以保证遍历平均值收敛到正确的值。精确的理论结果将为这些方法何时/为何成功/失败提供见解,并且是广泛采用正则化流采样的必要前提。
约束后验分布 在本节中,我们仅考虑目标分布在欧几里得空间上的情况。然而,在某些应用中,目标分布可能定义在黎曼流形上(例如,球面或半正定矩阵)。大多数流形采样算法依赖于近似定义在流形上的内在动力学,或者通过从环境空间投影诱导的动力学。对于多峰分布,这些基于动力学的方法可能不如正则化流核有效。最近的研究已经成功地将正则化流推广到黎曼流形上,但这些构造通常对几何结构施加了显著的限制(例如,与球体的乘积微分同胚),或者依赖于高方差的雅可比行列式估计。定义和计算流形上提议分布与目标分布之间距离的损失函数可能更加困难。为流形值正则化流设计新的架构以及改进的估计技术,可能会促进在具有非欧几里得支撑的广泛模型类别中进行高效采样。
我们的讨论还忽略了离散参数。离散参数在贝叶斯应用中经常出现,包括聚类/离散混合模型、潜在类别模型和变量选择等。已经构建了特定的正则化流架构来处理离散数据[151,177],但当前方法相对不够灵活,无法通过简单地增加更多神经网络(NN)层来提高灵活性,这限制了它们在Metropolis Hastings(MH)中的实用性。一个更有前景的方向是通过将离散参数嵌入欧几里得空间并从增强的后验分布中采样,来利用连续正则化流的灵活性。已经提出了几种HMC变体以适应分段不连续的势函数[121,103,32],其中最近的实现,如不连续HMC(DHMC),在采样序数变量方面表现出色。然而,基于嵌入的方法在采样无序变量时面临挑战——这里的嵌入顺序是任意的,大多数嵌入会在增强的后验分布中引入多峰性。正则化流已经成功地增强了连续HMC以处理多峰分布;同样的策略有望改进DHMC。
自动化的提议选择 在先验情况下,尚不清楚哪种神经网络(NF)架构、核结构和损失函数能够为采样给定的后验分布提供最高效的混合。运行许多具有不同选择的马尔可夫链可能会耗费大量时间,而如果某些链混合效果不佳,可能会浪费大量的计算工作。用于自动选择架构/核/损失的工具将极大地提升所提议方法的可及性。
然而,这一目标通常难以实现,原因在于:(1)可能的采样器空间非常庞大;(2)不同的架构和核并不总是可比的;(3)良好的混合效果无法用单一数值总结来量化。来自强化学习、序贯决策制定和控制理论的思想或许能够提供探索可能采样器空间的合理算法。可以定义一个由核/损失对构成的状态空间,智能体通过运行自适应马尔可夫链蒙特卡洛(MCMC)与之交互。在每次行动后,智能体观察采样器输出,例如轨迹图和汇总统计量。目标是开发一种策略,用于选择接下来要运行的核/损失对,同时最大化某种累积奖励,例如所有链的累积有效样本量。作为一种初步尝试,可以将核限制为具有相同结构,例如仅改变NF架构的哈密顿蒙特卡洛(HMC)/NF混合,以及将损失函数限制为简单的参数族,例如具有不同调节参数的滞后1损失。这有助于对状态空间进行参数化,并允许应用现有的连续臂老虎机算法 [1, 159]。构建一个能够高效探索具有根本不同核结构和损失函数的核/损失对的序贯决策制定算法是一个开放性挑战,这可能需要更好地理解不同提议核结构之间的理论关系,以及由最小化不同类型损失所导致的动态变化。
广泛的模式预期 随着神经网络流(NF)的使用增加,我们期望出现一些广泛的模式,某些架构/核/损失函数会在特定类型的问题中持续表现良好。例如,作者观察到离散样条流在从高斯混合模型中采样时表现非常好。这些经验法则可以被收集到一个社区参考手册中,使统计学家能够快速找到适合其模型类别、数据维度、数据特征等的有希望的候选算法。通过众包的方式构建和维护这个手册,可以帮助统计学家跟上神经网络流(NF)的发展,尽管机器学习研究的进展速度很快。
加速调整 本案例中介绍的配方是:(1)选择一个NF核结构,(2)选择一个损失函数,(3)从随机初始化开始自适应地估计参数。在步骤(3)中从随机初始化开始是低效的。迁移学习/元学习可能提供避免随机初始化的工具,从而加速调整。例如,迭代模型开发和敏感性分析通常涉及使用略有不同的先验设定重复相同的推断。为一个先验设定估计的NF参数可以用于初始化其他先验设定的采样器,可能消除对自适应调整的需求。
一个更具挑战性的任务是处理具有相似结构但不同维度的目标。例如,考虑一个贝叶斯稀疏逻辑回归模型,用于根据大脑的向量化图像对阿尔茨海默病状态进行分类。感兴趣的是从后验分布π(βI | A, I)中采样系数βI,其中A = (A1, ..., An)是一组疾病指标,I = (I1, ..., In)是一组大脑图像。也许在稍后阶段为每个受试者收集了额外的协变量,例如基因表达向量G = (G1, ..., Gn)。直观上,更新后的后验分布π(βI, βG | A, I, G)与原始后验分布π(βI | A, I)之间应该存在很强的相似性,但由于后验分布的维度不同,这很难形式化。
一个有前景的方法是以无关维度的方式对初始采样器进行参数化,例如,通过定义一个核函数,该核函数为第 i 个系数提出更新,该更新仅依赖于势能函数 U(β)、该方向上的梯度 ∂βᵢ U(β),以及该方向上的辅助变量。在使用上述任何损失函数对 π(βI | A, I) 进行采样时,可以对该核函数进行调整,并随后自动应用于 π(βI , βG | A, I, G) 的采样。[46] 提出了一种相关思路,即用于不同激活函数的贝叶斯神经网络的随机梯度采样。然而,这一通用方法在精确采样方面仍未得到研究。所提出的逐坐标策略无法利用参数对之间的相关性来高效地提出块更新;解决该问题仍是正在进行的研究方向。
3. 贝叶斯核心集
大规模数据集——即即使是完整数据集的一次遍历在计算上也代价高昂——如今已司空见惯。马尔可夫链蒙特卡洛(MCMC)通常需要多次遍历整个数据集;在大规模数据的背景下,这使得推断、迭代模型开发、调整和验证变得艰难且容易出错。为了在重要的现代应用中充分发挥贝叶斯方法的优势,我们需要能够处理现代数据集规模的推断算法。
在过去十年中,出现了大量关于大规模数据环境下计算效率高的近似贝叶斯推断方法的研究。其中一类方法——包括变分推断[66, 158, 11]和拉普拉斯近似[145, 54]——将推断表述为一个可以通过(可扩展的)随机梯度下降[57, 132]解决的优化问题。由于该问题通常是非凸的,这些方法几乎没有或根本没有实际可实现的保证,并且往往对初始化、优化超参数以及优化过程中的随机性较为敏感。另一类方法——子采样MCMC[9, 71, 88, 166, 3];见Quiroz等[130]的最新综述——运行一个马尔可夫链,其转移依赖于每次迭代中随机选择的数据子集。然而,速度上的优势可能会被缺点所抵消,因为每次步骤中均匀子采样会导致MCMC混合缓慢或提供较差的近似[63, 104, 10, 130, 131]。通过设计有效的对数似然控制变量(见Quiroz等[130],Nemeth和Fearnhead[108])可以绕过这一限制,但这通常因模型而异。
从根本上说,高效处理大规模数据的问题是如何利用数据中的冗余性。要基于少量样本对一个大规模数据集得出合理结论,就必须排除未检查的(大量)剩余数据中存在独特或有趣额外信息的可能性。一种方法是直接在其表述中纳入冗余性:贝叶斯核心集[59]。其核心思想是用一个小的加权子集来表示大规模数据。然后可以将核心集传递给任何标准的(自动化的)推断算法,从而以较低的计算成本进行后验推断。
核心集具有许多吸引人的优势。首先,也许也是最重要的是,核心集保留了重要的模型结构。如果原始贝叶斯后验分布表现出对称性、弱可识别性、离散变量、重尾、低维子空间结构等特征,那么核心集后验通常也会表现出相同的结构,因为它与原始模型使用相同的似然函数和先验。这使得核心集在复杂模型中具有吸引力,例如在高斯渐近假设不适用的情况下。其次,核心集是可组合的:两个数据集的核心集通常可以简单地组合成它们并集的核心集[37]。这使得核心集天然适用于流数据和分布式环境[19,第4.3节]。第三,核心集与推断算法无关,也就是说,一旦构建了核心集,就可以将其传递给大多数下游推断方法——特别是具有保证的精确马尔可夫链蒙特卡洛(MCMC)方法——从而增强可扩展性。最后,核心集通常会附带一些关于核心集大小与后验近似质量之间关系的保证。
在本节中,我们将在3.1节和3.2节介绍贝叶斯核心集的基础知识以及最近的进展,并在3.3节讨论开放性问题和未来工作的令人兴奋的方向。
3.1贝叶斯核心集简介
3.1.2 核心集构建方法
在文献中,用于构建贝叶斯核心集主要有三种高层次的策略。
这种方法简单且快速,但通常会产生较差的后验近似。通过非均匀概率选择数据来构建子集,并不能显著改善结果[59]。经验和理论结果暗示,为了保持有界的近似误差,子采样核心集的大小必须与数据集大小 N 成正比增长,这使其成为高效大规模推断的不佳选择。因此,核心集通常需要更仔细的优化。
稀疏回归 人们可以将核心集构建表述为一个稀疏回归问题[19, 18, 175]。
即使在 w 中有一个常数倍数。困难在于方程(23)既涉及未知的归一化常数 Z(w),又涉及在 下的期望,而我们通常无法从 中获得精确的样本。这与典型的变分推断问题不同,在典型的变分推断问题中,变分密度的归一化是已知的,并且获得样本是直接的。当前关于核心集构建的研究主要集中在解决这些问题上;这是一个活跃的研究领域,并且已经找到了一些很好的解决方案[17, 92, 60, 105, 23, 91]。
3.2 近期的重要进展
贝叶斯核心集的研究文献仍处于初级阶段,该领域发展迅速。我们在此强调一些关键的最新进展。
核心集数据点选择 基于优化的核心集构建方法通常采用“逐个选择”的贪婪策略来构建核心集,因此需要一个缓慢且难以调整的内外循环[19, 17]。最近的研究[23, 105, 60]表明,可以通过首先对数据集进行均匀子采样来选择核心集数据点,然后对权重进行批量优化,从而在不牺牲质量的情况下构建核心集。这种方法比过去逐个选择的方法显著更简单、更快,同时提供了理论保证:对于具有强对数凹或指数族似然的模型,在子采样后,只要核心集大小,最优加权核心集后验的KL散度在 时收敛到0[105]。这一保证并没有说明是否能够找到最优权重,而只是表明通过子采样选择核心集数据点不会限制可实现的质量。
优化KL散度 给定一组核心集数据点后,仍然存在如何在核心集权重 w 上优化KL目标的问题;这具有挑战性,因为我们无法从中获得精确样本,也无法计算其归一化常数。可以使用MCMC从 中采样,并通过注意到导数可以通过下潜在函数的矩来获得,从而绕过归一化常数的问题。
优化保证 尽管变分推断总体上是非凸的,但核心集变分推断问题(公式22)有助于提供保证。特别是,Naik、Rousseau和Campbell通过准牛顿优化方案,获得了几何收敛到接近最优核心集的点的保证。
3.3 开放性问题与未来研究方向
最近在核心集构建方法和理论方面的进展为多种新发展铺平了道路。在本节中,我们强调了重要的开放性问题和值得研究的领域。
复杂模型结构、数据和对称性 核心集方法和理论现在开始围绕方程(18)中的基本模型设置凝聚起来,该模型具有有限维参数和条件独立同分布的数据。许多流行的模型并不符合这一框架,例如某些网络模型 [58]、连续时间马尔可夫链 [6] 等。其中一些模型的计算成本随数据量 N 增长得非常快——例如,复杂度为 的高斯过程回归 [167]——这些模型将从一种总结性方法中大大受益。即使某些技术上符合方程(18)框架的模型,例如某些分层模型 [12],如果其更多的潜在结构被暴露给核心集构建算法,可能会被更好地总结。
超越条件独立同分布数据的设置,我们主张将这个问题视为模型和数据的总结,广义上理解,而不仅仅是核心集的特定情况。从抽象层面来看,贝叶斯核心集只是构建一个计算成本低廉的参数化变分族 的一种特定方式,该族被证明包含(接近真实后验分布的分布)。一般来说,没有理由将这与数据的稀疏加权子集联系起来;例如,我们可以用子图总结网络 [118],用低维草图总结高维数据 [89],用更简单的结构总结复杂且计算成本高的神经网络结构 [117],用低秩随机近似总结昂贵的矩阵 [168] 等等。主要问题是:核心集的自然扩展,或者更广泛地说,总结,如何扩展到方程(18)之外的更复杂模型?是否存在一个共同的底层原则,还是高效的总结必须逐个解决?
我们相信,回答这些问题的关键在于理解贝叶斯核心集、抽样、统计模型中的概率对称性和充分性之间的联系;参见,例如,[29, 74, 119]。事实上,贝叶斯核心集能够奏效,反映了可以使用数据势能的一个小子集作为“近似充分统计量”,并结合其生成过程的对称性。假设能够建立这种有益的联系,我们预计当前基于抽样选择“字典”势能,随后通过优化调整近似的贝叶斯核心集构建方法,将在更一般的模型中成为一个良好的模板。
隐私、伪数据与分布式学习 分布式(或联邦)学习是一种任务,其中数据存储在不同的数据中心,目标是在不传输数据的情况下,基于所有数据进行全局推断。在这种设置下,既存在精确方法,也存在近似方法用于贝叶斯推断。一个常见的附加约束是,每个数据中心的数据在某种意义上对其他中心保持隐私。
贝叶斯核心集为分布式学习问题(包括标准和隐私保护)提供了一个潜在的简单解决方案。核心集通常具有可组合性:如果为数据子集独立构建子核心集(无需通信),则可以轻松组合这些子核心集以获得整个数据集的核心集。核心集还被扩展到隐私保护场景,要么通过差分隐私方案训练伪数据点,要么在共享前对核心集进行适当的噪声处理。随后,数据中心可以自由地与其他中心或执行推断的中央存储库共享其隐私化的总结。尽管有一些初步工作研究了通过稀疏回归技术构建的分布式贝叶斯核心集,但这些工作是在现代构建方法出现之前完成的。除此之外,文献中尚未有专门针对分布式贝叶斯核心集的理论和方法研究,无论是隐私保护还是其他方面。
如何利用最近的核心集构建进展,高效地构建适合分布式学习问题的差分隐私贝叶斯核心集?可能的通信成本和核心集质量的理论保证是什么?
贝叶斯核心集目前是通过最小化方程(22)中的KL目标以模型特定的方式构建的。在需要考虑多个模型的情况下(例如在探索性分析或敏感性分析中),需要为每个模型重新调整核心集权重。鉴于这些重新调整问题都涉及相同的数据,它们应该是密切相关的;但目前如何高效构建多个相关核心集仍然是一个开放性问题。具体而言:
- 核心集的通用性如何?是否有一种方法可以构建一个适用于多个模型的优化核心集?是否有一种方法可以分摊为多个模型构建多个核心集的成本?
未来工作的一个潜在方向是制定一个类似于方程(22)的极小化极大优化问题,但在候选模型集合上有一个外层最大化。沿着这一方向的一个主要问题是,是否实际上可以用一个包含 个数据点的核心集来总结数据集,使得该核心集为考虑的最坏情况模型提供合理的近似。另一种可能的解决方案是分摊多个核心集构建的成本,类似于推理编译。与其构建单独的核心集,不如训练一个“核心集构建工具”:一个函数,输入候选模型和数据子样本,输出一组核心集权重。换句话说,我们学习如何构建核心集。这种工具的最可能候选是循环深度神经网络,这在推理编译等方法中被广泛使用。关于这一方向需要考虑的一个主要问题是,在哪些数据分析场景中,构建这种工具的成本值得随后快速生成核心集权重。
高维数据和模型 核心集方法的设计重点在于大规模问题,这里的“大规模”主要体现在数据点的数量 N 上。但在实践中,现代大规模问题通常还涉及高维数据和潜在模型参数;维度甚至可能随着 N 增长。实证结果表明,核心集在处理 10-100 维数据和参数的问题中是有效的,而伪核心集(pseudocoresets)——它涉及用合成伪数据点总结数据——已经在具有 60,000 维参数和 800 维数据的更大规模问题中成功应用。然而,这一领域的结果仍然有限,这引发了以下未来研究的问题:
我们何时期望核心集方法在处理高维数据和高维模型参数时有效?是否需要对(伪)核心集方法进行修改,以在这种设置下实现严格的保证?在高维情况下,核心集权重优化的难度如何变化?
在高概率下。在某种意义上,这并不令人惊讶;尽管高维高斯位置模型在数学上很简单,但它是一种数据总结的最坏情况,因为至少需要 d 个势函数 来张成一个 d 维空间。
但在实践中,高维数据通常不会表现出这种最坏情况;它们往往表现出某种更简单的、低维的结构。开发能够利用这种结构的(伪)核心集方法,是使总结成为大规模现代问题中值得采用的方法的关键步骤。此外,假设核心集的大小通常应随维度增加,还需要进一步研究随机权重优化的难度如何变化。值得研究最近在深度学习中的数据蒸馏文献是否包含适用于贝叶斯设置的见解。
改进的自动化和可访问性 最近的研究进展首次使核心集成为高效贝叶斯计算的实用方法。然而,要让非专家能够使用核心集,仍有许多工作要做。首先,需要开发一个通用的、经过良好设计的代码库,使其能够与 Stan 和 Turing 等常见的概率编程库接口[20,41]。此外,还需要开发自动化方法以(a)选择核心集权重优化的调整参数,(b)选择核心集大小,以及(c)评估和总结核心集的质量。
其他散度 目前,所有变分核心集构建方法都优化了逆 Kullback-Leibler 散度。未来研究的一个直接方向是研究在方程(22)中使用替代散度(例如 Rényi 散度 或 散度)的效果。这些方法可能都会面临未知归一化常数 Z(w) 的类似问题,但除了逆 KL 之外的其他散度可能会为核心集提供不同的统计特性。
4. 分布式贝叶斯推断
分布式贝叶斯推断方法利用分而治之的策略应对海量数据带来的挑战。它们利用分布式计算来降低蒙特卡洛算法的时间复杂度,因为这些算法在每次迭代中都需要多次遍历数据。在过去十年中,针对贝叶斯推断开发了三大类分布式方法。
第一类方法是最简单的,包含三个步骤:将数据划分为不相交的子集并存储在多台机器上,在所有机器上并行运行蒙特卡洛算法,最后在一台中央机器上合并所有子集的参数抽样结果。最后一步需要进行一轮通信,因此这些方法属于单次学习方法[161, 99, 107, 149, 164, 144, 100, 109, 142, 48, 27, 171, 65, 170, 98, 49, 50, 96, 28]。它们基于一个关键见解,即子集的参数抽样结果为真实后验分布的噪声近似,并且主要区别在于它们的合并方案。
第二类方法依赖于随机梯度马尔可夫链蒙特卡洛(MCMC)的分布式扩展[4, 72, 24, 35],这些方法通常基于随机梯度朗之万动力学(SGLD)[166, 87]。它们同样将数据划分为子集,但在机器之间有多轮通信。在每次迭代中,它们以一定概率选择一个子集,使用改进的SGLD更新来抽取参数,并将参数抽样结果发送到中央机器。随机梯度的高方差和高通信成本促使了第三类方法的开发[16, 127]。它们是分布式优化中全局共识方法的随机扩展,例如交替方向乘子法(ADMM)[13, 123]。它们将数据划分为子集,存储在机器上,并通过辅助变量增强后验密度。这些变量在给定参数的条件下是条件独立的,并且在某些极限假设下,参数的边缘分布简化为目标分布。前者假设对于并行抽取辅助变量至关重要,而后者条件则确保渐近准确性。每次迭代包括同步更新,其中存储数据的机器抽取辅助变量并将它们发送到中央机器,中央机器使用这些辅助变量来抽取参数[154, 136, 155, 127, 156]。
分布式贝叶斯方法具有三个主要优势。首先,其中的大多数方法是算法不可知的,可以轻松地与任何蒙特卡洛算法结合使用。其次,分布式方法具有关于其准确性的渐近保证。这些结果表明,在温和的正则性假设下,近似后验分布和目标后验分布是渐近等价的。最后,它们可以轻松扩展以处理特定应用中的约束,例如非参数模型中的样本聚类[111]和隐私保护的联邦学习[67]。
我们在第4.1节至第4.3节中介绍了分布式贝叶斯推断的基础知识和最新进展,并在第4.4节中讨论了未来的研究方向。
4.1一次性学习
最新进展 单次学习:除CMC类方法外,单次学习已推广到依赖数据。在时间序列数据中,较小的连续观测块形成子集并保留样本的顺序。依赖性度量(如混合系数)决定了K的选择。公式(33)中的子集伪似然被修改为条件于紧邻前一个时间块,以建模依赖性,并将其提升到K次幂。对于具有混合系数ρ的隐马尔可夫模型中的单次学习,使用修改后的伪似然和K = o(ρ⁻M)通过公式(35)估计的分布式后验满足公式(36)。这些结果已推广到更广泛的模型类别,但关于K的选择指导仍待进一步探索。
高斯过程回归:高斯过程(GP)回归中的后验计算即使在中等规模的N下也难以扩展。单次学习已解决这一挑战,但尚未有理论结果。此处K的选择取决于回归函数的平滑性。
假设回归函数具有更高的平滑性,可以保证在更大的K值下对子集进行准确估计。具体来说,如果回归函数是无限平滑的,预测变量位于[0, 1]区间,且K = O(N/log²N),那么分布式后验分布和真实后验分布的估计风险的衰减率仅依赖于N,并且渐近等价。在更一般的问题中,如果回归函数属于定义在[0, 1]D上的Hölder函数类,且具有平滑性指数α,则为保证估计风险的最优衰减率,K的上界将依赖于N、D和α。这些结果已被推广到变系数模型。
局限性单次学习方法的主要局限性在于其对子集后验分布的正态性依赖。在某些情况下,对子集上的参数抽样进行缩放是有帮助的,但无法推广到超出椭圆形后验分布族的情况。文献还指出了单次学习的三个额外问题。首先,子集后验分布无法以高概率捕捉多峰后验分布的支撑。其次,子集后验分布可能显著偏倚,无法成为真实后验分布的合理近似,从而违反了另一个主要假设。最后,子集后验抽样无法提供有关真实后验分布尾部的信息,导致对尾部事件概率的估计较差。文献的一个关键观察是,机器之间的通信对于提高子集后验分布的近似精度是必要的。
4.2 分布式随机梯度MCMC
分布式随机梯度 Langevin 动力学(DSGLD)的效率提升是以渐近精度的损失为代价的。主要原因在于较小的子集大小意味着在子集上可能的子样本组合远小于标准 SGLD 更新中使用完整数据获得的组合。虽然已经开发出具有更小方差和更高渐近精度的更好梯度替代方法,但随机梯度的方差会随着 N、K 和数据异质性增加,从而导致收敛失败。
4.3 渐近精确的数据增强
4.4 未解决的问题和未来方向
本节强调了分布式推断方法的局限性、重要的未解决问题以及未来研究的方向。
高维和相关数据模型 在独立数据模型中,分布式贝叶斯推断的方法多种多样,但它们无法推广到高维模型。关于高维模型推断的分布式方法的文献非常稀少。开发能够利用高维问题中低维结构的分布式方法是值得期待的。
大多数分布式方法假设似然函数具有乘积形式(见公式(32))。这一假设对于许多时间序列和空间模型并不成立。虽然存在针对隐马尔可夫模型的单次学习方法,但它们仅适用于椭圆形后验分布族,无法推广到其他情况。对于随机梯度朗之万动力学(DSGLD)和渐近精确数据增强(AXDA)算法,目前还没有相关数据的扩展版本。
偏差和方差的降低 在单次学习中,随着K的增加,真实后验分布和分布式后验分布之间的偏差并未减少。对于参数模型,公式(36)表明,分布式分布的偏差为oP(M⁻¹/²)的阶,这与真实后验分布的oP(N⁻¹/²)的阶相比是次优的。这意味着增加K对分布式后验分布的准确性没有影响。一种解决这一问题的方法是将分布式后验分布以一个根号N一致的估计量为中心(见)。解决这一问题对于贝叶斯联邦学习是有益的,因为单次学习由于其简单性而越来越多地被用于贝叶斯联邦学习。同样,开发具有更小方差的梯度替代方法对于使用朗之万蒙特卡洛方法的贝叶斯联邦学习至关重要。
异步更新 对于基于 AXDA 的 DSGLD 和朗之万蒙特卡洛算法,同步更新是保证收敛的关键;然而,随着子集数量的增加,同步更新变得代价高昂,导致分布式计算的优势逐渐减弱。当子集大小相似时,异步更新可以绕过这些问题,但它意味着 链不再是马尔可夫的,这排除了用于证明收敛保证的传统工具。异步 DSGLD 和 AXDA 的扩展在实践中具有许多实际优势。文献 [176] 已开发出用于变量选择和混合效应模型的异步数据增强(DA),但其扩展到更广泛的模型类别仍不清楚。
广义似然 使用广义似然进行贝叶斯推断具有诸多优势,包括鲁棒性和针对性推断;然而,当前文献在很大程度上依赖于利用层次模型的结构。关于 AXDA 和近似贝叶斯推断之间共性的初步结果已有报道 [155]。为了更广泛的应用,探索在模型误设情况下切割后验分布的分布式扩展 [128] 以及基于广义似然的贝叶斯模型中的分布式推断是有趣的。
应用 分布式贝叶斯推断已在联邦学习中找到应用 [67]。这些方法非常适合用于多中心纵向临床研究的贝叶斯分析,因为出于隐私问题,数据无法被移动到中心位置。目前此类应用的例子有限,因此探索分布式方法的隐私保护扩展是有趣的。
自动化诊断和可访问性 分布式方法的自动化应用和模型诊断尚未受到广泛关注。单次学习方法可以使用并行 R 包轻松实现 [150];然而,开发一种用于实际部署分布式算法的类似通用软件仍有待完成。解决这些挑战对于促进分布式方法的广泛应用至关重要。
5 变分贝叶斯方法
尽管在前面的章节中已经提及了变分近似,但在本节中,我们将专门讨论变分贝叶斯(VB)方法。这些方法通过最小化KL散度,用一个更简单的分布族中的成员来近似后验分布。以下,我们将回顾变分贝叶斯的理论和计算方面的一些最新进展,并概述未来的研究方向。
5.1 变分贝叶斯方法简介
其中是相对于除了第 j 个分量之外的所有变分分布取的。CAVI 通过首先初始化 ,然后根据公式(44)迭代更新每个坐标,即在每次迭代中条件于其他坐标更新每个坐标的变分分布。
当统计模型具有潜在结构(如有限混合模型、主题模型和随机块模型)时,潜在变量的维度通常与样本量同阶。对于大数据集,CAVI 算法的效率不高,因为它需要在每次迭代中遍历整个数据集以更新变分参数。随机变分推断(SVI)[57] 是这种情况下的一种流行替代方法。SVI 通过基于小批量计算 ELBO 的梯度来使用随机梯度下降。
除了均值场类,CAVI 和 SVI 严重依赖于均值场假设,这一假设排除了参数之间的后验相关性,并导致对后验不确定性的低估。这促使人们开发更复杂的变分族,而这些变分族通常需要定制的算法。黑箱变分推断(BBVI)算法 [132],包括基于梯度的黑箱变分推断,已成为这类算法中的一类流行算法。文献 [62] 提出在黑箱变分推断中使用随机自然梯度,以提高效率并解决梯度估计方差较大的常见问题。
为了验证贝叶斯后验分布的频率学派最优性性质,通常会研究收缩率、模型选择的一致性以及渐近正态性(即贝努利-冯·米塞斯(Bernstein-von Mises,BvM)定理)。在变分贝叶斯框架下,统计推断是基于变分后验分布而不是原始后验分布进行的,因此研究变分贝叶斯(VB)后验分布的频率学派最优性是自然的。
近期的研究工作 提供了变分后验分布达到最优性的理论条件。这些条件表明,当模型复杂度适中且先验分布足够分散时(这是建立原始后验分布收缩率的标准条件),结合对变分差距的假设,变分后验分布也能达到最优的收缩率。变分差距条件假设存在一个 ,使得:
公式(47)的左侧是变分差距 的上界。通过确保左侧的每一项均为 的量级,可以验证这一上界。文献 [5] 将这种变分差距条件表述为先验质量条件的扩展。如果将变分贝叶斯(VB)族限制在与先验相同的类别中,并将参数限制在真实参数的邻域内,这一条件则简化为标准的先验质量条件。
此外,文献 [125] 和 [173] 开发了能够处理潜在变量模型的变分贝叶斯理论框架。文献 [5] 研究了似然函数被提升到分数幂的变分分数后验分布的收缩性质。还有多项研究推导了特定统计模型的变分后验分布的收缩率,例如混合模型、稀疏(高斯)线性回归、稀疏逻辑线性回归以及稀疏因子模型。
5.3 自适应变分贝叶斯
近期的一个重要进展是提出了一种新颖且通用的变分框架,用于在多个模型空间上进行自适应统计推断。该框架能够生成自适应变分后验分布,不仅在后验收缩和模型选择方面具有最优的理论性质,而且计算过程是可行的。
一般来说,在进行统计推断时,真实参数的“正则性”是未知的,而自适应推断的目标是构建对未知真实正则性最优的估计过程。为此,通常会准备多个具有不同复杂度的模型,例如不同稀疏度的稀疏线性回归模型、不同神经元数量的神经网络或不同组分数量的混合模型,然后从中选择合适的模型。为了实现自适应性,频率学派通常会在参数估计之前进行(完全依赖数据的)模型选择,例如通过交叉验证或惩罚方法。贝叶斯适应方面也有一些研究,通过在多个模型空间上施加分层先验来实现。
自适应变分后验分布的计算归结为对每个单独模型进行变分近似的计算。该框架具有通用性,可以应用于许多统计模型中的自适应推断,这些模型中存在不同复杂度的多个子模型。当真实模型属于集合 M 时,自适应变分后验分布具有最优的收缩率和强大的模型选择一致性。这一理论已被应用于展示包括有限混合模型、稀疏因子模型、深度神经网络和随机块模型在内的丰富多样的模型的最优收缩性。
5.4 未解决的问题和未来方向
变分贝叶斯后验分布的不确定性量化 众所周知,变分后验分布往往会低估后验的不确定性,因此一个核心的未解决问题是如何构建计算效率高的变分贝叶斯(VB)后验分布,以产生(a)具有有效频率覆盖的可信区间,和/或(b)与真实后验分布的协方差相匹配的后验协方差。
关于使用变分后验分布进行统计推断的理论研究非常有限,包括可信区间的构建和假设检验。为此,我们需要定理来揭示当样本量趋于无穷大时变分后验分布的极限分布,就像贝努利-冯·米塞斯(Bernstein-von Mises,BvM)定理保证在某些正则性条件下原始后验分布收敛到高斯分布一样。文献 [160] 提供了一个初步且有希望的结果,但对于广泛模型类别和对应的变分族,仍需要大量的新研究。
梯度算法的理论保证 现有的变分贝叶斯(VB)理论保证仅适用于变分优化问题的全局解。在实践中,这一优化问题往往是高度非凸的,算法仅能保证收敛到局部最优解。对于某些变分族和模型类别,这些局部最优解可能截然不同,从而对算法的起始点非常敏感。获得算法本身的保证而不仅仅是对不可达的全局最优解的保证是至关重要的。例如,是否可以为带或不带预热条件的基于梯度的黑箱变分推断获得一般性的理论保证?
在其他领域,关于非凸优化的文献正在不断涌现,包括在某些情况下为局部最优解提供足够接近的保证 [95, 39, 83, 78, 112]。然而,据我们所知,目前还没有关于变分贝叶斯产生的局部最优解的理论研究。
基于生成模型的变分贝叶斯 通过使用深度生成模型(如正则化流)可以构建更丰富的变分族 [137, 81]。由于其令人印象深刻的灵活性,结果得到的变分后验分布能够准确近似非常广泛的后验分布。尽管这种方法在实践中非常有用且具有强大的经验性能,但目前尚无理论支持——例如,提供变分近似差距的上界或集中性质。选择神经网络架构以及训练中涉及的算法调整参数以最大化后验近似的计算效率和准确性,是另一个可能受益于更好理论理解的重要相关领域。
在线变分推断 给定一个未知参数的先验分布,后验分布可以被理解为在观察到数据后的更新信念。当新数据到达时,更新后的后验分布可以用作新的先验分布。这一过程可以重复多次,用于分析流数据 [97, 45, 68, 61]。在每一步中,为了计算方便,变分贝叶斯(VB)后验分布可以用作新的先验分布,而不是原始先验 [82, 84, 110]。研究顺序更新的VB后验分布的统计性质将是非常有趣的。
6. 讨论
贝叶斯计算工具的发展速度非常快,这在很大程度上得益于机器学习领域的最新进展。我们通过四个案例展示了这一现象。第一个案例讨论了借助生成模型(尤其是正则化流)进行采样。接下来的两个案例讨论了处理大样本量 N 的不同方法。Coresets 采用变分方法进行数据压缩,最近的方法利用深度神经网络构建灵活的替代分布族;而联邦贝叶斯学习方法则将后验计算分布在多台计算机上。最后,我们介绍了变分推断,它用一个易于处理的近似分布来替代后验分布。还可以撰写更多类似的案例,例如利用基于扩散的生成模型加速采样,或者使用深度神经网络进行数据压缩以加速近似贝叶斯计算。我们以三个主题结束本文,这些主题适用于所有案例,我们认为这些主题应在未来受到更多关注:利用之前的计算加速推理,通过新的软件提高可访问性,以及为经验上表现良好的算法提供理论支持。
贝叶斯计算的现状是在每个后验推断问题中从头开始,例如在改变先验后重新计算 Coreset,或者在将旧模型应用于新数据时重新估计一个新的变分近似。这种做法效率低下,因为相似模型中的后验推断必然对当前模型的后验推断具有一定的信息价值。如果两个模型可以直接比较,例如在略有不同的先验下的后验分布,那么利用之前的计算可能相对容易,比如在优化程序中使用预热启动。问题出现在两个模型具有不同维度时,例如具有额外参数层的分层模型。我们希望机器学习中类似问题的方法——尤其是迁移学习——将在开发贝叶斯通用解决方案中发挥重要作用。
另一个共同的主题是需要改进自动化和可访问性。以一种稳健且可靠的方式实现涉及神经网络或其他机器学习技术的方法并非易事,通常需要大量的时间和专业知识。鉴于机器学习的快速发展,精心设计的实现可能在广泛采用之前就已经过时。重点应该放在开发足够模块化的软件,以抵御下一次机器学习革命,同时也要足够用户友好,以便大规模应用。
最后,统计学家在采用那些以牺牲理论保证为代价而获得卓越实际性能的方法时应保持谨慎。对后验分布的快速“近似”可能与精确后验分布有任意大的偏差,这可能适用于黑箱预测,但远远达不到可靠和可重复贝叶斯推断的要求。这在科学和政策应用中尤其关键,因为这些领域需要适当表征从数据中学习的不确定性,承认实践中出现的复杂性,例如模型不确定性、数据污染等。为了从科学领域中常规生成的大型和复杂数据集中避免极具误导性的推断和可能的灾难性结论,保证措施是必要的。
原文链接:https://arxiv.org/pdf/2304.11251
热门跟贴