A Frequentist Statistical Introduction to Variational Inference,Autoencoders, and Diffusion Models
https://www.arxiv.org/pdf/2510.18777
摘 要:
尽管变分推断(VI)是现代生成模型(如变分自编码器(VAEs)和去噪扩散模型(DDMs))的核心,但其教学处理却分散在不同的学科中。在统计学中,VI 通常被描述为一种贝叶斯方法,用于近似后验分布。然而,在机器学习中,VAEs 和 DDMs 是从频率学派的观点开发的,其中 VI 被用于近似最大似然估计器。这为统计学家创造了一个障碍,因为如果没有对应的频率学派对 VI 的介绍,VAEs 和 DDMs 背后的原理很难被理解。本文提供了这种介绍:我们从纯粹的频率学派视角解释了 VI、VAEs 和 DDMs 的理论,从经典的期望最大化(EM)算法开始。我们展示了 VI 如何作为一种可扩展的解决方案用于难以处理的 E 步骤,以及 VAEs 和 DDMs 如何成为这一框架的自然的、基于深度学习的扩展,从而弥合了经典统计推断与现代生成人工智能之间的差距。
1 引 言
变分推断(VI)是现代机器学习中一套强大的方法。然而,在统计学文献中,VI 最常被介绍为贝叶斯框架下的方法,它作为一种不可或缺的工具,用于近似那些难以处理的后验分布(Bishop 和 Nasrabadi,2006;Blei 等人,2017;Kejzlar 和 Hu,2024;Sjölund,2023)。
矛盾的是,VI 最成功的两个应用——变分自编码器(VAE)和去噪扩散模型(DDM)——通常是基于频率学派的观点构建的。关于 VAE(Doersch,2016;Kingma 和 Welling,2019)和 DDM(Chan,2024;Luo,2022)的重要教程并没有对模型参数设置先验。相反,它们的目标是近似复杂生成模型的最大似然估计器(MLE)。这种方法论上的分歧造成了一个教学上的空白:尽管 VAE 和 DDM 在人工智能中居于核心地位,但它们在统计学界的采用速度较慢,部分原因是缺乏以一种对许多统计学家来说更自然的方式来介绍这些方法。
本文旨在填补这一关键空白。我们提供了一个完全基于频率学派原则的关于 VI、VAE 和 DDM 的自足性介绍。通过展示这些技术本质上是强大的优化和函数近似算法(Chen 等人,2018;Ormerod 和 Wand,2010),且独立于贝叶斯背景,我们希望使这些强大的生成模型对统计学界来说更加易于接近和直观。
大纲。我们在第 2 节从频率学派的潜变量模型基础开始,并回顾期望最大化(EM)算法。我们专注于两个关键变体——蒙特卡洛 EM(MCEM)算法和正则化 Q 函数——它们直接推动了向变分推断(VI)的转变。在此基础上,第 3 节将 VI 介绍为一种用于近似 EM 算法中难以处理的 E 步骤的通用方法,将证据下界(ELBO)作为正则化 Q 函数的变分类比。接下来,在第 4 节,我们通过引入摊销 VI 和变分自编码器(VAE)来解决经典 VI 的计算限制,这使得 VI 能够应用于大规模的深度学习模型。最后,第 5 节将去噪扩散模型(DDM)介绍为这一框架的深度、层次化扩展,由正向(变分)和反向(生成)过程组成。我们在技术讨论的结尾推导了简化的噪声预测目标,这是 DDM 作为最先进的图像生成器取得实际成功的关键。
2 潜变量模型
2.1 EM算法
因此,运行 EM 算法保证不会减少似然值,尽管它可能收敛到局部最大值,而不是全局最大值。
2.2 MCEM:蒙特卡洛
EM 当 E 步(方程 (1))中的积分难以处理时,一个常见的解决方案是使用蒙特卡洛积分来近似 Q 函数。这种方法被称为蒙特卡洛 EM(MCEM)算法(Wei 和 Tanner,1990)。
这个原理很简单。我们知道,如果同时观察到 X 和 Z,那么完整数据对数似然的最大化是可行的。因此,E 步的一个简单的蒙特卡洛近似方法涉及生成一个单一的实现:
2.3 Q 函数的正则化形式
在 EM 算法中,Q 函数是整个过程的核心。虽然可以从缺失数据的角度来理解它,但另一种替代且强大的视角是将其框架为正则化的对数似然函数(Neal 和 Hinton,1998)。
2.4 示例:EM算法的局限性尽管EM算法在最大似然估计(MLE)没有闭式解时是一种有效方法,但其适用性受限于E步的可处理性。在此,我们通过一个例子来说明这一局限性。
一般来说,这个分布不属于任何标准分布族,这使得方程(1)中 Q 函数的解析计算变得难以处理。 如果我们采用 MCEM 方法,从方程(7)中的复杂分布中采样也是一个不简单的问题。虽然马尔可夫链蒙特卡洛(MCMC)方法可能对小的 d 和 k 有效,但当这些维度很大时,它们会变得异常缓慢,这在像图像生成这样的高维环境中是很常见的。
3 变分近似
3.1 ELBO的梯度与重参数化技巧
变分推断(VI)的优化不同于标准的梯度上升,因为最优的变分参数 ωᵢ 依赖于全局参数 θ。这种耦合关系要求采用嵌套或交替优化方案。
在此,我们总结了一种用于计算VI估计量的梯度上升过程,该过程可轻松修改为随机梯度上升算法(Hoffman et al., 2013)。我们从初始值 θ⁽⁰⁾ 开始,然后迭代以下步骤直至收敛:
对于给定的 θ⁽ᵗ⁾,我们首先通过运行一个内层梯度上升循环,为每个观测值找到最优的变分参数。对于每个 i = 1, ..., n,我们通过在 ωᵢ⁽⁰⁾ 处初始化(通常使用热启动,即 ωᵢ⁽⁰⁾ = ω̃ᵢ⁽ᵗ⁻¹⁾)并进行迭代:
关于 θ 的梯度。我们现在提供计算梯度 ∇θELBO(θ, ωᵢ | Xᵢ) 的详细信息。在ELBO定义(公式(8))中的第二项,即熵,不依赖于 θ。因此,该梯度为:
该方法类似于MCEM如何近似Q函数的梯度。在变分推断(VI)中,此蒙特卡洛平均用于数值近似ELBO的梯度。相较于MCEM,其关键优势在于我们从可处理的变分分布 qωᵢ 中采样,而非从难以处理的 pθ(z|Xᵢ) 中采样,从而避免了主要的计算瓶颈。
关于 ωᵢ 的梯度及重参数化技巧。我们现在考虑关于变分参数 ωᵢ 的梯度,这在公式(11)的更新步骤中至关重要。ELBO中的两项均依赖于 ωᵢ:
其中,H(qωᵢ) = −∫ qωᵢ(z) log qωᵢ(z) dz 是变分分布的熵。对于许多标准分布,熵项的梯度 ∇ωᵢ H(qωᵢ) 可以解析计算。因此,主要的挑战在于计算第一项的梯度。
为使该梯度可处理,我们必须选择一个方便的变分族。一个常见且强大的选择是高斯平均场族。具体而言,我们假设 qωᵢ(z) 服从一个具有对角协方差矩阵的多元高斯分布,即 N(αᵢ, diag(βᵢ²)),其中变分参数为 ωᵢ = (αᵢ, βᵢ) ∈ ℝᵏ × ℝ⁺ᵏ。这里,αᵢ 是均值向量,βᵢ 是标准差向量。高斯平均场分布是一种坐标相互独立的多元高斯分布。
这一选择使得重参数化技巧得以应用。一个随机变量 Z ~ N(αᵢ, diag(βᵢ²)) 可以表示为其参数与一个标准正态随机变量 ε ~ N(0, Iₖ) 的确定性变换:
3.1.1 快速梯度上升的条件
上述推导突出了实现高效、基于梯度的变分推断的两个关键条件:
- 可微模型。完整数据对数似然函数 ℓ(θ|x,z) = log pθ(x,z) 必须关于模型参数 θ 和潜在变量 z 均可微。对于现代深度生成模型(例如,X|Z=z ~ N(μθ(z), Σθ(z))),这要求函数 μθ(z) 和 Σθ(z) 可微。这一条件在神经网络中很容易满足,因为这些梯度可通过现代自动微分框架中使用的反向传播算法高效计算(Baydin 等, 2018; Rumelhart 等, 1986)。
- 可重参数化的变分族。变分分布 qω(z) 必须是可重参数化的。许多常见的连续分布都满足此性质,通常通过逆累积分布函数(CDF)法实现,即样本可表示为 Z = Fω⁻¹(U),其中 U ~ Uniform[0,1]。这使得梯度 ∇ω 能被有效处理。
4 摊销变分推断与变分自编码器
前述VI框架存在两个主要局限。首先,它需要优化 n 个不同的变分参数 (ω₁, ..., ωₙ),随着样本量 n 增大,计算成本变得高昂。其次,用边际分布 qωᵢ(z) 近似条件分布 pθ(z|Xᵢ) 在概念上显得笨拙。
摊销变分推断(AVI;Gershman and Goodman 2014)通过用一个单一的条件推断模型 qφ(z|x) 替代独立的变分分布,解决了这两个问题。在此,变分参数 φ 在所有数据点间共享。这样,无论样本量大小,我们只需优化一组参数。著名的变分自编码器(VAE;Kingma and Welling 2014)是AVI的一个重要应用,尤其适用于图像数据。
在AVI中,变分分布 qφ(z|x) 可通过建模 ω = fφ(x)(其中 f 通常是一个神经网络模型)从非摊销的变分分布 qω(z) 构造而来。在此构造下,qφ(z|x) = qω=fφ(x)(z)。第4.1节提供了此方法的一个示例。
在AVI下,ELBO的推导类似:
与非摊销VI相比,当样本量 n 较大时,这大大降低了计算复杂度。方程(16)中对最大值点的搜索通常通过随机梯度上升法完成。
4.1 示例:连接摊销与非摊销VI
现在我们考虑一个特例,即我们的摊销变分分布 qφ(z|x) 是一个具有对角协方差矩阵的高斯分布:N(ηφ(x), diag(δ²φ,₁(x), ..., δ²φ,ₖ(x))),其中 ηφ(x), δ²φ(x) ∈ ℝᵏ 是某些函数。这是实践中常见的选择,可视为第3.1节中高斯平均场族的摊销版本。
回想一下,在非摊销的高斯平均场方法中,每个观测值 Xᵢ 的变分分布为 qωᵢ(z) = N(αᵢ, diag(βᵢ²)),其中 ωᵢ = (αᵢ, βᵢ) 是一个直接优化的独立参数向量。
在摊销设定下,函数 ηφ(x) 和 δφ(x)(例如,由 φ 参数化的神经网络)被训练用于预测任意给定输入 x 的最优均值和标准差。因此,其关联可表示为:
这突显了根本性差异:非摊销VI直接优化 n 个独立的参数向量 (ω₁, ..., ωₙ),而AVI则优化一个单一的全局参数向量 φ,该向量用于生成每个观测值的局部参数。尽管AVI大幅降低了计算负担并允许对新数据点进行推断,但这种效率可能以牺牲近似精度为代价。由于摊销函数表达能力有限而导致的ELBO潜在下降,被称为“摊销间隙”(Cremer 等, 2018; Margossian 和 Blei, 2023)。
4.2 摊销ELBO的梯度
为计算公式(16)中的AVI估计量,我们可再次使用梯度上升或随机梯度上升算法(Bottou, 2010; Robbins 和 Monro, 1951)。在AVI中,优化过程比非摊销情况要简单得多,因为变分参数 φ 在所有观测值间共享。这消除了嵌套优化循环的需要。
梯度上升是一个标准流程。从初始值 θ⁽⁰⁾ 和 φ⁽⁰⁾ 开始,参数在 t = 0, 1, ... 时更新直至收敛:
这些梯度的计算方式与非摊销情况类似。关于模型参数 θ 的梯度可通过蒙特卡洛平均进行估计,而关于变分参数 φ 的梯度在选择合适的变分族前提下,可利用重参数化技巧高效计算。我们在附录 A 中提供了详细的推导过程。
在现代应用中(如 VAE),通常使用深度神经网络来指定生成模型 pθ(x|z)。例如,人们可能会建模
其中,均值函数 μθ(z) 和协方差函数 Σθ(z) 本身也由神经网络参数化。在此设定下,这些函数关于 θ 和 z 所需的梯度可通过现代自动微分框架中使用的反向传播算法高效计算(Baydin 等, 2018; Rumelhart 等, 1986)。
因此,只要模型是可微的,且变分族是可重参数化的(即满足第3.1.1节中的条件),摊销变分推断(AVI)估计量就可以通过梯度上升或随机梯度上升高效地计算。
4.3 变分自编码器(VAE)
在潜变量模型中,数据生成过程被建模为:首先抽取一个潜变量 Z ~ p(z),然后抽取一个观测值 X ~ pθ(x|z)。在VAE文献中,条件分布 pθ(x|z) 的模型被称为解码器;它将潜表示 Z 解码为观测值 X。
当我们应用AVI时,我们引入一个条件分布 qφ(z|x),作为对真实条件分布的可处理近似。该分布可被解释为一个从观测变量 X 推断潜变量 Z 的模型。在VAE文献中,此变分分布 qφ(z|x) 被称为编码器;它将观测值 X 编码为潜表示 Z。
然而,从统计学角度看,概念起点通常与深度学习文献不同。VAE实践者常常先设计编码器的架构,再构建对应的解码器以建模反向的生成映射。下一节讨论的去噪扩散模型就体现了这一方法,其教程通常从正向过程(定义变分分布)开始,再推导反向过程(生成模型)。这种建模哲学上的差异往往源于对生成效用与科学可解释性关注点的不同;更多讨论请参见第6.2节。
总结角色如下:
- 解码器:解码器 pθ(x|z) 是描述数据生成过程的模型。
- 编码器:编码器 qφ(z|x) 是变分分布,作为对真实但难以处理的 pθ(z|x) 的可处理、可计算近似。
必须认识到,解码器 pθ(x|z) 和先验 p(z) 足以完整定义联合分布 pθ(x,z),并根据贝叶斯定理确定真实条件分布 pθ(z|x)。然而,在高维情况下,对该模型进行精确推断通常是不可行的。因此,为了计算可行性,我们引入一个独立的、可处理的推断模型——编码器 qφ(z|x)——来近似真实 pθ(z|x)。
这意味着编码器和解码器在一般情况下是不兼容的。编码器 qφ(z|x) 并非由解码器和先验推导出的真实条件分布。事实上,如果它们兼容(即,若 qφ(z|x) = pθ(z|x)),则变分推断将是精确的,EM/MCEM算法也将适用。尽管存在这种不兼容性,编码器-解码器配对仍创建了一种计算上可行的方案,用于通过可处理的AVI估计量来近似难以处理的最大似然估计量 。
5 去噪扩散模型(DDM)
去噪扩散模型(DDM),也称为变分扩散模型,是一类强大的生成模型,尤其适用于图像合成(Ho 等, 2020; Sohl-Dickstein 等, 2015)。DDM 可以被理解为 VAE/AVI 框架的一个特例。在此,我们使用统计潜变量模型的语言来阐述 DDM。简言之,DDM 是一种通过摊销变分近似进行训练的深层潜变量模型。图1 提供了直观的总结。
5.1 一个深层潜变量模型
传统的潜变量模型是“浅层”的,仅由单个潜向量 Z 生成观测值 X。DDM 通过引入形成马尔可夫链的一系列潜变量,深化了这一结构。为简化起见,我们假设所有变量(包括观测变量和潜变量)维度相同,即 X, Z ∈ ℝᵈ。
传统的“浅层”生成过程由一个有向无环图(DAG)表示:
如第2.4节所示,即使对于该模型的单一层(T=1),EM算法也会失效。当层数为T时,问题会显著加剧。为解决这一不可处理性,我们再次转向变分近似,特别是第4节中介绍的AVI方法。
5.2 变分近似
为了将AVI方法应用于深层潜变量模型,我们首先推导相应的ELBO:
由于变分模型是一个高斯自回归过程,项(B)和(C)可以解析计算。项(A)则需要蒙特卡洛近似,但由于公式(24)所具有的单次采样(one-shot sampling)性质,这一近似可以高效实现。接下来我们推导(B)和(C)的解析形式。
5.3 DDM的ELBO梯度
由于DDM是AVI/VAE框架的一个特例,其梯度计算遵循第4.2节和附录A中概述的相同原则。需要注意的是,在标准DDM实现(Ho等, 2020)中,变分参数 φ₁, ..., φₜ 并不进行学习,而是作为固定超参数预先定义。这使得优化仅针对生成模型参数;更多讨论见第5.5节。然而,若有必要,变分参数 φ₁, ..., φₜ 也是可学习的。根据构造,DDM的前向过程是一个高斯自回归模型,因此重参数化技巧可直接用于计算关于变分参数 φ 的梯度。
关于生成模型参数 θ 的精炼ELBO梯度,对于每个参数 θₜ 是可分离的:
将数据生成过程视为一个“去噪”过程。公式(27)中梯度的形式提供了一个关键洞见:参数 θₜ 的学习信号来源于 pθ(yₜ₋₁|yₜ) 的得分函数。该任务本质上是要求模型在给定一个更嘈杂的状态 Ŷₜ 时,预测出一个更干净的状态 Ŷₜ₋₁。因此,生成(逆向)模型 pθ 学会逐步对一系列潜变量进行去噪,从纯噪声 Yₜ 开始,最终得到一张干净的图像 Y₀。
5.4 前向与逆向过程
上述描述的变分框架将DDM视为一种特定类型的VAE。解码器是我们的数据生成模型 pθ,它描述了如何从纯噪声变量 Yₜ = Z 生成观测值 Y₀。编码器是我们的变分分布 qφ,它是一个高斯自回归模型。在DDM文献中,这两个组件被称为前向过程和逆向过程。
编码器 qφ 将观测值 Y₀ 映射到最终的潜噪声变量 Yₜ,被称为前向过程。它是一个高斯自回归模型,通过依次向观测值添加高斯噪声(如公式(23)所示),其行为类似于扩散过程。
解码器 pθ 则以相反方向运行。它从纯噪声 Yₜ 开始,依次移除噪声以恢复原始观测值 Y₀。这被称为逆向过程,在功能上是一个去噪过程。这两个组件的结合赋予了“去噪扩散模型”其名称。
许多关于DDM的教程先介绍前向过程,再推导逆向过程(Ho等, 2020; Luo, 2022),因为这与实现方式一致——计算机将首先执行前向过程,然后利用逆向过程来拟合参数 θ。这与统计建模的传统形成对比,后者通常从数据生成模型(即逆向过程)开始,再构建变分近似(即前向过程)作为可处理推断的工具。
总结对应的术语:
- 解码器 = 逆向过程 = 数据生成模型:一个具有马尔可夫链结构的深层潜变量模型,学会逐步将变量从纯噪声去噪为观测值。
- 编码器 = 前向过程 = 变分分布:一个具有相似马尔可夫结构的高斯自回归模型,逐步向观测值添加噪声。
5.5 实际实现与简化目标
完整的ELBO为DDM提供了理论基础,但在实践中,从业者已采用若干关键设定,以获得更稳定、更高效的目标函数,从而支持大规模训练。
固定变分参数与协方差矩阵模型。在实践中,DDM的训练过程通过若干关键设定变得更加高效。首先,变分分布(即前向过程)的参数并非从数据中学习,而是被固定为预定义的超参数,统称为“方差调度表”(variance schedule)(Ho等, 2020)。此外,逆向(数据生成)过程中的协方差矩阵也被假定为固定且对角的,通常表示为 Σθₜ(yₜ) = σₜ²I_d。方差 σₜ² 是已知常数,通常与前向过程的方差调度表相关联。此设定具有两大主要优势:第一,它消除了学习任何方差参数的需求;第二,它将ELBO中与 θ 相关的部分简化为一个加权最小二乘目标。如公式(26)所示,ELBO关于均值函数 μθₜ 的梯度变为:
5.5.1 噪声预测形式Ho 等人(2020)的关键洞见在于,该目标函数可以被重新表述为一个噪声预测任务。公式(30)的核心准则是如下期望(为简化起见,将梯度算子 ∇θ 移出):
6 结论
变分推断(VI)、变分自编码器(VAEs)和扩散模型(DDMs)在潜变量建模与似然近似方面共享一个共同的基础。从经典的EM算法出发,我们看到VI是通过用可处理的变分族 qωᵢ(z) 替代难以处理的条件分布 p(z|x=Xᵢ; θ⁽ᵗ⁾) 而自然衍生出的一种松弛方法。摊销VI进一步通过学习条件映射 qφ(z|x) 简化了计算,从而实现大规模估计,并构成了VAEs的核心框架。最后,DDM将此框架扩展为一个具有马尔可夫链结构的深层潜变量模型,提供了一种最强大的现代生成建模工具。
6.1 变分推断:频率学派还是贝叶斯学派?
尽管VI常被作为贝叶斯方法引入(Blei等, 2017; Doersch, 2016; Kingma & Welling, 2014),但它本身并非固有的贝叶斯方法。在我们的分析中,VI完全是从频率学派视角发展而来的:我们并未对感兴趣的参数θ施加任何先验。相反,VI纯粹作为一种计算工具,用于在似然函数难以处理时近似最大似然估计量。
话虽如此,如果推断的主要目标是潜变量Z而非模型参数θ²,则VI也可置于贝叶斯语境下理解。在这种情况下,分布p(z)扮演先验的角色,而难以处理的条件分布p(z|x;θ)则代表后验分布。变分分布qω(z)或qφ(z|x)随后便为该后验提供了可处理的近似。
最终,VI最好被理解为一种通用的计算框架,用于近似难以处理的条件分布p(z|x;θ)。它同样适用于频率学派设定(如潜空间模型),也适用于贝叶斯问题(如对潜变量的后验推断)。无论从哪个视角出发,VI都通过相同的底层优化原则,统一了计算可处理性与概率近似。
6.2 潜变量建模:生成效用 vs 科学可解释性
潜变量在深度生成模型(VAEs、DDMs)中的作用与它们在传统统计学中的作用显著不同——这体现了“生成效用”与“科学可解释性”之间的区分。
在VAEs和DDMs中,潜变量主要作为一种工具,用于构建灵活且高容量的模型,以近似复杂的数据分布(例如自然图像)。其主要目标是生成性能——即产生逼真的数据——而计算可处理性是关键约束。因此,单个潜变量维度的可解释性通常是次要的,模型架构可以自由修改以提升效果。DDM中允许噪声预测公式的模型设定(第5.5节)正突显了这一原则。
相反,在因子分析等经典潜变量方法中,主要目标是科学解释(Anderson, 2003; Harman, 1976)。潜变量被假定代表基于领域知识的有意义、潜在的构造。其含义至关重要,对模型潜结构的任何更改都需要强有力的理论或统计依据。因此,尽管程序上存在相似之处,这两种范式由不同的哲学所引导:一种由预测能力驱动,另一种由解释性洞察驱动。
原文链接:https://www.arxiv.org/pdf/2510.18777
热门跟贴