Variational Inference with Normalizing Flows

具有归一化流的变分推理

1. 引言

近年来,变分推断作为将概率建模扩展到越来越复杂的问题以及越来越大的数据集的一种手段,重新引起了极大的兴趣。变分推断现在处于大规模文本主题模型的核心(Hoffman等人,2013),在半监督分类中提供了最先进的技术(Kingma等人,2014),推动了当前产生最真实图像生成模型的模型(Gregor等人,2014;2015;Rezende等人,2014;Kingma和Welling,2014),并且是理解许多物理和化学系统的默认工具。尽管有这些成功和持续的进步,变分方法的一些缺点限制了它们的威力,并阻碍了它们作为统计推断的默认方法的更广泛采用。在本文中,我们解决了这些限制之一,即后验近似的选择。

变分推断要求用已知概率分布的类别来近似不可处理的后验分布,我们在该类别中寻找真实后验的最佳近似。所使用的近似类别通常是有限的,例如,均场近似,这意味着没有解决方案能够真正类似于真实的后验分布。这是对变分方法提出的一个广泛反对意见,即与其他推断方法(如MCMC)不同,即使在渐近极限下,我们也无法恢复真实的后验分布。

有大量证据表明,更丰富、更忠实的后验近似确实能带来更好的性能。例如,与使用均场近似的sigmoid信念网络相比,深度自回归网络使用具有自回归依赖结构的后验近似,这在性能上提供了明显的改进(Mnih和Gregor,2014)。还有大量证据描述了有限后验近似的不利影响。Turner和Sahani(2011)提供了两个常见问题的阐述。第一个是广泛观察到的后验分布方差的低估问题,这可能导致基于所选后验近似的预测不佳和决策不可靠。第二个是后验近似的有限容量也可能导致MAP估计中的偏差(在时间序列模型中就是这种情况)。

已经探索了几种关于丰富后验近似的提议,通常基于结合了一些基本形式依赖性的结构化均场近似。另一种可能强大的替代方案是将近似后验指定为混合模型,如Jaakkola和Jordan(1998);Jordan等人(1999);Gershman等人(2012)所发展的。但是,混合方法限制了变分推断的潜在可扩展性,因为它需要对每个参数更新评估每个混合分量的对数似然及其梯度,这通常是计算上昂贵的。

本文提出了一种新的变分推断近似后验分布的指定方法。我们首先回顾了一般有向图模型推断的当前最佳实践,该实践基于摊销变分推断和高效的蒙特卡洛梯度估计,在第2节中。然后,我们做出了以下贡献:

  • 我们提出了使用正规化流来指定近似后验分布,正规化流是一种通过一系列可逆映射来构建复杂分布的工具(第3节)。使用正规化流进行推断提供了一个更紧密的、修改后的变分下界,并且只增加了具有线性时间复杂度的额外项(第4节)。

  • 我们展示了正规化流允许无穷小流,这使我们能够指定一类后验近似,这些近似在渐近极限下能够恢复真实的后验分布,克服了变分推断常被引用的一个限制。

  • 我们提出了一个统一的视角,将相关方法作为特殊类型的正规化流的应用,以改进后验近似(第5节)。

  • 我们通过实验展示了,使用一般正规化流系统地优于其他竞争的后验近似方法。

2. 摊销变分推断

为了执行推断,使用概率模型的边缘似然是足够的,并且需要对模型中的任何缺失或潜在变量进行边缘化。这种积分通常是不可处理的,相反,我们优化边缘似然的下界。考虑一个具有观测x、我们必须积分的潜在变量z,以及模型参数θ的一般概率模型。我们为潜在变量引入一个近似后验分布qφ(z|x),并遵循变分原理(Jordan等人,1999)来获得边缘似然的界限:

打开网易新闻 查看精彩图片

其中我们使用詹森不等式得到最终方程,pθ(x|z)是似然函数,p(z)是潜在变量的先验。我们可以很容易地将这个公式扩展到参数θ的后验推断,但我们将重点放在仅对潜在变量的推断上。这个界限通常被称为负自由能F或证据下界(ELBO)。它由两个术语组成:第一个是近似后验和先验分布之间的KL散度(它起到正则化器的作用),第二个是重构误差。这个界限(3)为模型的参数θ和变分近似的优化提供了一个统一的目标函数。

当前变分推断的最佳实践是使用小批量和随机梯度下降进行这种优化,这允许变分推断扩展到具有非常大数据集的问题。要成功使用变分方法,必须解决两个问题:1)有效计算期望对数似然的导数∇φEqφ(z)[log pθ(x|z)],2)选择最丰富、计算上可行的近似后验分布q(·)。第二个问题是本文的重点。为了解决第一个问题,我们使用了两个工具:蒙特卡洛梯度估计和推断网络,这两者结合在一起就是我们所说的摊销变分推断。

2.1 随机反向传播

多年来,变分推断的大部分研究都集中在如何计算期望对数似然的梯度∇φEqφ(z)[log p(x|z)]。虽然我们之前可能会求助于局部变分方法(Bishop,2006),但通常我们现在总是使用蒙特卡洛近似来计算这样的期望(包括界限中的KL项,如果它不是已知的解析解)。这形成了所谓的双重随机估计(Titsias和Lazaro-Gredilla,2014),因为我们有一个来自小批量的随机源和第二个来自蒙特卡洛近似的期望的随机源。

我们专注于具有连续潜在变量的模型,我们采取的方法是使用非中心重参数化来计算所需的梯度(Papaspiliopoulos等人,2003;Williams,1992),结合蒙特卡洛近似——被称为随机反向传播(Rezende等人,2014)。这种方法也被称为随机梯度变分贝叶斯(SGVB)(Kingma和Welling,2014)或仿射变分推断(Challis和Barber,2012)。

随机反向传播涉及两个步骤:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

基于蒙特卡洛控制变量(MCCV)估计器的许多通用方法存在作为随机反向传播的替代方法,并允许在潜在变量可能是连续的或离散的情况下进行梯度计算(Williams,1992;Mnih和Gregor,2014;Ranganath等人,2013;Wingate和Weber,2013)。随机反向传播的一个重要优势是,对于具有连续潜在变量的模型,它在竞争估计器中具有最低的方差。

2.2 推断网络

第二个重要的实践是使用识别模型或推断网络(Rezende等人,2014;Dayan,2000;Gershman和Goodman,2014;Kingma和Welling,2014)来表示近似后验分布qφ(·)。推断网络是一个学习从观测到潜在变量的逆映射的模型。使用推断网络,我们避免了为每个数据点计算变分参数的需要,而是可以计算一组适用于训练和测试时推断的全局变分参数φ。这允许我们通过推断网络的参数将推断的成本摊销,通过参数化对所有潜在变量的后验估计进行概括。我们可以使用的最简单的推断模型是具有对角高斯密度的模型,,其中均值函数µφ(x)和标准差函数σφ(x)是使用深度神经网络指定的。

2.3 深度潜在高斯模型

在本文中,我们研究了深度潜在高斯模型(DLGM),这是一类由高斯潜在变量的层次结构组成的一般类别的深度有向图模型,每层的潜在变量zl依赖于上层以非线性方式,对于DLGM,这种非线性依赖性由深度神经网络指定。联合概率模型是:

其中第L个高斯分布在没有任何其他随机变量的情况下。潜在变量的先验是单位高斯p(zl) = N(0, I),观测似然pθ(x|z)是任何适当的分布,该分布基于z1并且也是由深度神经网络参数化的(图2)。这个模型类别非常通用,包括其他模型,如因子分析和PCA、非线性因子分析以及非线性高斯信念网络作为特殊情况(Rezende等人,2014)。

打开网易新闻 查看精彩图片

DLGM使用连续潜在变量,是非常适合于使用下界(3)和随机反向传播进行快速摊销变分推断的模型类别。DLGM和推断网络的端到端系统可以被视为编码器-解码器架构,这是Kingma和Welling(2014)所采用的视角,他们将这种模型和推断策略的组合作为变分自动编码器提出。Kingma和Welling(2014);Rezende等人(2014)中使用的推断网络是简单的对角或对角加低秩高斯分布。真实的后验分布将比这种假设更复杂,并且以可扩展的方式定义多模态和受限后验近似仍然是变分推断中的一个重大开放问题。

3. 正规化流

通过检查界限(3),我们可以看到,允许IDKL[q∥p] = 0的最优变分分布在qφ(z|x) = pθ(z|x)的情况下,即q匹配真实后验分布。显然,鉴于通常使用的q(·)分布,例如独立高斯或其他均场近似,这种可能性是不可实现的。实际上,由于可用的近似族选择,变分方法的一个限制是,即使在渐近极限下,我们也无法获得真实的后验分布。因此,理想的变分分布族qφ(z|x)是非常灵活的,最好是足够灵活,以至于可以将真实后验作为解决方案之一。实现这一理想的一条路径是基于正规化流的原理(Tabak和Turner,2013;Tabak和VandenEijnden,2010)。

正规化流描述了通过一系列可逆映射变换概率密度的过程。通过反复应用变量变换的规则,初始密度通过一系列可逆映射“流动”。在这个序列的末尾,我们得到了一个有效的概率分布,因此这种类型的流被称为正规化流。

3.1. 有限流

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

其中最后一个等式可以通过应用链式法则(逆函数定理)得到,并且是可逆函数雅可比矩阵的一个属性。我们可以通过组合几个简单的映射并连续应用(5)来构建任意复杂的密度。通过K个变换fk的链将具有分布q0的随机变量z0连续变换得到的密度qK(z)为:

打开网易新闻 查看精彩图片

在本文中,我们将使用(6)式作为组合fK(fK−1(...f1(x)))的简写。由随机变量zk = fk(zk−1)经过的路径,初始分布为q0(z0),称为流,由连续分布qk形成的路径是正规化流。这种变换的一个属性,通常被称为无意识统计学家定律(LOTUS),是关于变换密度qK的期望可以在不明确知道qK的情况下计算。任何期望EqK[h(z)]都可以写成q0下的期望:

当h(z)不依赖于qK时,这不需要计算logdetJacobian项。

我们可以将可逆流的效果理解为对初始密度的一系列扩展或收缩。对于扩展,映射z′ = f(z)将点z从IRd的某个区域拉开,减少了该区域的密度,同时增加了区域外的密度。相反,对于收缩,映射将点推向某个区域的内部,增加了其内部的密度,同时减少了区域外的密度。

正规化流的形式主义现在为我们提供了一种系统的方法来指定变分推断所需的近似后验分布q(z|x)。通过适当选择变换fK,我们最初可以使用简单的因子分解分布,如独立高斯分布,并应用不同长度的正规化流来获得越来越复杂和多模态的分布。

3.2. 无穷小流

很自然地,我们可以考虑正规化流的长度趋于无穷大的情况。在这种情况下,我们得到了一个无穷小流,它不是用有限序列的变换来描述的——一个有限流,而是作为描述初始密度q0(z)随“时间”演变的偏微分方程:,其中T描述了连续时间动态。

朗之万流。一个重要的流族由朗之万随机微分方程(SDE)给出:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

重要的是,在这种情况下,的稳态解由Boltzmann分布给出:q∞(z) ∝。也就是说,如果我们从初始密度q0(z)开始,通过朗之万SDE演变其样本z0,那么结果的点z∞将根据分布,即真实的后验。这种方法已经被探索用于从复杂密度中采样(Welling和Teh,2011;Ahn等人,2012;Suykens等人,1998)。

哈密顿流。哈密顿蒙特卡洛(HMC)也可以在扩展空间上描述为正规化流,其动态来自于哈密顿量HMC也在机器学习中广泛使用,例如,Neal(2011)。我们将在第5节中使用哈密顿流与Salimans等人(2015)最近引入的哈密顿变分方法建立联系。

4. 正态化流的推断

为了通过有限正态化流实现可扩展的推断,我们必须指定一类可逆变换,并提供一种有效的计算雅可比行列式的方法。虽然构建用于方程(5)的可逆参数函数是直截了当的,例如可逆神经网络(Baird 等, 2005;Rippel & Adams, 2013),但这种方法通常具有计算雅可比行列式的复杂度,随着隐藏层维度 D 和隐藏层数 L 的增加,其复杂度为 O(LD^3)。此外,计算雅可比行列式的梯度涉及若干额外的操作,这些操作也是 O(LD^3),并且涉及矩阵逆运算,这可能在数值上不稳定。因此,我们需要一种允许低成本计算行列式的正态化流,或者不需要雅可比行列式的正态化流。

4.1. 可逆线性时间变换

我们考虑以下形式的一系列变换:

打开网易新闻 查看精彩图片

变换 (13) 定义的流通过在垂直于超平面的方向上应用一系列收缩和膨胀来修改初始密度,因此我们将这些映射称为平面流。

作为替代方案,我们可以考虑一系列变换来修改参考点周围的初始密度。变换族是:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.2. 基于流的自由能界

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.3 算法总结与复杂度

算法是对DLGMs摊销推理算法的简单修改,描述见(Kingma & Welling, 2014; Rezende et al., 2014),总结如算法1所示。通过使用推理网络,我们能够形成一个单一的计算图,从而方便地计算推理网络和生成模型的所有参数的梯度。估计的梯度与预条件随机梯度优化方法(如RMSprop或AdaGrad (Duchi et al., 2010))结合使用,其中参数更新的形式为:其中, 是一个对角预条件矩阵,自适应地缩放梯度以加快最小化过程。

联合采样和计算推理模型的log-det-Jacobian项的算法复杂度为,其中 L 是用于将数据映射到流参数的确定性层数,N是平均隐藏层大小,K 是流的长度,D是潜变量的维度。因此,整体算法至多为二次复杂度,使得该方法在实际应用中具有竞争力。

5. 基于流的替代后验

利用正则化流框架,我们可以对最近提出的设计更灵活后验近似的方法提供统一的视角。首先,我们区分两种流机制,它们在处理雅可比矩阵的方式上有所不同。本文研究的是一般的正则化流,并提出了一种线性时间计算雅可比矩阵的方法。相比之下,体积保持流设计流的方式使得其雅可比行列式等于1,同时仍然允许丰富的后验分布。这两类流都允许有限或无限小的流。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

6. 结果

在本节中,我们评估了在深度潜在高斯模型(DLGMs)中使用基于正则化流的后验近似进行推断的效果。训练是通过对模型参数 和变分参数使用随机反向传播,按照经退火的自由能(20)的梯度的蒙特卡罗估计进行的。蒙特卡罗估计是使用每个数据点每个参数更新的潜变量的单个样本来计算的。

由于发现这种方法能够提供更好的结果,因此使用了一个简单的自由能的经退火版本。修改后的边界为:

打开网易新闻 查看精彩图片

其中, 是一个反温度,遵循如下的调度:,在10000次迭代后从0.01增加到1。

形成随机变量之间条件概率的深度神经网络由具有400个隐藏单元的确定性层组成,使用窗口为4的Maxout非线性函数(Goodfellow等人,2013)。简单来说,Maxout非线性函数以窗口大小接收输入向量并计算:我们使用包含100个数据点的小批量和RMSprop优化(Kingma&Welling,2014; Rezende等人,2014)。结果是在500,000次参数更新后收集的。每个实验重复了100次,使用不同的随机种子,并报告了平均分数和标准误差。通过重要性采样使用来自推断网络的200个样本来估计真实边际似然,就像在(Rezende等人,2014,附录E)中所描述的那样。

6.1. 标准化流的代表幂

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

6.2. MNIST 和 CIFAR-10 图像

MNIST 数字数据集(LeCun 和 Cortes,1998)包含60,000张训练图像和10,000张测试图像,这些图像是10个手写数字(0到9),每张图像的尺寸为28×28像素。我们使用了(Uria 等人,2014)中的二值化数据集。我们在不同的DLGM(深度潜在高斯模型)上训练了40个潜变量,共进行了500,000次参数更新。

我们将使用(平面)正则化流(DLGM+NF)近似的DLGM性能与在相同模型上使用不同流长度K的NICE(DLGM+NICE)体积保持方法进行比较,并在图4中总结了性能。图表显示,增加流长度系统性地改善了边界F,如图4(a)所示,并减少了近似后验q(z|x)与真实后验分布p(z|x)之间的KL散度(图4(b))。它还显示了使用一般正则化流的方法优于NICE的方法。我们还在表2中展示了更广泛的比较。结果还包括哈密顿变分方法,但模型规范不同,因此提供了该方法在此数据集上可达到性能的指示。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

7. 结论与讨论

在这项工作中,我们开发了一种简单的方法,通过学习简单密度到更复杂密度的变换,来学习高度非高斯的后验密度。这是通过正则化流实现的。当结合使用推断网络和高效的蒙特卡洛梯度估计的变分推断摊销方法时,我们能够在不同问题上显著优于简单的近似方法。利用这种正则化流的观点,我们能够提供一个统一的视角,来审视其他密切相关的灵活后验估计方法,这些方法在设计更强大的后验近似时可以在统计和计算上进行不同的权衡。

从第3节的讨论中得出的一个重要结论是,存在一些正则化流类别,这些类别允许我们为变分推断创建极为丰富的后验近似。使用正则化流,我们能够在渐近状态下证明解空间足够丰富,可以包含真实的后验分布。如果我们将此与某些潜变量模型中最大似然参数估计的局部收敛性和一致性结果相结合(Wang & Titterington,2004),我们可以看到我们现在能够克服使用变分推断作为统计推断的竞争性和默认方法的反对意见。使这些论点更严谨是未来研究的重要方向。

正则化流允许我们通过简单地增加序列的流长度,在运行时控制后验的复杂性。我们提出的方法考虑了基于公式(10)和(14)的简单变换的正则化流。这些只是可以使用的众多映射中的两个,可以设计其他变换来进行后验近似,这些变换可能需要其他约束,例如受限支持。未来研究的一个重要方向在于描述允许后验具有不同特征且仍能进行高效线性时间计算的变换类别。