构建富有表现力且易于处理的概率生成模型:回顾

Building Expressive and Tractable Probabilistic Generative Models: A Review

https://arxiv.org/pdf/2402.00759.pdf

这种灵活的概率模型所带来的可能性几乎是无限的

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

摘要

我们提供了对易于处理的概率生成建模领域的进展和技术的全面调查,主要关注概率电路(PCs)。我们提供了一种统一的视角,强调了表达能力和易于处理性之间固有的权衡,突出了使得构建富有表现力和高效的PCs成为可能的设计原则和算法扩展,并提供了该领域的分类法。我们还讨论了最近的工作,通过融合深度神经模型的概念来构建深度和混合PCs,并概述了可以指导未来研究的挑战和待解决问题,这是一个不断发展的领域。

其中已经翻译或新进展的论文:

应用:

1 简介

生成建模在机器学习和人工智能领域中扮演着重要角色,因为它提供了一个强大的工具包,用于理解、解释和重新创建我们数据丰富世界中存在的复杂模式。通过采用概率论作为捕捉给定数据集中固有不确定性的原则性方法,这些模型旨在近似生成数据的潜在分布或随机过程。因此,概率生成模型具有解决各种问题的潜力,包括生成新数据样本、给定观察结果进行推理、估计事件的可能性以及推理不确定信息

然而,从数据中学习分布是一个具有挑战性的问题,通常需要在建模灵活性和概率推理的易处理性之间进行权衡。早期的生成模型优先考虑实现易处理的推理,通常通过在随机变量上施加概率结构的形式,即图形模型[Koller and Friedman,2009]。然而,结果是,它们缺乏对复杂分布进行建模的灵活性易于处理的概率模型(TPMs)领域已经发展,提出了富有表达力的参数化和学习范式,形成了在统一概念下的广泛和流行的模型类别,即概率电路。从易处理性的角度设计这些模型,使它们能够进行有效的推理和精确的概率推理,使它们适用于需要快速和精确计算的任务。然而,随着数据复杂性和维度的增加,它们仍然难以捕捉依赖关系

相比之下,深度学习的进步催生了富有表达力的深度生成模型(DGMs),利用神经网络学习复杂数据分布的灵活表示。值得注意的例子包括生成对抗网络、变分自动编码器和正则化流。这些模型优先考虑表达能力,并且已经展示了在捕捉依赖关系和生成高保真度样本方面的卓越能力。然而,与TPMs不同,它们通常缺乏明确推理学习到的分布的能力

因此,弥合TPMs和DGMs之间的差距是一个引人入胜的研究领域,旨在结合它们的优势,创建既具有表达能力又易于处理的混合模型。本调查旨在全面探索在这个方向上的技术和最新进展。尽管以前的调查分别广泛研究了DGMs[Bond-Taylor et al.,2022]和TPMs[S´anchez-Cauce et al.,2021],分析了它们的设计原则和相关挑战,但仍然缺乏一个统一而连贯的视角。通过这项工作,我们希望填补这一空白,并为研究人员提供对该领域的整体理解。我们希望突出这种协同组合的好处和挑战,以激励加强对这个方向的研究。

打开网易新闻 查看精彩图片

2 易于处理的概率模型

打开网易新闻 查看精彩图片

如果对应的概率查询的答案可以在与模型大小和输入大小多项式时间内精确计算,则称概率生成模型对于推理任务是易于处理的。因此,易于处理性不仅取决于生成模型的特性,还取决于概率查询的类型,即推理任务。正如我们将展示的那样,一些推理任务天生比其他任务更困难,对于一个查询易于处理的模型可能对于另一个查询不易于处理

2.1 推理查询

打开网易新闻 查看精彩图片

最常见和基本的推理场景通常涉及计算与所有随机变量的特定取值分配相关联的概率。这通常被称为证据推理,涉及在给定特定分配x的情况下,精确计算Pθ(X = x),而不需要使用任何近似方法。在许多实际问题中,由于数据的非均匀性或缺失特征,我们只关心模型化变量的子集。或者有时,在存在敏感特征的情况下,在决策中实施公平性可能需要消除这些变量的影响。更正式地说,给定子集X1、X2,使得X1∪X2 = X且X1 ∩ X2 = ∅,通过边际化其余部分评估感兴趣变量的子集的可能性(比如X1)称为边际推理,即涉及计算。第三种推理场景涉及计算事件A发生的概率,假设另一个事件B已经发生。这被称为条件推理,它涉及计算。

最大后验(MAP)推理寻求基于证据的最可能的变量赋值,本质上是最大化与感兴趣变量相关的后验分布。这个任务对于参数估计和预测最可能的结果至关重要。更正式地说,它涉及计算arg max。

2.2 通过强加结构来增强可处理性

在生成模型的概率推理中实现易处理性的一种普遍策略是在其中施加结构约束。例如,将所有随机变量视为独立的做法会导致高度结构化的模型:。这简化了边缘分布、条件分布和MAP的计算,将它们归纳为对单变量分布的操作。将联合分布的这种因式分解纳入考虑是实现易处理性的关键。然而,这通常限制了模型的表现力,因为更严格的假设会减少可表示的概率分布的种类。为了平衡灵活性和简单性,通常会使用混合模型,它们是更简单分布的凸组合。一个显著的例子是高斯混合模型,理论上能够以足够的复杂性逼近任何连续分布[Lindsay, 1995]。因此,设计通过因式分解强化结构和通过混合物增加灵活性的算法是构建易处理模型而不损失表现力的有效方法。

3 概率电路

基于上述因式分解和混合原理,出现了几类易处理的概率模型,例如算术电路[Darwiche, 2003]、概率句子决策图[Kisa等,2014]、AND-OR搜索空间[Marinescu和Dechter,2005]、和求和-乘积网络[Poon和Domingos,2011]、割集网络[Rahman等,2014]等。最近,[Choi等,2020]提出了这些模型的统一视角,将它们概括为概率电路(PCs)的概念下。我们强调PC作为学习数据分布的一种易处理表示,但通过提供对不同模型、它们的学习方法论的统一视角,并介绍利用深度学习思想的最新工作,我们超越了他们的工作。

定义1:概率电路C是一种通过因式分解和混合紧凑地编码概率分布的计算图。它由三种类型的节点组成 - 求和、乘积和叶子分布。图中的每个节点计算一个非负函数,可以解释为在一组随机变量上的非归一化概率度量,称为节点的作用域。计算图自底向上进行评估,并递归定义如下:

打开网易新闻 查看精彩图片

根节点的输出构成了建模的密度。因此,概率电路C = {G, θ}具有结构,由计算图G编码,以及参数θ,对应于与求和节点相关联的权重和叶子分布的参数。

3.1 概率电路的结构特性

为了确保概率电路C模拟了一个有效的分布并支持易处理性,我们需要在其上定义进一步的结构属性,我们在下面详细说明。

打开网易新闻 查看精彩图片

定义2(平滑性)。如果概率电路的所有求和节点都定义在具有相同作用域的子节点上,则称该概率电路为平滑的。

定义3(可分解性)。如果概率电路的所有乘积节点都定义在具有不相交作用域的子节点上,则称该概率电路为可分解的。

定义4(确定性)。如果对于概率电路的所有求和节点,对于任何给定的输入,其子节点中最多只有一个节点的输出是非零的,则称该概率电路为确定性的

直观地说,平滑性意味着求和节点表示有效的混合分布。这反过来又意味着对于证据推断的易处理性,因为可以通过自底向上地评估电路来计算数据密度,这可以在电路的大小上线性完成。此外,平滑且可分解的电路还支持边缘和条件查询的易处理计算。这是因为这些查询涉及的积分可以分解到求和节点和乘积节点的子节点上。因此,对于一个平滑和可分解的PC,我们可以递归地将积分推至叶子节点。由于叶子分布简单且易处理,积分可以通过解析方法计算。然后,评估边缘或条件查询就简化为在电路上执行自底向上的遍历,将叶节点的值设置为其对应的积分值,因此这也是电路大小的线性。然而,平滑性和可分解性并不足以实现易处理地计算MAP查询。这是因为在分布的凸组合中的最大化器未必是各个分布的最大化器的凸组合。但是,我们可以在平滑、可分解且确定性的PC上进行易处理的MAP推断。需要注意的是,确定性PC有时也称为选择性,因为求和节点可以被视为选择其子节点之一。

打开网易新闻 查看精彩图片

3.2 参数学习

由于PC支持密度评估,我们可以采用最大似然方法来学习它们的参数。在确定性存在的情况下,根节点的输出减少为简单因子化分布的加权乘积,并且参数可以通过闭合形式估计[Rahman et al., 2014]。然而,在更一般的平滑和可分解电路的情况下,闭合形式的解决方案不可用,我们将不得不借助迭代优化方案来最大化数据似然度。

基于梯度的优化:由于PC被定义为计算图,它们是可微的,并且根节点(代表数据密度)相对于电路中每个节点的偏导数可以轻松计算。因此,通过随机初始化模型参数,然后可以使用这些梯度来迭代地更新参数以最大化似然度并学习数据分布。在实践中,可以使用支持自动微分的软件包来实现这些计算图,并有效地反向传播梯度。虽然可以使用完全批量梯度上升来优化这个目标,但其随机版本,即对小批量进行采样的方法更有效和更快,通常用于在生成和区分设置中学习PCs[Poon和Domingos,2011;Gens和Domingos,2012]。更复杂的基于梯度的优化器,如Adam,它融合了动量的概念,也被用于学习PCs[Peharz等人,2020b;Sidheekh等人,2023]。

期望最大化 另一种为PCs提出的优化方案是期望最大化(EM),它通常用于在存在缺失数据的情况下进行最大似然学习[Dempster等人,1977]。EM的关键是在以下两个步骤之间迭代,直到收敛为止,从随机配置初始化后:(1)E步骤,涉及计算给定观察变量的情况下缺失变量的期望值;(2)M步骤,最大化给定完整期望分配的似然度。由于PCs本质上是分层混合模型,它们的求和节点可以被视为边缘化一个未观察到的离散潜在变量。[Peharz等人,2016]通过在计算图中明确引入未观察到的潜在变量创建增强电路,正式化了PCs的这种潜在变量解释。由于我们不知道这些变量在手头的数据点中的分配情况,因此它成为了一个带有缺失数据的学习问题,并且可以使用期望最大化来解决。与梯度上升相比,观察到EM在数据似然度方面的提升更大[Peharz等人,2016;Peharz等人,2020b;Peharz等人,2020a],尤其是在学习的早期阶段。

3.3 结构学习

PC的计算图结构G编码了联合分布的因子化,因此影响其表达能力。然而,对于每个数据分布,最优结构可能不同,并且很少能够事先知道

基于启发式方法。从数据中学习图结构首先是由[Dennis and Ventura, 2012]探索的。他们观察到,与求和节点相关联的潜在变量应该有助于解释其范围内变量之间的相互作用。因此,他们提出了通过聚类策略性地将求和节点定位在具有显著相互依赖关系的变量组上。随后,[Gens and Domingos, 2013]表明上述方法未利用上下文特定的独立性,并且容易将高度相关的变量拆分为不同的簇,从而导致大量的似然损失。相反,他们提出了一种贪婪的迭代算法,称为LearnSPN,可用于定义求和节点和乘积节点的范围。具体而言,在乘积节点处,他们使用统计独立性检验来识别相互独立的变量子集。在求和节点处,他们使用基于EM的聚类将类似实例分组为每个子节点的支持。现在,求和节点边的权重可以定义为其相应集群中数据点的分数。递归地使用,此算法导致从数据矩阵中提取列集合的产品节点和从求和节点提取行集合,直到达到单变量叶子。进一步发展,[Rooshenas and Lowd, 2014]提出通过在较高级别的聚类的潜在变量模型化的间接交互与通过在较低级别使用可计算马尔可夫网络模型化的观察变量的直接交互来合并。类似地,[Adel et al., 2015]提出了一种基于SVD的结构学习算法,将LearnSPN使用的数据矩阵的行方向和列方向的分割合并为提取秩为一的子矩阵的单个操作。其他方法探索了整合信息瓶颈[Peharz et al., 2013]以及模拟决策树学习的切集条件[Rahman et al., 2014]。然而,所有上述方法都基于启发式方法,缺乏坚实的理论基础。

贝叶斯方法。对于PC的结构学习,可能是最合理和最优雅的方法之一是采用贝叶斯视角。通过将参数化密度视为θ和G的函数,即Pθ,G(x) = P(x|θ, G),我们可以将贝叶斯结构得分(B)定义为G对整体似然的贡献,即:B(G) = P(D|G) = ∫θ P(D|θ, G)P(θ|G)dθ = ∫θ P(θ|G) ∏ x∈D P(x|θ, G)dθ。直观地,这等同于假设参数上的先验分布P(θ|G),并通过边际化参数计算出结构G对似然的贡献。然后可以使用这样的分数以贝叶斯方式优化结构[Friedman and Koller, 2003],通过使用搜索算法[Russell, 2010]或结构期望最大化[Friedman, 1998]。然而,计算上述分数并不容易,因为它涉及对参数的积分。最近,[Yang等人,2023]表明,对于确定性PCs,可以轻松准确地计算此分数他们将结构得分与贪婪切集学习算法[Rahman等人,2014]以及结构EM结合使用,以学习最先进的PCs。他们还表明,当数据是离散的,并且假设在求和节点参数上的先验分布是狄利克雷分布时,贝叶斯结构得分将简化为著名的贝叶斯-狄利克雷(BD)得分[Heckerman等人,1995]。

打开网易新闻 查看精彩图片

3.4 通过随机结构的深度计算机

与上述讨论的从数据中学习概率电路结构以增强它们的方向相辅相成的是,存在一系列采用这样一种观点的方法:当您能够过度参数化时,结构可能并不高度相关。[Peharz等人,2020b]表明,通过利用足够大的随机结构集合,可以达到与学习结构相当的性能。为了创建有效的随机结构,他们将[Dennis and Ventura,2012; Peharz et al.,2013]中引入的区域图的概念扩展为随机区域图。直观地说,对于一组变量,随机区域图可以被视为一种根据节点递归和随机划分相关变量的有向无环图。区域图可以转换为一个有效的张量化概率电路,称为RAT-SPN [Peharz等人,2020b],通过用求和节点、乘积节点和叶分布的数组填充它们。与传统的参数化不同,上述参数化的计算图具有较低的稀疏性,并且很容易进行GPU级并行化,因此具有很高的可扩展性。在类似的思路下,[Di Mauro等人,2017; Mauro等人,2021]还探索了在确定性概率电路的特定情况下有效利用随机结构。值得注意的是,[Peharz等人,2020a]通过引入一种新颖的实现设计,扩展了RAT-SPN框架。他们将矢量化的求和和乘积操作合并为单一的monolithic einsum操作。这使得可以通过堆叠einsum层来设计PC,类似于深度神经网络,从而实现更加并行化的计算,导致培训时间提高了两个数量级。

概率电路与神经网络相似,因为它们都是计算图。上面讨论的随机参数化使得可以构建深度PC,使它们更接近深度神经模型。然而,重要的是要记住,它们在多个方面仍然与神经网络不同。最重要的是,PC的计算图转换与数据相关的概率密度,而神经网络(和DGMs)转换数据本身。此外,与神经网络上下文中的无约束参数相比,与PC相关的参数具有概率语义,因此具有更多结构。

3.5 扩展和修改

有几次尝试扩展PC的定义,以提高其表达能力和鲁棒性。[Sharir and Shashua, 2018] 提出了引入商节点来表示PC中的条件分布。他们表明,由此产生的模型类别更加表达能力强,同时仍然能够进行可计算的推断。[Trapp et al., 2019] 将PC中的求和节点概括为具有无限组分的混合物。[Mau´a et al., 2017; Mau´a et al., 2018] 提出用区间替换PC中的标量求和权重,得到了能够表示分布置信集的鲁棒电路。其他方法尝试通过引入更灵活的叶子分布来提高表达能力。[Molina et al., 2018] 提出了使用分段多项式叶子分布。类似地,[Trapp et al., 2020] 提出了在叶子节点集成高斯过程,然而,其增加的表达能力是以可计算性为代价的。图1系统地分类了通过更好的学习算法和设计扩展来改进PC的各种方法。

打开网易新闻 查看精彩图片

4 在 DGM 和 PC 之间搭建桥梁

随着上述所述的高效且可扩展的深度参数化用于学习PC,自然地可以假设通过构建更大的过参数化模型来提高它们的表达能力。然而,[Liu et al., 2023a] 最近证明了扩展PC的参数并不会导致相应的性能提升。PC仍然远未达到DGM的表达能力。

因此,人们对在PC中融合深度生成模型的概念和归纳偏差越来越感兴趣,以构建混合模型,可以在DGM的表达能力与PC的计算可计算性、鲁棒性、稳定性和可解释性之间取得平衡,接下来我们将概述这一点。

4.1 带神经网络的概率电路

深度学习之所以如此受欢迎的一个重要原因是其能够有效地利用归纳偏差,例如对图像数据进行平移不变性,这是通过使用卷积来实现的。[Butz et al., 2019]证明了PC中的求和节点本质上类似于卷积,而乘积节点则类似于深度神经模型中使用的池化操作。他们形式化了这类神经操作需要满足的性质,以便产生有效的PC,从而构建了一类混合和深度但可计算的卷积PC。在类似的思路上,[Yu et al., 2022]提出了将自注意机制(使得基于transformer的模型受欢迎)与PC结合起来,而[Ventola et al., 2020]提出了使用残差连接,从而开发了一种概率类似于ResNets [He et al., 2016]的模型。[Shih et al., 2021]提出了使用神经网络来使PC对过拟合具有鲁棒性。他们将PC的求和节点权重划分为多个部分,为每个部分学习了一个较低维度的嵌入,并使用小型神经网络将嵌入映射到PC的参数。这可以看作是一种软权重共享机制,其中多个参数由单个神经网络生成。由此产生的PC具有较少的自由度和更好的泛化能力。[Shao et al., 2022]考虑了用于结构化输出预测任务的条件PC,这可以看作是对一组目标Y和特征X建模的条件分布Pθ(Y|X),并提出了将神经网络作为门控函数进行整合。更具体地说,他们通过神经网络计算了PC的混合权重,作为输入特征X的函数。他们证明了由此产生的模型不仅在保持对目标变量Y的可计算推理能力的同时增加了表达能力,而且还可以有效地在DGMs上施加结构。

4.2 带有 VAE 的概率电路

[Liu et al., 2023a]将PC在过度参数化范围内的失败归因于随着PC的扩展,潜在信息(与求和节点相关)的增加,从而使得观察变量的边际似然变得更加复杂,因此最大似然训练变得更具挑战性。为了解决这个问题,他们提出通过显式地利用一个不太可计算但更具表达能力的深度生成模型来为PC学习提供额外的监督。由于VAEs是学习潜在表示的有效模型,[Liu et al., 2023a]利用了掩码自编码器 [He et al., 2022] 来学习求和节点的特征表示,并在此特征空间中使用K均值聚类来获取与求和节点相关的离散潜在变量的分配。他们称之为潜变量提取LVD Latent Variable Distillation)的结果框架能够与广泛使用的DGMs达到竞争性的性能。进一步,[Liu et al., 2023b]研究了作为LVD教师模型的DGM的理论性质和设计原则。他们观察到,在执行LVD时,学生PC的性能可以超过教师DGM的性能。他们还强调,DGM学习的连续潜在表示与PC所需的离散潜在变量分配之间的差异可能导致信息丢失。他们提出通过采用渐进增长算法来克服这个问题,该算法利用来自PC的反馈来执行动态聚类。

VAEs可以被解释为具有无限数量组分的混合模型,其中组分连续地依赖于潜在编码,因此是不可计算的。另一方面,PC是离散的分层混合模型。[Correia et al., 2023]观察到,即使是一个庞大的离散混合模型,例如过度参数化的PC,也无法胜过一个相对中等规模的不可数混合模型,例如一个小的VAE,这表明连续混合模型更容易泛化或更容易学习,而不是PC。因此,他们建议通过对可计算的PC进行连续混合来将VAEs与PCs合并。他们的方法可以直观地理解为用PC替换VAE的解码器。尽管所得到的公式在实践中是不可计算的,但作者证明了当考虑的潜在空间具有低维度时,可以使用数值积分技术对其进行任意精度的逼近。[Gala et al., 2023]通过允许连续潜在变量在PC中的根节点以及内部节点中定义积分单元,进一步推广了这种方法

打开网易新闻 查看精彩图片

4.3 具有归一化流的概率电路

正规化流是一类最结构化的DGM,利用微分同胚神经变换将简单的基础分布映射到更复杂的分布中。它们的微分同胚结构使得可以利用变量变换公式精确计算概率密度,因此对于证据推断来说是可行的模型。自然地,文献中探索了通过利用流的变量变换原理来扩展PCs的方法。为了实现这一点,[Pevn´y et al., 2020]提出了在PC中任意添加一种新类型的节点——称为变换节点。每个变换节点(T)都与一个可逆仿射变换相关联,并且定义在单个子节点上。T的输出被递归地定义为其子节点建模的分布的变换。

进一步研究,[Sidheekh et al., 2023]表明,上述用于将正规化流与PC集成的构造可能违反PC的分解性,因此使得诸如边际和条件等复杂推断查询变得不可计算。他们形式化了变换节点需要满足的保持可计算性的必要条件,称为τ−分解性。直观地说,τ−分解性要求当T定义在一个乘积节点P上时,它应该独立地变换P的子节点的范围。他们还表明,任意在电路中集成τ−分解性变换节点等价于在PC的叶分布上定义正规化流。他们证明了利用叶子上的可逆线性有理样条变换,我们可以构建富有表现力但可计算的概率流电路。

4.4 表达力和可计算模型的影响

从近似到精确。PC提供的可计算性可以用来精确求解经常通过近似解决的经典问题。[Shih and Ermon, 2020]研究了在离散图模型背景下的PC,并表明它们可以作为表达力强的变分家族,支持精确的ELBO计算以及稳定的梯度。[Khosravi et al., 2019]表明PC可以用于计算判别模型预测的期望值以及高阶矩。

应用于更复杂的任务。[Choi et al., 2022]展示了通过利用PC变换可以精确解决边缘MAP的复杂推理过程。[Ventola et al., 2023]展示了当在PC的上下文中引入蒙特卡罗Dropout时,可以精确且高效地用于不确定性量化,从而使PC对分布之外的数据具有鲁棒性。[Selvam et al., 2023]利用PC的可计算性来推理部分数据以搜索歧视模式,并确保模型的公平性。

[Vergari et al., 2021]编制了一个关于可以通过PC可计算地计算的涉及概率分布的操作的综合目录,并概述了在每个操作背景下需要满足的结构性质。他们的工作将我们迄今为止看到的常见推理查询推广到了包括对概率分布编码为PC的求和、乘积、商、幂、对数和指数的计算。因此,通常需要近似的复杂信息理论量可以通过电路上的可计算和模块化操作来表示。

5 开放问题和前景方向

我们已经涵盖了各种算法和设计原则,使得建立具有表达力和可计算性的生成模型成为可能。然而,该领域存在着几个开放问题,这使得它成为了进一步研究和在多个方向取得重大进展的肥沃领域。

优化超参数化PC的理论。试图克服超参数化PC性能平台的大多数工作都是基于启发式方法的。对于这种现象的理论上的理解尚未形成。另一方面,在神经网络的背景下,超参数化已经得到了很好的研究。例如,对于超参数化的神经网络,双峰现象已经得到了很好的研究,但在PC中尚未探索。因此,借鉴这样的概念来理解PC损失地形的特征,并构建更高效的优化器,以利用PC的可计算性,为未来研究提供了一个有前途的方向。

潜在表示学习。学习语义上有意义且解耦的潜在表示是生成建模的一个基本目标。PC中的求和节点引入了概率上有意义的潜在变量。然而,利用它们学习有用的数据表示是非平凡且较少探索的。确实,[Vergari et al., 2018; Vergari et al., 2019]的工作已经奠定了这个方向的一些基础,通过观察节点激活来从PC中提取可解释的表示。然而,一种可扩展且可微的方法来学习这种表示仍然缺乏。最近的工作[Liu et al., 2023a; Liu et al., 2023b]已经使得在PC中提取VAE中的信息成为可能。将这一框架扩展到支持PC的表示学习是一个有前途的未来方向。

对抗训练。用于训练PC的最大似然训练虽然稳定,但已知其在生成样本质量方面达不到最优。在深度生成模型的背景下,先前的工作已经探索了通过增加对抗损失来改善样本生成的目标函数。尽管最近的研究[Peddi et al., 2022]已经研究了PC对抗攻击的鲁棒性,但利用对抗损失的研究相对较少。事实上,这里的一个关键挑战是,PC中的采样通常是不可微的。因此,与GAN不同,无法对生成的样本的对抗鉴别器的输出进行反向传播。然而,最近的研究[Shao et al., 2022; Lang et al., 2022]已经探索了PC的可微分采样策略。这使得对抗训练成为提高PC表达能力的一种潜在方法。

融合对称性。在现实世界应用中采用混合概率模型需要赋予它们捕捉特定领域归纳偏差的能力。虽然已经探索了诸如图像[Butz et al., 2019]和时间序列[Yu et al., 2021]等领域的设计,但将它们扩展到捕捉涉及关系数据、集合、图等领域所需的对称性、不变性和等变性是一个活跃的研究领域。

多模态学习。随着异构数据的日益丰富,构建能够利用所有(或至少多种)可用数据模态进行有效和可靠决策的PC是一个重要且开放的研究问题。最近关于将流与电路集成的工作[Sidheekh et al., 2023]为在PC中建模灵活的叶分布奠定了基础。因此,使概率多模态和可能是组合学习成为可能的一种方法是在PC中嵌入在不同模态上训练的归一化流作为叶分布。

在其他领域中的应用。富有表现力的概率模型可以用作各种学习范式中的深度生成模型的替代品。例如,在强化学习中,DGM的一种应用是将其用作世界模型[Ha and Schmidhuber, 2018],这使得智能体能够幻想其环境的行为以采取更好的行动。在这样的背景下使用PC可以进一步增强智能体对环境动态的概率推理能力。另一个例子是主动特征获取,其中生成模型已被用于评估与获取新特征相关的潜在信息增益[Li and Oliva, 2021]。当在此上下文中使用表现力PC时,它带来的力量在于可以精确高效地计算许多感兴趣的信息论量,以及通过边缘化对相关特征子集进行推理。

6 结论‍‍‍‍‍‍‍‍‍‍

我们对可计算的概率模型进行了广泛的概述,重点放在概率电路上,并讨论了各种旨在提高其表达能力的算法和设计扩展。我们还概述了最近的研究如何试图弥合DGM的表达能力与PC的可计算性之间的差距,建立混合模型。需要注意的重要一点是,在学习概率生成模型时,结构是一个不可避免的因素。稳定训练DGM,如GAN和VAE通常需要对其参数施加一种弱结构。归一化流所施加的可逆结构使得精确密度评估和稳定的最大似然训练成为可能。对PC施加更严格的结构类别有助于我们在日益复杂的查询上获得可计算性。因此,关键重点应该是构建能够利用所需任务解决所需水平结构的生成模型。通过理解生成建模的设计原理,并将它们融合到建立混合模型中,我们获得了在可计算性-表达性谱上进行插值的能力。这种灵活的概率模型所带来的可能性几乎是无限的