A Factor Graph Approach to Variational Sparse Gaussian Processes

变分稀疏高斯过程的因子图方法

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=11063321

打开网易新闻 查看精彩图片

摘要

变分稀疏高斯过程(Variational Sparse Gaussian Process, VSGP)是一种复杂的非参数概率模型,自提出以来已获得广泛关注。VSGP 模型常被作为更大模型的组成部分,或以修改形式广泛应用于各类任务中。然而,在这些变体中重新推导推理所需的更新方程在技术上极具挑战性,这限制了其更广泛的采用。另一方面,基于消息传递的因子图推理已成为一种高效的自动化贝叶斯推理框架。尽管该方法具有诸多优势,但由于缺乏适合在因子图中表示 VSGP 模型的形式,消息传递技术迄今尚未应用于 VSGP 相关模型。为解决这一局限,本文在福尼风格因子图(Forney-style Factor Graph, FFG)中引入了一个稀疏高斯过程(Sparse Gaussian Process, SGP)节点,并为其推导了变分消息传递(Variational Message Passing)的更新规则,从而实现了对 VSGP 模型的自动化高效推理。我们通过在多种高斯过程应用中的实验验证了所推导更新规则的正确性,并展示了 SGP 节点的实用优势。

索引术语贝叶斯推理;福尼风格因子图;高斯过程;变分推断;变分消息传递;变分稀疏高斯过程。

I. 引言

高斯过程(Gaussian Processes, GPs)已被广泛用作函数空间上的非参数概率先验[1]。然而在实践中,基于高斯过程的精确贝叶斯推断的计算复杂度随训练样本数量呈立方级增长,这严重限制了其在大规模数据集问题中的适用性[1]。因此,研究者提出了多种方法以缓解该计算负担,例如:稀疏高斯过程(Sparse Gaussian Processes, SGPs)[2]–[8]、适用于时序高斯过程回归模型的卡尔曼平滑求解方法[9]–[11],以及基于随机投影的有限基函数表示方法[12]–[14]。本文聚焦于稀疏高斯过程方法。SGP 方法通过引入少量“诱导点”(inducing points)对高斯过程进行近似,从而显著降低推理任务的计算开销。

在 SGP 的基础上,Titsias[8]提出了一种变分方法,即变分稀疏高斯过程(Variational Sparse Gaussian Process, VSGP)。该方法对过拟合具有鲁棒性,并支持对多种高斯过程变体模型进行变分推断,例如高斯过程隐变量模型(Gaussian Process Latent Variable Model)[15]–[17]与高斯过程状态空间模型(Gaussian Process State-Space Model)[18]。然而,目前针对 VSGP 模型的推断流程仍需由领域专家手动推导。这一过程技术难度高、耗时长且易出错,从而阻碍了这些模型的广泛应用。鉴于 VSGP 的模型结构在不同应用中保持一致,若能实现其推断过程的自动化,将极大提升 VSGP 模型的可及性与可扩展性。

在另一条研究脉络中,基于消息传递(message passing)的因子图推理已发展成为一种高效框架,可对大量可自由定义的模型实现自动化的(变分)贝叶斯推断。本文特别采用福尼风格因子图(Forney-style Factor Graphs, FFGs)[19]作为模型可视化与推理自动化的工具。与贝叶斯网络和马尔可夫随机场[20]类似,FFGs 是一类图形化模型,用以直观展现概率模型的因子分解约束,从而揭示模型变量之间的条件依赖关系。FFGs 天然具备模块化结构,便于对模型及其衍生算法进行灵活扩展与修改[21],[22]。

FFGs 通过沿图的边传递消息实现自动推断[22]。在此框架下,已发展出多种消息传递算法,包括:置信传播(Belief Propagation)[23]–[25]、变分消息传递(Variational Message Passing)[26],[27],以及期望传播(Expectation Propagation)[28]。这些方法通过更新因子图中相连节点之间各边上的消息,实现推断过程的自动化。

FFGs 为 VSGP 模型的自动化推断提供了强大框架;然而,目前尚缺乏在 FFG 框架内对稀疏高斯过程的适当表示。本文旨在填补这一空白:我们将变分稀疏高斯过程(VSGP)模型整合进 FFG 范式。受 Titsias[8]工作的启发,我们引入一个稀疏高斯过程(SGP)节点,并推导其对应的变分消息传递更新规则。这一进展使得在包含高斯过程作为潜变量以建模未知函数的因子图中,可实现自动化的变分推断。

本文结构如下:第二节回顾高斯过程与福尼风格因子图的相关背景知识;第三节介绍适用于 FFG 框架的 SGP 节点,并推导其变分消息传递更新规则;第四节通过若干实验对 SGP 节点进行验证,展示当 VSGP 作为子模型嵌入更大系统时,其复杂推断过程可完全通过 FFG 中的消息传递自动完成;上述实验均在开源概率编程库RxInfer.jl[29](Julia 语言实现)中实现;第五节与第六节分别对本工作进行讨论与总结。

II. 背景知识

本节回顾若干主题,包括:高斯过程(Gaussian Processes)、稀疏高斯过程(Sparse Gaussian Processes)、变分稀疏高斯过程(Variational Sparse Gaussian Processes),以及福尼风格因子图(Forney-style factor graphs)中的消息传递方法。熟悉这些内容的读者可直接跳至第三节。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

标准高斯过程的主要局限性在于其计算复杂度,该复杂度随观测数据量呈立方级增长,这是由于需要求逆协方差矩阵 所致。因此,为降低标准高斯过程的计算成本,已引入多种近似方法,例如稀疏高斯过程(SGPs)[2]–[8]、用于时序高斯过程回归模型的卡尔曼平滑解法[9]–[11],以及通过随机投影实现的有限基表示方法(如随机傅里叶特征)[12]–[14]。这些方法旨在保留高斯过程的灵活性与表达能力的同时提升可扩展性,使其适用于大规模或流式数据场景。

在本文中,我们利用 SGP 方法构建我们的节点。在本文余下部分,除非另有说明,我们仅考虑多变量高斯过程设置,并假设所有高斯过程均采用零均值先验函数。关于高斯过程的更多细节,请参阅文献[1],[30],[36],[37]。

B. 稀疏高斯过程

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

式 (21) 给出了稀疏高斯过程(SGP)方法中通用的预测公式,其计算复杂度为 [7],[8],[36]。该复杂度凸显了在 SGP 方法中选择诱导点时的一个关键考量:增加诱导点数量虽可提升模型精度,但也会提高计算成本[8]。因此,必须审慎权衡模型的准确性与计算效率之间的关系。

关于诱导点选取的讨论可参见文献[1],[7]。
在高斯过程相关文献中,已发展出多种稀疏高斯过程(SGP)方法[2]–[7]。它们之间的主要区别在于对式 (18) 中条件分布 p ( f ∣ u ) 的协方差结构所作的不同假设,详见文献[7]。相比之下,文献[8]采用变分推断(variational inference)方法处理 SGP 回归问题,由此提出了变分稀疏高斯过程(Variational Sparse Gaussian Process, VSGP)方法。本文将在第三节中基于该方法构建我们的 SGP 节点。有关不同 SGP 方法的更多细节,可参阅文献[7]。

C. 变分稀疏高斯过程
变分稀疏高斯过程(VSGP)采用变分推断技术求解稀疏高斯过程回归问题[8]。变分推断是一种通过将贝叶斯推断问题转化为优化问题,从而高效近似后验分布的技术。关于变分推断的全面综述,读者可参考文献[38]–[40]。

回顾前述的 SGP 回归模型(式 (19)):

打开网易新闻 查看精彩图片

除了求解关于诱导变量 u 的变分后验分布外,式 (26) 中的变分自由能(Variational Free Energy, VFE)还可作为目标函数,用于优化超参数 θ 和诱导输入 X u
[8]。有关 VSGP 方法的更多细节,可参考文献[8]。

研究表明,与其它 SGP 方法相比,VSGP 对过拟合具有更强的鲁棒性[8]。此外,VSGP 使得稀疏高斯过程可被无缝嵌入各类基于高斯过程模型的变分推断流程中。因此,VSGP 已被广泛应用于多个领域,例如:在高斯过程隐变量模型(Gaussian Process Latent Variable Model)中实现降维[15]–[17],以及在高斯过程状态空间模型(Gaussian Process State-Space Model)中对非线性动力系统建模[18]。上述应用均以 SGP 模型(式 (22))及其约束条件(式 (24))为基础。然而,一个关键局限在于:每当 VSGP 的变体作为子模型被用于不同配置时,其变分推断过程均需由专家手动重新推导。这些推导过程高度复杂,已成为阻碍 VSGP 更广泛应用的主要障碍。

基于因子图的消息传递推断为实现 VSGP 模型推理过程的自动化提供了一种有效解决方案。在第三节中,我们将 SGP 回归模型表示为福尼风格因子图(Forney-style Factor Graph, FFG)框架中的一个节点,并采用变分消息传递(Variational Message Passing, VMP)方法求解其推断问题。以下小节将简要回顾福尼风格因子图与变分消息传递算法的相关背景。

D. 福尼风格因子图
福尼风格因子图(Forney-style Factor Graph, FFG)是一种用于可视化函数因子分解结构的图形化模型[19],[41]。从计算角度看,FFG 是一种无向图;但在实际绘制中,常在边上添加箭头,以指示概率模型的生成方向(即信息流方向)。

FFG 由节点与边构成:每个节点表示一个函数,每条边表示一个变量;仅当某变量是该节点对应函数的输入参数时,该边才与该节点相连[41]。图 1 给出了一个 FFG 示例。FFG 的一个典型特征是引入等值节点(equality node),用于复制变量。这些副本具有相同的置信度(belief),且在处理出现于三个或以上函数中的变量时必不可少[42]。等值节点的函数形式定义为:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

因子图对于可视化因子化概率模型及在其上执行推断非常有用。概率模型中的推断通常涉及对大量潜变量进行积分,计算代价高昂[22]。
通过利用模型的因子分解结构,可将推断问题简化:对潜变量的全局积分被分解为一系列围绕单个节点的局部计算。
例如,考虑如下模型的因子分解:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在树状结构的福尼风格因子图(FFG)中,由和积规则(34)实现的推断过程可得到贝叶斯后验分布的精确解。对于线性高斯系统,和积规则可导出闭式(closed-form)的消息更新规则。有关 FFG 及和积规则的更多细节,可参阅文献[42]。

然而,当概率模型中存在非线性、非高斯噪声,或先验与似然之间不满足共轭关系时,和积规则将不再能给出闭式更新解。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在上述公式中,我们采用符号 ν ν 以区别于式 (34) 中用 μ μ 表示的和积消息,从而明确标识 VMP 消息。变分后验分布 由两条相向传播(碰撞)的消息相乘得到:

打开网易新闻 查看精彩图片

通常而言,对一个模型执行推断需在图中所有边上反复迭代 VMP 更新规则(式 (35))与边缘计算(式 (36)),直至收敛。当模型中包含来自指数族分布的共轭配对时,VMP 方法极为高效,因为此时式 (36) 可导出

的闭式更新解。有关因子图中 VMP 的更多细节,可参阅文献[26],[27]。

背景知识部分到此结束。接下来一节将在 FFG 框架中引入一个 SGP 节点,从而通过消息传递方法实现 VSGP。

III. 方法

本节提出一种适用于福尼风格因子图(FFG)框架的稀疏高斯过程(Sparse Gaussian Process, SGP)节点,其构建基础为变分稀疏高斯过程(VSGP)方法。该节点内嵌了一个 SGP 回归模型,并采用变分消息传递(Variational Message Passing, VMP)算法,推导出围绕该节点的各边上的变分消息更新规则。所推导的消息更新规则使得当 SGP 节点被嵌入更大规模的概率模型中时,可实现模块化且可扩展的推断。

A.SGP节点的规范

打开网易新闻 查看精彩图片

对应于模型 (39) 的福尼风格因子图(FFG)如图 4 所示。请注意,我们根据式 (40a) 定义了一个变量 v v,以提升计算效率。此外,从式 (40a) 可明显看出, v v 应依赖于超参数 θ θ。然而,我们在此放松了这一依赖关系,将 v v 视为与 θ θ 相互独立。我们将在第五节中进一步讨论这一假设。

我们沿用 VSGP 方法对模型 (39) 进行变分推断。具体而言,我们对变分后验分布施加如下约束:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

其中, 的定义见式 (40)。变量 x x 和 y y 分别表示 SGP 节点的输入与输出, W
表示噪声的精度矩阵, θ 为 SGP 的核函数超参数集合。SGP 节点的内部结构如图 5 所示,该结构也对应于模型 (39) 的结构。节点的外部配置列于表 1 中。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

要在 FFG 中使用 SGP 节点,我们需要计算其向外传递的变分消息。接下来,我们将推导这些消息的 VMP 更新规则。

B. SGP 节点的出站消息规则

为了计算向 y 、 x 、 v 、 W 和 θ 传递的出站消息,我们对变分后验分布施加以下因子分解约束:

打开网易新闻 查看精彩图片

其中,(49a) 为均值场约束(mean-field constraint),(49b) 则对应于点质量约束(point-mass constraint)[43]。一般而言, q ( θ )
可取任意分布形式,但这可能显著增加消息计算的计算负担。因此,对 q ( θ )
施加点质量约束有助于简化计算。此外,该约束下的推断过程将导出关于 θ θ 的期望最大化(Expectation-Maximization, EM)更新算法[43]——该算法本质上是一种点估计方法,与高斯过程中广泛使用的最大边缘似然(maximum marginal likelihood)超参数优化方法[38][1]相一致。

在应用式 (49) 中的约束条件后,我们利用式 (35) 给出的 VMP 更新规则,推导各出站消息的更新方程。将 VMP 更新规则应用于多变量 SGP 节点所得的结果汇总于表 1。需特别注意的是,在 VMP 方法中,消息计算依赖于变量的变分后验分布[27]。本文附录 A 提供了消息更新规则的详细推导过程;附录 B 则给出了对应于单变量 SGP 节点的相应表格(表 3)。

打开网易新闻 查看精彩图片

C. 变分后验分布的计算

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

D. 超参数优化

接下来,我们讨论超参数 θ 的估计。在点质量约束 (49b) 下进行推理,会导致一个期望最大化(EM)算法来估计 θ [43]。在因子图(FFG)框架中,这产生了一个基于局部消息传递的EM算法来优化 θ。为了描述FFG上的EM算法,我们考虑图6中的子图,它表示以下分解:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

式 (56) 中的目标函数关于 θ θ 是可微的。可以使用多种优化方法(包括基于梯度和无梯度的方法)来寻找 θ θ 的最优值。然而,由于目标函数景观具有多峰性,无法保证找到全局最优解[1]。尽管如此,EM 方法能够有效收敛到 θ θ 的局部最优解。有关 EM 及其在因子图中实现的更多细节,读者可参阅文献[38],[43],[46]。

我们在第三节 A 小节中已介绍了 SGP 节点的具体定义;第三节 B、C 和 D 小节分别讨论了其出站消息及变分后验分布的更新规则。借助这些组件,SGP 节点可作为子模型集成到任何更大的因子图模型中。通过在软件工具箱中实现这些更新规则,即可对所有变量 y y、 x x、 v v、 W W 和 θ θ自动执行推断。在下一节中,我们将通过实验验证所提出的 SGP 节点的有效性。

IV. 实验验证
本节通过一系列实验,在多种基于高斯过程的模型中验证所提出的 SGP 节点的消息传递更新规则的正确性¹。这些实验亦凸显了该节点在不同场景下的灵活性与模块化特性。

我们首先考察一个含加性高斯噪声的高斯过程回归模型,继而评估该节点在高斯过程分类模型中处理不同似然函数的能力。两项实验均使用合成数据集与真实数据集:回归任务采用Kin40k 数据集²,分类任务采用二分类 Banana 数据集³。在上述两个实验中,我们将 SGP 节点所得结果与作为基准真值(ground truth)的 VSGP 方法结果进行对比。

随后,我们进一步考察高斯过程状态空间模型(Gaussian Process State-Space Model, GPSSM)——在此模型中,高斯过程的输入与输出均为潜变量。最后,我们在一种被广泛用于降维任务的高斯过程模型——高斯过程隐变量模型(Gaussian Process Latent Variable Model, GPLVM)上验证 SGP 节点的有效性。

所有实验中均采用平方指数核(squared-exponential, SE kernel)[1]:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

为节省篇幅,下文仅对各模型作简要描述;更详细的介绍请参阅以下参考文献:高斯过程回归与分类[1]、高斯过程状态空间模型[48]、高斯过程隐变量模型[17],[49]。附录 D 中对 GPSSM 与 GPLVM 模型作了简要介绍;更复杂的实验见附录 E。

A. 高斯过程回归
在本实验中,我们将 SGP 节点应用于含加性高斯噪声的回归问题。首先考察一维合成数据的简单情形,随后在更复杂的 Kin40k 数据集上进行评估。本实验所使用的 SGP 节点更新规则见表 3。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

为进一步验证 SGP 节点的性能,我们采用与 SGP 节点相同的数据集和高斯过程配置,实现 VSGP 方法作为基准真值(ground truth)。我们测量两种方法相对于真实函数的标准化均方误差(Standardized Mean Squared Error, SMSE)[1]。SMSE 的计算公式为:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5) Kin40k 数据集接下来,我们使用Kin40k 数据集对 SGP 节点进行验证。该数据集包含 10,000 个训练样本与 30,000 个测试样本,每个样本具有 8 维输入特征。在 SGP 节点的训练过程中,我们采用随机变分推断(stochastic variational inference)方案,即在小批量(mini-batches)数据上执行推断。具体而言,我们将训练集划分为 20 个批次,每批含 500 个样本,并使用AdaMax 优化器[50]更新超参数。该训练流程同样应用于 VSGP 方法。我们从训练集中随机选取 600 个诱导点,并在训练过程中保持其固定不变。

经过 SGP 节点 500 轮(epochs)训练与 VSGP 模型 2200 轮训练后,我们观察到两种方法的 SMSE 值变化已趋于极小;最终结果记录于表 2。结果显示:SGP 节点的 SMSE 为 0.083,VSGP 为 0.087,二者高度接近。这进一步证实了 SGP 节点与 VSGP 方法性能的可比性。

B. 高斯过程分类

本实验旨在测试 SGP 节点与非高斯似然模型结合时,在二分类问题上的表现能力——其中观测值为类别标签,取值于 {0, 1}。我们首先在合成数据集上开展实验,继而将节点应用于Banana 数据集。有关高斯过程分类模型的详细说明,可参见文献[1],[38]。

为评估节点的预测性能,我们计算错误率(error rate):

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3) 推断任务
我们的目标是推断变分后验分布 q ( v )
与 q ( w )
,并优化超参数 θ θ 以建模底层高斯过程。基于该模型,我们进一步预测类别概率。
由于此处似然函数非高斯型,我们可采用近似消息传递方法进行推断,例如拉普拉斯近似(Laplace approximation)或期望传播(Expectation Propagation, EP)[1]。在本实验中,我们选择了 EP 方法。

打开网易新闻 查看精彩图片

表 2 中记录了 SGP 节点与 VSGP 方法的错误率。我们观察到两者结果相近(分别为 0.087 和 0.085),这验证了 SGP 节点更新规则的准确性。

5) Banana 数据集
我们在Banana 数据集上验证 SGP 节点。该数据集共包含 5300 个样本,每个样本具有两个输入特征。数据集按 80/20 比例划分为 4000 个训练样本和 1300 个测试样本。为训练 SGP 节点,我们采用随机变分推断方案:将训练集划分为 20 个批次,每批含 200 个样本,并使用 AdaMax 方法优化超参数。VSGP 方法亦采用相同的训练流程。我们从训练集中随机选取 500 个诱导点,并在训练过程中保持其固定不变。

SGP 节点训练 500 轮,VSGP 方法训练 1000 轮。错误率结果见表 2。结果显示两者错误率非常接近:SGP 节点为 0.096,VSGP 为 0.093,表明 SGP 节点与基准真值性能相当。

C. 高斯过程状态空间模型
本实验中,我们使用 SGP 节点构建一个高斯过程状态空间模型(Gaussian Process State-Space Model, GPSSM)。我们的目标是通过以高斯过程建模未知的状态转移函数,来刻画一个钟摆系统的行为。在该方法中,SGP 节点的输入信号与输出信号均未被观测。该钟摆系统取自文献[45]。

1) 数据
钟摆系统的状态空间模型描述如下:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4) 实验结果

结果如图 12 所示,优化后的超参数为 θ ≈ ( 0.565 , 2.288 , 4.752 ) 。图 12(c) 展示了推断过程的收敛性。为验证 SGP 节点的正确性,我们还针对模型 (69) 使用真实的状态转移函数f ( x )
(即式 (67))进行了推断,并采用无迹变换(Unscented Transform, UT)[45]实现该推断过程。我们将 UT 方法的结果视为基准真值(ground truth),用以与 SGP 节点的推断结果进行比较。

图 12(d) 与 (e) 分别展示了 SGP 节点与 UT 方法对第一维与第二维状态的估计结果。这些图表明,两者所得估计高度相似。为量化其相似性,我们计算了两种方法对真实状态的标准化均方误差(SMSE):

  • 对于第一维状态估计,SGP 与 UT 的 SMSE 分别约为
  • 对于第二维状态估计,SMSE 分别约为

上述结果表明,SGP 在潜状态近似方面表现优异。为进一步验证 SGP 节点可有效捕获状态转移函数,我们使用该节点对第一维状态进行了一步超前(one-step-ahead)预测,结果如图 12(f) 所示。可见,SGP 节点成功预测出了第一维状态的振荡行为,说明其确实学得了底层的转移函数。

D. 高斯过程隐变量模型另一种涉及不确定输入的典型高斯过程应用是高斯过程隐变量模型(Gaussian Process Latent Variable Model, GPLVM)[15]–[17],[49],它被广泛用于降维问题。GPLVM 提供了一种非线性方法,将高维观测数据映射到低维潜空间,因而特别适用于捕捉数据中复杂的非线性关系。

GPLVM 模型可按如下方式定义[49]:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

V. 讨论

我们开发了一种用于福尼风格因子图(Forney-style factor graphs, FFGs)的 SGP 节点。该节点作为插件模块,可嵌入潜在的大型模型中,利用了 FFG 框架固有的模块化特性。SGP 节点通过 FFG 中的消息传递范式支持自动化的变分推断,从而消除了为每个基于 SGP 的子模型手动推导推断流程的需求。此外,SGP 节点将过程噪声方差视为一个模型参数,从而允许直接计算其变分后验分布——这相较于以往的高斯过程方法有所改进,因为在那些方法中,过程噪声精度通常被视为超参数,并与核函数超参数一同采用点估计法进行优化[1],[8]。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

本方法的主要局限在于:我们手动选取了诱导点位置,并未采用任何策略对其进行调优或优化。正如文献[18]所指出,调整诱导输入的位置可获得更好的变分近似,并得到更紧致的变分自由能下界。我们可以将诱导输入视为 VFE 的参数,并通过最小化过程对其进行学习,如文献[8]所示。然而,这一做法在高维输入空间中极具挑战性,且贪婪选择策略通常需要访问训练数据[8]——当我们将 SGP 节点用于 GP 的输入-输出对均未知的模型(例如 GPLVM 或 GPSSM)时,这并不可行。

除了诱导点的位置,其数量同样显著影响推断过程:使用更多诱导点会提升模型复杂度与近似精度,但推断速度随之下降;反之,减少诱导点虽可加速推断,却可能损害近似质量。因此,发展一种可同时优化诱导点数量与位置的有效策略,有望进一步提升 SGP 节点的性能。

另一项潜在改进在于:放松高斯过程零均值的假设,并将节点架构扩展以支持非零均值函数;此外,还可探索核心化矩阵(coregionalization matrix)的不同配置方式。最后,针对特定核函数,若能推导出相关统计量(如 Ψ Ψ项)的解析闭式表达式,亦可进一步提升 SGP 节点的计算效率。

尽管本文聚焦于在因子图中利用消息传递对高斯过程进行概率建模与推断,近期关于图神经网络(Graph Neural Networks, GNNs)的研究[53],[54]在处理图结构数据方面也展现出令人瞩目的进展。这些方法依赖于数据驱动的、可学习的消息传递机制,而高斯过程则提供了一种基于模型(model-based)。探索这两类框架之间可能的联系,或将为未来研究开辟富有前景的新方向。

VI. 结论
本文在福尼风格因子图(Forney-style factor graph, FFG)框架中引入了一种稀疏高斯过程(Sparse Gaussian Process, SGP)节点,使得可在稀疏高斯过程中自动应用消息传递算法进行变分推断。该 SGP 节点已在 Julia 语言的概率编程库RxInfer.jl中实现。我们采用变分消息传递(Variational Message Passing, VMP)方法,推导并确立了该节点出站消息的更新规则。通过一系列涉及不同高斯过程模型的实验,我们验证了这些规则的正确性与有效性;同时,这些实验也充分展现了 SGP 节点作为即插即用模块在各类模型中的通用性与灵活性。

原文:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=11063321