鲁棒且共轭的时空高斯过程|拟合|深度思考模型|算法|高斯过程|鲁棒性

Robust and Conjugate Spatio-Temporal Gaussian Processes

鲁棒且共轭的时空高斯过程

https://www.researchgate.net/publication/388686282_Robust_and_Conjugate_Spatio-Temporal_Gaussian_Processes

摘要
状态空间公式化方法允许高斯过程（GP）回归在时空设置中以线性于时间的计算成本进行，但在存在异常值的情况下性能通常会下降。本文中，我们对 Altamirano 等人 [2024] 提出的鲁棒且共轭高斯过程（RCGP）框架进行了适配和专门化，以适用于时空场景。由此我们获得了一种具有异常值鲁棒性的时空高斯过程，其计算成本与经典时空高斯过程相当。我们还克服了 RCGP 的三个主要缺点：当先验均值选择不佳时表现不可靠、缺乏可靠的不确定性量化能力，以及需要手动仔细选择一个超参数的问题。我们在金融和天气预测应用中广泛研究了我们的方法，证明它在存在异常值的情况下提供了可靠的时空建模途径。

1 引言
高斯过程 [GPs；Williams 和 Rasmussen，2006] 是一种灵活的概率模型，广泛应用于从回归 [Williams 和 Rasmussen，2006] 到代理建模 [Santner 等，2018] 和优化 [Garnett，2023] 等多种问题类别。高斯过程起源于空间统计学，当时其用于回归的方法被称为克里金法 [Krige，1951；Stein，1999]，但近年来也被广泛用于时空分析，包括流行病学 [Senanayake 等，2016]、神经成像 [Hyun 等，2016]、目标跟踪 [Aftab 等，2019] 和心理学研究 [Kupilik 和 Witmer，2018]。其受欢迎的原因在于能够编码空间和时间特性，如平滑性、周期性和稀疏性 [Duvenaud，2014]，从而可以模拟局部天气模式或季节性等现象。关键的是，在使用高斯似然函数时，高斯过程具有精确的闭合形式后验分布。然而，朴素实现的计算复杂度为数据点数量 N的立方，限制了其可扩展性。为解决这一问题，已有大量近似方法被提出 [Drineas 等，2005；Titsias，2009；Hensman 等，2013；Wilson 和 Nickisch，2015]。尽管这些方法有效，但它们通常无法恢复原始高斯过程，需要精细调参，并且在处理复杂数据集时可能性能下降 [Bauer 等，2016；Pleiss 等，2018]。

在时空设置中，另一种策略是将高斯过程重新表述为状态空间模型（SSM）[Reece 和 Roberts，2010；Hartikainen 和 Särkkä，2010；Sarkka 和 Hartikainen，2012；Solin，2016；Nickisch 等，2018；Hamelijnck 等，2021]。这产生了一类称为时空高斯过程（STGP）的模型，其计算成本与时间观测点数量呈线性关系。然而，与标准高斯过程一样，STGP 对模型误设（如由极端事件引起的异常值 [Heaton 等，2011]、空间相关的测量误差 [Tadayon 和 Rasekh，2019] 以及其他异质性 [Fonseca 等，2023]）缺乏鲁棒性。图1说明了这一点：显然，STGP（第二行）未能与真实情况（第四行）对齐。

为了解决这个问题，现有的关于 STGP 的研究集中在使用比高斯分布更具表达力的似然函数，例如混合分布或重尾分布。这样做会破坏共轭性，因此通常需要对后验分布进行近似 [Hartikainen 等，2011；Solin 和 Särkkä，2014；Hamelijnck 等，2021]。我们建议读者参考 Nickisch 等 [2018] 获取全面综述，并参考 Wilkinson 等 [2023] 提供的相关 Python 软件包。尽管这些方法已被高效实现，但它们通常在每个时间点上都需要额外的优化步骤，因此比共轭 STGP 显著更昂贵。

最近，Altamirano 等人 [2024] 提出了一种名为鲁棒且共轭高斯过程（RCGP）的方法，该方法利用广义贝叶斯推理 [Bissiri 等，2016；Knoblauch 等，2022] 来增强标准高斯过程的鲁棒性。他们的方法非常有吸引力，因为它在保持共轭性的同时，理论上保证了对异常值的鲁棒性，但它继承了高斯过程的立方计算成本。现有的关于 RCGP 的研究也存在三个主要局限性：当先验均值选择不佳时，RCGP 性能下降（见 Ament 等 [2024] 和 Altamirano 等 [2024] 的附录），其不确定性量化能力尚未充分研究，并且相比标准高斯过程多了一个超参数。此外，现有对该参数的启发式调节依赖于数据中异常值的比例，而这一比例在实践中通常是未知的，必须逐案手动选取。

本文展示了如何改进并专门化 RCGP 框架以适用于时空数据。我们的算法称为时空 RCGP（ST-RCGP），继承了 STGP 的计算和内存效率，以及 RCGP 的鲁棒性（见图1第三行）。状态空间公式的顺序性也使我们能够克服 RCGP 的三个主要局限性（对先验均值敏感、缺乏可靠不确定性量化、额外超参数）。总体而言，我们观察到 ST-RCGP 在存在异常值的情况下提供的推理效果可与最先进的非高斯 STGP 相媲美，但仅需其一小部分计算成本。

2 背景

高斯过程回归设有一组观测数据 {xₖ, yₖ}ₖ=1ᴺ，其中 xₖ ∈ ⊆ ℝᵈ 为协变量，yₖ ∈ ⊆ ℝ 为响应变量。对于观测噪声 ϵₖ，高斯过程回归模型考虑如下形式：

MQ（逆多重二次函数）已被频繁用于增强基于得分的散度的鲁棒性 [Barp 等，2019；Key 等，2021；Matsubara 等，2022；Altamirano 等，2023；Matsubara 等，2024；Liu 和 Briol，2024]。它是一个以 γ(x) 为中心的“隆起函数”（bump function），当 |y − γ(x)| 减小时其值增大，而当 |y − γ(x)| 增大时其值减小（见图2）。

中心函数 γ(x) 决定了这个“隆起”在何处达到最大值，任何远离 γ(x) 的 y 都会被降权处理（见图2）。衰减函数 c(x) 决定了我们对偏离 γ(x) 的观测值进行降权的速度，参数 β 则决定了权重函数的最大值（见图2）。注意，β 是一个乘法常数，相当于广义贝叶斯的学习率 [Wu 和 Martin，2023]。

尽管基于 IMQ 的权重展现出很大的潜力，但它依赖于三个超参数：γ、β 和 c。Altamirano 等 [2024] 提出将 γ(x) 设为先验均值 m(x)，并将 β 设为 σ/√2，以此确保任何观测点的权重不会超过标准 GP 中的权重。

最后，他们建议根据假设的异常值比例来启发式地选择 c：若 ϵ ∈ [0, 1] 表示异常值的期望比例，则建议将衰减函数设为常数c(x)=QN(1−ϵ)，其中 QN(1−ϵ)是集合 { |yₖ − γ(xₖ)| }ₖ=1ᴺ 的第 (1 − ϵ) 分位数。

虽然这些选择在许多场景下表现良好，但仍然存在几种失败模式：

问题 #1（对先验均值 m 的敏感性）：Altamirano 等 [2024] 和 Ament 等 [2024] 指出，当先验均值 m 未被仔细选择时，RCGP 的表现会很差。实际上，当 m 不是 f 的良好近似时，将 γ(x) 设为 m(x) 可能并不理想。在这种情况下，靠近 m(x) 但远离 f(x) 的观测值即使可能是异常值也会被赋予较大的权重，而靠近 f(x) 但远离 m(x) 的观测值即使噪声很小也会被降权。我们在图3中展示了这一点。

Altamirano 等 [2024] 建议通过使用更简单的回归模型选择先验均值来解决这个问题，但这需要额外拟合数据，可能较为繁琐。

问题 #2（不确定性量化能力差）：β 和 c 的取值对预测方差有显著影响，但目前尚不清楚所建议的选择是否在不确定性量化方面是合理的，Altamirano 等 [2024] 也未研究这一问题。这可能导致 RCGP 在预测时持续表现出过度自信或信心不足，我们在图3中也展示了这一问题。

Sinaga 等 [2024] 提出了一种计算感知扩展的 RCGP 方法以改进不确定性量化，但他们的方法仍依赖于 β 和 c 的良好取值。

问题 #3（衰减函数 c 的选择）：
所提出的用于选择 c 的启发式方法要求用户对异常值的比例 ϵ 进行猜测。
不仅在我们不知道 ϵ 的情况下难以可靠地进行这种猜测，而且正如图3所示，即使使用了正确的 ϵ，该方法也可能无法选出合适的 c 值。
这可能导致后验估计不可靠，并使 RCGP 后验出现过度自信或信心不足的现象。
此外，当异常值在时间或空间上成簇出现时，将 c(x) 设为常数可能是次优的；在这种情况下，根据输入调整衰减函数可能有助于改善不确定性量化。

3 方法论

时空 RCGP（Spatio-Temporal RCGPs）
我们现在展示，与高斯过程（GPs）类似，RCGP 的推理也可以通过状态空间模型（SSM）表示以及滤波/平滑更新来实现。

我们将 RCGP 的状态空间模型（SSM）表述称为 时空 RCGP（ST-RCGP） ，并注意到上述方法与现有的广义贝叶斯（GB）滤波更新密切相关 [Duran-Martin 等，2024；Reimann，2024]。

这一方法带来了两个关键优势：

我们操作的矩阵规模显著减小，大小为 ns(ν+1)×ns(ν+1) ，而不是 RCGP 中的 ntns×ntns ，从而在保持鲁棒性和共轭性的同时提高了计算效率；
尽管 RCGP 要求在推理过程中固定权重函数，但在 ST-RCGP 中我们可以随着滤波过程动态调整权重函数。

这一点反映在我们的符号表示中：现在权重被按时间索引。
最后一个特性使我们能够解决第2节中提到的问题 #1、#2 和 #3。

权重函数

尽管 Altamirano 等 [2024] 命题 3.2 和我们命题 3.1 中关于鲁棒性的证明对权重函数 w的要求并不严格，但我们发现使用 w:=wIMQ是可取的，因为它在面对异常值时的鲁棒性与在模型正确设定下的统计效率之间取得了良好的平衡。

为了选择 γ、β 和 c，我们遵循四个指导原则：

我们希望：

对远离我们预期数据所在位置（即数据中心）的观测值进行降权处理；
根据我们对数据中心估计的信心程度来调整降权的速度——这是 RCGP 所未考虑的方面；
在没有异常值的情况下（即模型正确设定时），能够恢复标准的 STGP；
避免引入多余的或额外的超参数。

即广义贝叶斯滤波后验预测分布的均值，从而满足原则1：远离预测值的观测将被降权处理。

这种方法消除了 ST-RCGP 对不良先验均值的脆弱性，并且不会产生额外成本，因为滤波本身就是 ST-RCGP 推理过程的一部分，从而解决了问题 #1。

我们还注意到，该中心估计是稳健的，因为我们使用的是广义贝叶斯后验预测分布，而我们稍后会看到它本身也是鲁棒的。

在图11中，我们展示了超参数的选择如何改善后验估计。尽管我们更倾向于上述对 γk的设定，但在某些特殊情况下，也存在其他合适的数据中心估计方法。我们在附录 C.7 中对其中几种方法进行了说明和扩展。

鲁棒性我们现在研究 ST-RCGP 对异常值的鲁棒性。我们采用经典的 Huber [1981] 框架来分析。

对于高斯后验分布，Altamirano 等 [2024] 和 Duran-Martin 等 [2024] 使用 Kullback-Leibler（KL）散度以闭合形式计算了 PIF，如下所示：

4 实验

在本节中，我们通过数值实验研究 ST-RCGP 的优势。首先，我们考察 ST-RCGP 相较于 RCGP 的改进效果；其次，我们在没有异常值、模型正确设定的场景下评估其表现；第三，我们展示了它在存在严重异常值的金融时间序列中的优良性能，并与现有方法进行比较；最后，我们通过一个数值实验研究了 ST-RCGP 对时空温度异常值所表现出的鲁棒性。

所有实验的代码可在以下链接获取：
https://github.com/williamlaplante/ST-RCGP

在整个第4节中，我们基于测试数据上的均方根误差（RMSE）和负对数预测分布（NLPD）来评估实验结果。为了衡量 鲁棒性与统计效率之间的权衡（在本文中定义为模型在模型正确设定下恢复标准 GP 的能力），我们还报告了期望权重比（EWR） ，这是一个我们在附录 C.1 中详细说明的经验指标。

即使在研究不涉及空间维度的时间任务时，我们仍保留“ST-RCGP”这一名称，以明确表示该方法的推理过程是：

通过命题3.1中的状态空间表示进行；
使用第3节中提出的方法选择超参数——而不是 Altamirano 等 [2024] 中用于原始 RCGP 的方法。

原始 RCGP 的问题修正

在前面的章节和图3中，我们发现原始 RCGP 存在以下三个主要问题：

问题 #1（对先验均值的敏感性）
：当先验均值设定不佳时，RCGP 表现较差；
问题 #2（不确定性估计差）
：其不确定性量化不可靠；
问题 #3（c 参数选择不当）
：无法正确选择衰减函数 c。

在我们的第一个实验中，我们展示了 ST-RCGP 如何改善这些问题。为此，我们从一个高斯过程中模拟数据，并在图4中比较两种算法的拟合效果。

图中展示的预测结果显示，由于问题 #1 和 #3 的影响，RCGP 受异常值严重影响；而覆盖图则表明，问题 #2 导致了不可靠的不确定性估计。

相比之下，ST-RCGP 利用了自适应的中心函数和衰减函数，从而能够生成可靠的不确定性估计和预测结果。

在模型正确设定下的 ST-RCGP 表现

虽然鲁棒方法可以保护模型免受污染数据的影响，但有些方法是以牺牲统计效率为代价的。在此，我们展示了 ST-RCGP 在模型正确设定下仍然具有良好的统计效率，并在需要时具备对异常值的鲁棒性。

实验设置详见附录 C.9，结果见表1。在模型正确设定的情况下，各方法的 RMSE 和 NLPD 指标相当；然而，当引入异常值后，STGP 的 NLPD 和 RMSE 明显下降。

相比之下，与其他方法相比，ST-RCGP 在有无异常值的两种情况下都保持最低的 RMSE 和 NLPD。此外，在模型正确设定时 EWR 较高，而在存在异常值时 EWR 下降，以换取更强的鲁棒性。

因此，ST-RCGP 展现出我们希望鲁棒方法在模型正确设定下应具备的特性。

金融崩溃期间的鲁棒性表现

2013年4月23日，美联社（Associated Press）的推特账号遭到黑客攻击，发布了关于白宫发生爆炸的虚假推文。这导致了包括道琼斯工业平均指数（DJIA）在内的金融市场短暂但显著的下跌，在假消息被澄清后迅速反弹。

该数据集此前已被 Altamirano 等 [2024] 和 Ament 等 [2024] 研究过。我们在图5中绘制了 GP、RCGP 和 ST-RCGP 的拟合结果，以及 Ament 等 [2024] 提出的通过相关性追求（RP）方法得到的鲁棒 GP 拟合结果。

虽然 RP 方法的表现符合预期，但从图中可以看出，标准 GP 对此次市场暴跌并不具备鲁棒性。

有趣的是，RCGP 的表现甚至更差，原因在于其中心函数 γ 是通过两天的数据取均值得到的常数先验均值，而恰好在暴跌期间这个值接近异常值，导致 RCGP 的中心落在异常值附近。这是问题 #1 的又一实例，而该问题已被 ST-RCGP 解决。

通过使用第3节中引入的自适应中心函数，ST-RCGP 的中心位于更为合理的数值周围。

图5的右侧面板还强调，由于采用了命题3.1中的状态空间表示，ST-RCGP 在计算效率上相较于 RCGP 和 GP 有实质性提升。

我们没有绘制 RP 的计算时间对比，因为它使用不同的软件包实现，因此计算时间不具备可比性。但已知 RP 的成本是 GP 的多倍 [Ament 等，2024]，因此也显著高于 RCGP 和 ST-RCGP。此外，目前尚不清楚 RP 是否能轻松利用时空结构来实现线性于时间的成本。

基于上述原因，我们在本实验之外不再进一步探讨 RP 方法。

由于“闪崩”数据集仅包含 N=810个数据点，我们进一步通过一个包含 N=46,800个数据点的股指期货交易日数据来研究 ST-RCGP 的计算特性，并人为合成一个类似于前述例子的市场崩盘场景（见附录 C.10）。

对于如此规模的数据，朴素的 GP 实现方法难以应对，因此我们专注于本质上适用于序列数据的方法。

表2总结了实验结果，并将 ST-RCGP 与 STGP 进行了对比，同时还比较了几种现成的、用于具有学生 t 分布误差的序列高斯过程推理方法，这些方法来自 BayesNewton 软件包 [Wilkinson 等，2023]，包括马尔可夫期望传播（MEP）、马尔可夫变分推理（MVI）和马尔可夫拉普拉斯近似（MLa）。

虽然 STGP 和 ST-RCGP 的计算成本相似，但 ST-RCGP 的鲁棒性使其表现出更优的性能。相反，在此问题中，ST-RCGP 的表现与使用学生 t 分布误差的模型相当，但其计算成本显著更低。尽管 ST-RCGP 是精确推理方法，而表2中的其他鲁棒方法仅产生近似推理结果，这一优势依然成立。

全英国范围内的温度预测

在确认了 ST-RCGP 在简单问题上的表现后，我们的最后一个实验研究了其在包含人为引入异常值的时空温度数据上的表现。

特别地，我们人为引入了一类通常被称为聚焦型异常值 （focussed outliers）的数据，这类异常值模拟了罕见自然现象对相邻气象站造成的影响。

所用数据由气候研究中心（Climate Research Unit）收集 [参见 Harris 等，2020]，记录了从 2022 年 1 月 16 日至 2023 年 12 月 16 日、共 ns=571个地点的温度数据，总计包含 N=11,991个数据点。

超参数优化使用的是 2022 年 1 月 16 日至 2023 年 9 月 30 日之间的数据，后续日期的数据用于测试。

我们在 2023 年 10 月和 11 月进行样本内预测，并将 2023 年 12 月用于一个月的温度预测。

图6 和表3 展示了实验结果。

在没有异常值的情况下，两种模型表现相似；然而，当存在异常值时，STGP 的预测准确性（以 NLPD 和 RMSE 衡量）显著下降，而 ST-RCGP 则在整个时间段内保持稳定的 RMSE 和 NLPD，从而在相当的计算成本下提供了更为可靠的预测结果。

5 结论

我们提出了 ST-RCGP ，该方法基于对 Altamirano 等 [2024] 所提出的 RCGP 框架的全面改进，在解决原始 RCGP 的若干主要缺陷的同时，进一步提升了其计算效率，并为其在时空问题中的应用铺平了道路。

ST-RCGP 具备与 STGP 相同的计算复杂度，同时还提供了对异常值的鲁棒性。