Laplace Approximation for Bayesian Tensor Network Kernel Machines

贝叶斯张量网络核机的拉普拉斯近似

https://arxiv.org/pdf/2604.26673

打开网易新闻 查看精彩图片

摘要

在存在模糊或分布外输入的情况下,不确定性估计对于鲁棒决策至关重要。高斯过程(GPs)是经典的基于核的模型,提供原理性的不确定性量化,并在中小规模数据集上表现良好。另一种方法是在张量网络假设下构建权重空间学习问题,从而产生可扩展的张量网络核机器。然而,这些假设破坏了高斯性,使标准概率推断复杂化。这提出了一个根本性问题:张量网络核机器如何提供原理性的不确定性估计?我们提出了一种新颖的贝叶斯张量网络核机器(LA-TNKM),它采用(线性化)拉普拉斯近似进行贝叶斯推断。一组全面的数值实验表明,所提出的方法在多样化的 UCI 回归基准测试中始终匹配或超越高斯过程和贝叶斯神经网络(BNNs),突显了其有效性和实际相关性。

1 引言

机器学习(ML)系统区分不同感兴趣对象的能力在多个领域提供了重要价值:从金融 [Dixon et al., 2020] 和医疗 [Shehab et al., 2022] 应用,到自然语言处理 [Nam and Jang, 2024] 和推荐系统 [Roy and Dutta, 2022]。例如,便携式个性化医疗助手可以利用生理测量数据——如心率、年龄、身高和体重——作为输入特征,以生成诊断预测或疾病风险评估。然而,在实际应用中,一个关键组件常被忽视:不确定性估计(UE)[Li et al., 2012, Abdar et al., 2021]。构建不确定性感知模型的方法之一是通过概率建模 [Murphy, 2022],其目标是估计以下预测分布:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在本工作中,我们引入了贝叶斯张量网络核机器(LA-TNKM),它在单一框架内统一了变分推断和(线性化)拉普拉斯近似。关键思想是用在局部最大值处中心化的高斯分布来局部近似模型参数上的后验,其中协方差捕获局部曲率。这种近似使得预测分布 (1) 的估计成为可能,并通过变分推断框架促进了超参数评估。在此基础上,本工作的主要贡献是:

  • 我们引入了 LA-TNKM,一种新颖的概率张量网络模型,它能够在保持与标准基于 MAP 的张量网络核机器相当的计算成本的同时,实现不确定性感知预测。
  • 我们在张量网络框架内系统地评估了各种 Hessian 近似技术——Full、Generalized Gauss–Newton、Block-Diagonal、Diagonal 和 Last Core——突显了它们对内存需求、计算效率和预测性能的影响。
  • 我们展示了 LA-TNKM 在 UCI 回归基准上的竞争性表现,在那里它始终匹配或优于高斯过程、贝叶斯神经网络和其他基于张量网络的回归方法,突显了其鲁棒性和实际效用。

2 背景

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2.1 张量网络

张量网络(TNs)[Kolda and Bader, 2009, Cichocki, 2014] 的基本思想是通过将高维张量 W W 分解为由共享索引连接的较小低秩张量(核心)网络,从而有效地表示和操纵它们。在本工作中,我们专注于规范多向分解(Canonical Polyadic Decomposition)。

打开网易新闻 查看精彩图片

2.2 张量网络核机器

考虑以下线性回归模型:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

优化张量网络模型的常用方法包括专用算法,例如交替最小二乘法(ALS)[Uschmajew, 2012, Wesel and Batselier, 2021] 和黎曼优化 [Novikov et al., 2018],这些方法利用多线性张量结构以实现高效收敛。也可以采用通用的一阶或二阶基于梯度的方法。

2.3 贝叶斯推断

贝叶斯推断通过贝叶斯法则利用概率分布对参数上的不确定性进行建模 [Murphy, 2022]:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3 贝叶斯张量网络核机器

我们考虑以下判别模型:

打开网易新闻 查看精彩图片

这允许对真实后验进行高效近似。关于变分推断和超先验的详细信息见附录 A.2 节。

3.1 张量网络参数后验

贝叶斯推断的一个核心要素是模型参数上的后验分布 (6),它同时捕捉了模型的容量及其不确定性。计算后验预测分布 (7) 需要计算一个高维积分,这通常是难以处理的。为此,我们采用拉普拉斯近似 [Bishop, 2006] 来获得一个可处理的后验估计,将 p ( v ∣ D ) 近似为 q ( v ) 如下:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

该过程重复进行若干轮次(sweeps)。

3.2 海森矩阵近似

拉普拉斯近似的一个关键且具有技术挑战性的方面是计算海森矩阵 ,如公式 (12) 所定义。借鉴贝叶斯神经网络(BNNs)在海森矩阵估计方面的最新进展 [Kristiadi et al., 2020, Daxberger et al., 2021, Cinquin et al., 2025],我们在张量网络建模范式内对几种海森近似类型进行了分类与比较——全矩阵(Full)、广义高斯-牛顿(GGN)、块对角(Block)、对角(Diag)和最后核心(Last)——从内存占用和训练复杂度方面进行分析。

全海森矩阵。 利用 CPD 核机器的多线性性质,我们获得了如下定理所陈述的完整海森矩阵。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

GGN 海森矩阵。 广义高斯-牛顿近似的主要优势在于其半正定性,这与全海森矩阵形成对比,后者可能同时包含正特征值和负特征值 [Immer et al., 2021]。该近似的公式给出如下:

打开网易新闻 查看精彩图片

块对角海森矩阵。 块对角海森矩阵近似的使用在贝叶斯神经网络文献中已被证明是有效的 [Martens and Grosse, 2015, Botev et al., 2017]。关键假设是 CPD 核心(类似于贝叶斯神经网络中的独立层)相互独立,这使得后验可以表示为:

打开网易新闻 查看精彩图片

对角海森矩阵。 在这种情况下,我们假设所有模型权重都是相互独立的(即平均场方法 [Konstantinidis et al., 2022]),因此后验分布由一个对角多元高斯分布近似:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3.3 预测分布

无论选择何种后验近似(例如,海森矩阵形式),预测分布都是通过对近似后验 q ( v ) 与条件模型进行积分获得的:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

我们将标准预测分布记为 LA,将其线性化对应物记为 LLA。在 4.1 节中,我们实证比较了它们针对张量网络核机器的预测性能。

4 数值实验

打开网易新闻 查看精彩图片

4.1 消融研究

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.2 合成数据上的不确定性

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5 相关工作

我们的贡献位于贝叶斯神经网络(BNNs)、其与高斯过程(GPs)的联系以及基于张量网络(TNs)的概率方法的交叉点。Khan et al. [2019] 建立了 BNNs 与 GPs 之间的理论联系,表明通过拉普拉斯或变分推断获得的高斯后验近似对应于高斯过程回归后验。局部线性化及其与 BNNs 中广义高斯-牛顿(GGN)近似的联系由 Immer et al. [2021] 探索,并在 Antoran et al. [2022] 中进一步扩展,作者在文中解决了经典拉普拉斯近似假设与现代神经网络行为之间的不匹配问题。Miani et al. [2025] 提出了另一种视角,他们提出了一种可扩展的、无矩阵的方法,用于在海森矩阵的零空间中构建贝叶斯近似,以缓解欠拟合问题。

另一条相关研究路线聚焦于概率张量网络模型。Guo and Draper [2021] 将拉普拉斯近似应用于具有网络参数贝叶斯先验的张量列车模型。相比之下,Konstantinidis et al. [2022] 为基于 CPD 的模型提出了一个可扩展的变分推断框架,使用低秩和克罗内克结构的后验来平衡表达能力与可处理性。作为这些方法的补充,Menzen et al. [2023] 通过将问题投影到由张量网络定义的低维子空间中、在其中执行贝叶斯推断、然后投影回原始空间以进行高斯过程预测,从而近似高斯过程。

6 结论

在本文中,我们开发了一种新颖的贝叶斯张量网络核机器(LA-TNKM),它为其预测提供不确定性估计。我们将拉普拉斯近似应用于 CPD 权重后验分布,以使贝叶斯推断可处理,并引入了几种类型的海森矩阵近似,突显了它们各自的优势与局限性。我们通过实验验证了预测函数局部线性化的益处,并将所提出的 LA-TNKM 模型与基于高斯过程和贝叶斯神经网络的基线方法进行了比较。结果表明,LA-TNKM 在多样化的数据集和应用中均具有竞争力和有效性。未来的工作可专注于改进优化策略(寻找最大后验估计)、设计问题相关的先验,以及探索替代的张量网络架构(例如分层 Tucker 分解),以增强灵活性和性能。

原文链接:https://arxiv.org/pdf/2604.26673