超图神经扩散:一个受PDE启发的超图消息传递框架|卷积|新论文|神经网络|离散化|算子|超图神经|鲁棒性

超图神经扩散:一个受PDE启发的超图消息传递框架

Hypergraph Neural Diffusion: A PDE-Inspired Framework for Hypergraph Message Passing

https://arxiv.org/pdf/2604.10955

摘要：

超图神经网络（HGNNs）在建模自然涌现于诸多现实世界数据领域中的高阶关系方面展现出了显著潜力。然而，现有的HGNNs通常面临浅层传播、过平滑以及对复杂超图结构适应性有限等问题。本文提出超图神经扩散（HND），一种将非线性扩散方程与超图上的神经消息传递相统一的新型框架。HND立足于连续时间超图扩散方程，该方程通过超图梯度与散度算子构建，并由作用于超边-节点对的可学习、结构感知系数矩阵进行调节。这种基于偏微分方程（PDE）的表述为超图学习提供了一种具有物理可解释性的视角，其中特征传播被理解为由局部不一致性与自适应扩散系数所支配的各向异性扩散过程。在此视角下，神经消息传递转化为一种离散化的梯度流，逐步最小化一个扩散能量泛函。我们推导了严格的理论保证，包括能量耗散、基于离散极大值原理的解有界性，以及在显式与隐式数值格式下的稳定性。HND框架支持多种积分策略，如非自适应步长（如Runge-Kutta）与自适应步长求解器，从而能够构建深层、稳定且可解释的架构。在基准数据集上的广泛实验表明，HND取得了具有竞争力的性能。我们的结果凸显了受PDE启发的设计在提升超图学习稳定性、表达能力与可解释性方面的强大作用。

关键词：超图，超图神经网络，超图扩散方程，超图神经扩散，消息传递机制；

1 引言

超图为对超越成对交互的高阶关系复杂系统进行建模提供了一个强大的数学框架。在社交网络（Jia 等，2021；Guan 等，2023；Khan 等，2025；Su 等，2025）、生物系统（Ji 等，2022；Pan 等，2024；Xie 等，2024；Xia 等，2024）、推荐系统（Li 等，2022b；Peng 和 Zhang，2022；Li 等，2023；Yang 等，2024）以及图像处理（Wang 等，2024b,a；Zhang 等，2025）等领域中，数据自然表现为实体群体之间的关系，而能够同时连接多个节点的超边能够更忠实地捕捉这种关系。为在学习任务中利用此类高阶结构，超图神经网络（HGNNs）作为图神经网络（GNNs）的自然扩展应运而生，旨在将消息传递、聚合与表示学习推广至超图领域。

尽管早期的HGNN模型——如HGNN（Feng 等，2019）、HyperGCN（Yadati 等，2019）和HCHA（Bai 等，2021）——通过团展开或星形展开来近似超图卷积，但这些近似往往会扭曲超边真实的组合语义。更具表达能力的模型（Dong 等，2020；Huang 和 Yang，2021；Chien 等，2022）采用了显式的节点-边-节点消息传递，但在结构上通常仍显浅层且僵化。其他研究方向——包括基于注意力的设计（Arya 等，2020；Choe 等，2023）、基于单纯复形或层（sheaf）的扩展（Duta 等，2023；Choi 等，2025），以及动力系统表述（Yan 等，2024a）——不断拓展了该领域的边界，但一种用于自适应、稳定且可解释超图学习的统一且具理论依据的框架仍付之阙如。

与此同时，基于拉普拉斯算子与偏微分方程（PDEs）的扩散框架已被证明在图上的传播动力学、正则化与平滑建模中十分有效。然而，由于超边-节点交互具有复杂且非成对的结构，将该理论扩展至超图面临着重大的数学挑战。特别是，超图上从根本上缺乏良好定义的梯度与散度算子概念——而这些正是表述经典扩散过程所必需的数学构造。为此，我们引入了超图梯度与散度算子的全新定义，该定义植根于扩散理论的物理直觉。具体而言，梯度算子量化了节点值与其所关联超边平均值之间的差异，而散度算子则将这些差异重新聚合回节点。该算子对在标准内积下构成伴随系统，其组合自然地导出了超图拉普拉斯算子。值得注意的是，我们证明相应的拉普拉斯矩阵可还原为Zhou等人（2006）提出的归一化拉普拉斯矩阵，但我们的推导基于变分原理与物理可解释性，而非组合展开。

基于上述算子，我们提出了超图神经扩散（HND），这是一种植根于连续时间非线性超图扩散方程（HDE）的新型神经框架。该方程将节点特征的演化建模为一个各向异性扩散过程，并由作用于超边-节点对的可学习、结构感知系数矩阵进行调制。在此视角下，神经消息传递转化为一种逐步最小化扩散能量泛函的离散化梯度流，从而将HGNN的设计与成熟的物理及数学原理相联系。

HND具备以下几项关键优势：

• 理论原则基础：HND源于一个将经典扩散动力学推广至超图的非线性偏微分方程，从而能够对能量耗散、稳定性与有界性进行严格分析。

• 特征自适应与各向异性传播：可学习的调制矩阵支配依赖于边且数据感知的信息流，在提升模型表达能力的同时，提供对平滑过程的自适应控制。

• 兼容数值积分格式：该框架支持固定步长与自适应步长积分方法，如显式/隐式欧拉法、多步法及自适应步长求解器，每种方法均对应稳定且可解释的HGNN层。

• 广泛的实验验证：HND在广泛的节点分类基准测试中取得了具有竞争力的性能，涵盖多个学术网络与现实世界数据集。

总之，HND弥合了基于偏微分方程的扩散理论与神经超图学习之间的鸿沟，提供了一种兼具表达能力、稳定性与可解释性的统一架构。它不仅深化了对HGNN的理论认知，也为构建深层、自适应且结构感知的超图神经网络提供了实用的框架。

2 相关工作

图扩散技术将信息在图与超图上的传播建模为由类拉普拉斯算子支配的连续时间过程。基础性工作（Zhu 等，2003；Zhou 等，2003）通过标签传播引入了基于扩散的半监督学习，随后该方法通过团展开与全变分公式（Zhou 等，2006；Hein 等，2013）被扩展至超图，从而实现了对高阶平滑性的控制。近期的研究进展推进了非线性与受约束的扩散框架（Tudisco 等，2021a,b；Prokopchik 等，2022），增强了扩散过程的灵活性与表达能力。随着深度学习的兴起，神经扩散模型（Chamberlain 等，2021；Li 等，2022a；Gravina 等，2023；Wang 等，2023a,b）将扩散动力学整合至可训练架构中，提供了针对过平滑问题的更强鲁棒性，并实现了特征依赖且结构感知的传播。此外，Zheng 和 Worring（2024）提出了 CoNHD，该方法将 ENC 表述为在节点-边对联合表示上进行的神经超图扩散过程。CoNHD 引入了多输入多输出动力学，并使扩散结构适应 ENC 结构，显著提升了表达能力与适应性。Choi 等人（2025）提出了超图神经层扩散（HNSD），该方法从超边构建对称单纯集，并应用归一化层（sheaf）拉普拉斯算子进行扩散。该方法在保留高阶结构的同时推广了经典拉普拉斯算子，为超图学习提供了一个具有理论依据且基于几何的框架。随机与生成式表述（Gailhard 等，2025）通过去噪扩散模型的视角重新诠释了超图扩散，为在生成式建模中的应用铺平了道路。综上所述，这些进展将扩散不仅定位为一种强大的建模范式，更确立为现代超图学习具有理论依据的计算基础。

与受扩散启发的方法并行发展，超图神经网络（HGNNs）将图神经网络（GNNs）扩展至对诸多现实世界数据集中固有的非成对、高阶关系进行建模。早期的谱HGNNs如HGNN（Feng 等，2019）、HyperGCN（Yadati 等，2019）和HCHA（Bai 等，2021）通过团展开或星形展开来近似超图卷积，这往往以牺牲超边真实结构语义为代价。为更好地保留高阶信息，基于消息传递的模型如HNHN（Dong 等，2020）、HyperSAGE（Arya 等，2020, 2024）和UniGNN（Huang 和 Yang，2021）采用两步聚合方案——首先将节点特征聚合至超边，再反向传播回节点——从而对超图拓扑提供了更为忠实的建模。同时，AllDeepSets 和 AllSetTransformer（Chien 等，2022）等架构完全放弃了谱假设，在超边上采用置换不变集函数以促进灵活的集合级推理。近期的进展，包括 WHATsNet（Choe 等，2023），通过设计以节点-超边信息为条件的消息传递方案，进一步推进了边依赖处理。Duta 等人（2023）引入了层超图网络（Sheaf Hypergraph Networks），该网络通过胞腔层（cellular sheaves）为超图赋予额外的结构。他们定义了线性与非线性层超图拉普拉斯算子，扩展了经典扩散框架。HDS（Yan 等，2024a）使用常微分方程（ODEs）将超图学习建模为动力系统，为深层超图传播引入了可控性与稳定性。为统一超图中节点与边语义的建模，Yan 等人（2024b）提出了一种交叉展开框架，将超顶点与超边均映射至展开图中的节点，从而在共享嵌入空间中实现联合表示学习。为进一步提升 HGNNs 对长程依赖的表达能力，Xie 等人（2025）提出了 K-hop 超图神经网络（KHGNN），该网络采用了一种名为 HyperGINE 的新型二分嵌套卷积模块。该模块不仅从节点与超边中提取特征，还从连接它们的中间结构路径中提取特征，从而有效捕捉多尺度最短路径交互。与此同时，为缓解深层 HGNNs 中的过平滑问题，Li 等人（2025a）提出了 FrameHGNN，这是一种基于紧框架小波变换（tight framelet transforms）的谱 HGNN 框架。FrameHGNN 在超图卷积中同时引入了低通与高通滤波器，实现了多频率信息流。该方法进一步通过初始残差与恒等映射机制进行增强，促进了稳定且具表达能力的深层架构的构建。综上所述，这些方法反映了学界对超图动态性、表达能力与结构感知神经计算日益增长的重视。

尽管超图学习取得了显著进展，现有模型仍面临若干关键局限性。许多传统HGNN依赖于浅层消息传递方案，通常受限于固定的传播模式（例如各向同性或均匀扩散），这限制了它们对跨超边的异构或结构依赖交互进行建模的能力。基于团展开或星形展开的谱方法可能引入冗余或扭曲高阶结构，而纯粹基于消息传递的模型则常常面临过平滑与深度可扩展性不足的问题。此外，很少有现有方法显式地融合来自连续动力学（如PDE或ODE）的数学原理，导致所构建的架构缺乏可解释性、稳定性保证或对信息流的细粒度控制。诸如需要针对节点-超边对进行自适应与非对称建模的任务，仍然特别缺乏深入探索，且大多数HGNN框架对其支持欠佳。

受扩散过程的物理直觉与偏微分方程（PDEs）数学基础的启发，我们引入了超图神经扩散（HND）——一种桥接超图学习与非线性扩散理论的新颖方法。HND植根于超图上的离散化非线性偏微分方程，其中可学习的、结构感知的调制矩阵支配着跨超边-节点对的各向异性与自适应扩散。这使得能够实现超越静态拉普拉斯算子或均匀消息传递的细粒度、特征驱动传播。HND灵活支持显式与隐式格式及高阶求解器（如龙格-库塔法），从而能够构建更深且更稳定的架构。理论上，HND保留了关键的PDE性质——如能量耗散与极大值原理——为对高阶关系数据进行建模提供了一种具有理论依据且具表达能力的传统HGNN替代方案。

3 预备知识与符号说明

本节介绍贯穿全文所使用的数学基础与符号约定。我们首先回顾加权超图的结构及其相关的矩阵表示。随后，我们定义在节点与超边-节点对上的函数空间，并为其配备适当的内积结构。在此基础上，我们形式化了超图上梯度与散度算子的概念，它们推广了经典微分算子，并构成了定义超图拉普拉斯算子、能量泛函与扩散动力学的基础。这些预备知识为我们构建扩散模型与神经架构提供了分析框架。

3.1 超图基础与符号说明

3.2 超图上的函数空间

我们定义与超图相关的两个实值函数空间：

这两个希尔伯特空间通过下文定义的梯度与散度算子相连接。

3.3 超图上的梯度与散度算子

为在超图上实现微分算子与变分原理的形式化表述，我们引入两个关键构造：梯度与散度算子。这些算子将向量微积分中的经典概念推广至超图设定，并作为定义拉普拉斯算子、能量泛函与扩散动力学的基础构件。梯度算子度量节点值与其关联超边平均值之间的差异，从而刻画局部不一致性。相反，散度算子聚合各超边上的偏差，以量化每个节点的净通量。在标准内积下，它们共同构成一对伴随算子，从而为基于超图的学习与扩散模型奠定了严谨的分析框架。

这与经典的散度解释一致：正值表示流入，负值表示流出，零表示局部守恒。为形式化二者之间的联系，我们现在证明，在标准内积下，散度算子是梯度算子的伴随算子。

命题1的证明见附录A。上述伴随关系确立了梯度与散度算子之间的基本对偶性，这与经典向量微积分中的分部积分原理相类似。这一性质构成了定义超图上拉普拉斯算子的基石。

3.4 超图上的拉普拉斯算子与拉普拉斯矩阵

受命题1所确立的伴随关系的启发，我们将超图拉普拉斯算子 ∆ : L(V) → L(V) 定义为散度与梯度的复合：

具体而言，通过复合散度算子与梯度算子，我们得到一个拉普拉斯算子，它从该伴随算子对中继承了关键的结构性质。特别地，伴随性直接意味着所得的拉普拉斯算子是自伴随的，并诱导一个非负二次型，如下列命题所形式化。

命题2和命题3的证明见附录A。矩阵L在结构上与Zhou等人（2006）引入的归一化超图拉普拉斯矩阵完全相同：

其中 W W 是超边权重矩阵。

与Zhou拉普拉斯算子的比较。 尽管 L L 的矩阵形式在代数上等价于 (Zhou et al., 2006) 中的归一化超图拉普拉斯算子，但这两种表述源于根本不同的建模范式并服务于不同的目的。Zhou等人（2006）通过基于超图到图转换的谱松弛推导出超图拉普拉斯算子，主要针对聚类和嵌入任务。在该表述中，拉普拉斯算子被引入为用于下游谱分析的固定算子。

相比之下，我们的表述通过超图梯度和散度算子从第一性原理（first principles）构建拉普拉斯算子，从而产生了一个变分与算子理论框架。这一视角使得 (i) 与连续时间扩散动力学的直接联系，(ii) 通过调制机制对非线性或可学习算子的自然扩展，以及 (iii) 将超图神经网络视为底层微分方程离散化的新视角成为可能。

因此，尽管在线性情况下所得的矩阵表达式是一致的，但我们的框架提供了一个更通用且可扩展的基础，支持超越静态谱方法的动力学建模和有原则的神经架构设计。

3.5 与基于Lovász的次模扩散算子的关系。

这对应于一个归一化的超图拉普拉斯算子。

重要的是，当超边割函数被限制为基于基数或二次型的形式时，我们的表述可以被视为基于Lovász框架的一个特例，在此条件下Lovász扩展退化为一个光滑的二次函数。在这种情况下，非线性次微分算子退化为一个线性扩散算子，从而恢复了我们的 ∇ / div 表述。

然而，对于一般的次模超图，基于Lovász的算子本质上是非线性的且为集值的，因此无法被我们的线性算子完全捕捉。

相反，我们的表述提供了一种计算高效的松弛，在避免次模优化复杂性的同时保留了关键的扩散特性。

这一区别凸显了建模灵活性与计算可处理性之间的权衡，将我们的方法定位为对更一般的非线性超图扩散的一种可扩展近似。

4 超图上的扩散方程

扩散过程是建模结构化域上的平滑性、信息传播与动态演化的基本工具。尽管经典扩散方程在欧氏空间与简单图（每条边恰好连接两个节点的图）上已被广泛研究，但由于超图具有高阶与非成对的关系结构，将此类公式扩展至超图面临着独特的挑战。在本节中，我们引入一种非线性HDE，将经典扩散动力学推广至超图设定，从而同时捕捉现实世界系统的组合复杂性与特征依赖的各向异性。

我们首先使用超图梯度与散度算子对HDE进行公式化表述，这些算子自然地编码了超边上的局部变化与通量。支配扩散强度的调制矩阵定义在超边-节点对上，使得动力学能够适应不断演化的特征。随后，我们分析了HDE的关键解析性质，包括能量耗散、解的适定性以及离散极大值原理，这些共同为其稳定性与鲁棒性奠定了严谨的基础。最后，我们讨论了离散化方法及其对HGNNs的启示，展示了经典数值格式如何转化为深层架构中可解释且具有理论依据的传播机制。

4.1 超图扩散方程

我们提出以下一般的非线性超图扩散方程（HDE）：

4.2 非线性HDE的解析性质

公式(7)中提出的非线性HDE展现出若干丰富的解析性质。这些性质反映了其作为一种扩散框架的适用性，该框架融合了高阶组合结构、状态自适应各向异性以及数值稳定性。我们将对这些性质进行详细探讨，并阐明其数学与物理意义。此外，我们强调了它们在HGNN设计与分析中的启示，从而为架构的稳定性、表达能力、鲁棒性及可解释性奠定理论基础。

我们首先分析基础的能量耗散行为，这是系统稳定性与收敛性的基石。随后考察解的存在性与唯一性，以确保模型是适定的。最后，我们推导离散极大值原理，以确立解随时间演化的有界性。

能量耗散与单调性。我们将扩散能量泛函定义为

也就是说，系统沿着能量景观的最速下降方向演化。这一表述提供了一个具有理论依据的变分视角：动力学旨在以最优方式最小化超边内节点值的总不一致性，从而逐步将局部节点值与其对应的超边均值对齐。

这种能量的单调递减表明系统不断耗散势能并向局部极小配置演化。这保证了动力学本质上是稳定且非振荡的，防止了发散或混沌行为。从优化角度来看，这意味着非线性HDE定义了一个能量景观上的下降过程，每条轨迹都遵循不一致性局部最大减少的方向。因此，系统的长期行为由 E ( x ( t ) ) 的景观支配，引导状态趋向于平衡超边一致性和节点间变化的稳态平衡。

从物理上讲，这种行为反映了一个松弛过程，其中系统耗散势能，类似于导电率随空间变化的非均匀介质中的热扩散。调制矩阵 A ( x ( t ) ) 起到了位置依赖电导的作用，支配着扩散的速率和方向性。这项动力学中引入了各向异性和异质性，允许系统适应超图的非均匀结构和功能属性。

在HGNN框架内，这种能量最小化视角与跨超边平滑节点特征同时保留由学习到的注意力引导的急剧转变的目标相一致。因此，它通过启用状态自适应扩散强度来限制结构多样区域间特征的过度同质化，有助于缓解深层GNN架构中普遍存在的过平滑问题。

解的存在性与唯一性。 能量的单调耗散表明系统以稳定且结构化的方式演化。随之而来的一个自然问题是，对于任何初始条件，扩散动力学是否容许一个定义良好的解轨迹。为了解决这个问题，我们考察支配扩散方程右侧的向量场的正则性属性。特别是，我们在非线性微分方程的背景下评估系统是否满足局部存在性和唯一性的经典条件。

极大值原理与有界性。 扩散过程的基本性质之一是它们倾向于随时间保持初始值的范围。对于非线性HDE，这一直觉通过离散极大值原理被形式化，该原理保证了解在初始极值范围内保持有界。该结果在确立数值稳定性与解的全局存在性方面发挥着核心作用。

也就是说，演化过程在逐点上受初始值范围的限制。

命题6的证明见附录A。

该原理通过排除发散并确保系统随时间保持表现良好，从而对动力学提供了强有力的控制。结合能量耗散，这意味着解既保持有界又收敛。在数值实现中，离散极大值原理作为所学表示的稳定性和可解释性的保证。在HGNN中，这种有界性对应于所学嵌入的鲁棒性，并防止消息传递期间的特征爆炸。它还有助于模型的可解释性，确保节点特征在整个训练过程中保持在语义上有意义的范围内。凸性驱动的解释为在基于超图的架构中使用归一化注意力或聚合函数提供了进一步的依据。从理论和实践角度来看，这些性质确保了非线性HDE为HGNN的设计和分析提供了一个有原则且稳定的骨干。

4.3 HDE的离散化

回顾公式(11)中的HDE：

从HGNN的角度来看，HDE为理解信息跨超图结构的扩散提供了一个连续时间框架。具体而言，由HDE支配的基于梯度的流自然对应于HGNN核心的特征传播机制，在该机制中，信息以结构感知的方式从超边聚合到节点。通过在时间上离散化HDE，人们可以获得类似于消息传递HGNN架构中使用的更新规则。这种联系架起了微分方程与神经计算之间的桥梁，为设计具有更高稳定性、表达能力和可解释性的HGNN模型提供了有原则的基础。

HDE的时间离散化可以通过两类主要方法来处理：显式格式和隐式格式。这些方法在如何基于当前和之前的时间步更新状态方面有所不同。显式方法使用当前状态，而隐式方法使用未来状态信息，在稳定性方面提供了独特的优势，特别是对于训练HGNN而言。

显式欧拉法 显式欧拉法是一种直接的时间积分技术，它利用系统的当前状态来近似时间导数。使用显式欧拉法得到的HDE离散化形式如下：

必须成立，以确保系统的能量是非递增的。在数值计算中，显式方法的稳定性受步长限制，较大的步长可能导致数值不稳定。为了更严格地建立稳定性条件，我们分析该方法的行为并推导稳定性的必要条件。

隐式欧拉法 隐式欧拉法是一种隐式积分技术，它利用未来时间步的信息来更新当前状态。它通常比显式方法更稳定，尤其是在处理刚性方程时。对于超图扩散方程，使用隐式欧拉法的离散化形式为：

隐式欧拉法通常表现出优异的稳定性，因为它是一种 A-稳定方法，意味着它对所有特征值均保持稳定。这种稳定性在求解刚性问题时尤为有利，因为它能够处理较大的时间步长而不会导致不稳定。对于 HDE，无论选择何种时间步长，隐式方法都保持稳定，从而使其成为无条件稳定的方法。

命题 8（隐式欧拉稳定性）。公式(23)中HDE的隐式欧拉法是无条件稳定的。具体而言，对于任意步长 τ > 0 ，解将不会无界增长。

命题7和命题8的证明已在附录A中给出。

多步与自适应积分格式。我们的框架支持一系列超越欧拉法的积分格式，包括高阶龙格-库塔（Runge-Kutta）法、线性多步法（例如，Adams-Bashforth 和 Adams-Moulton）以及自适应步长求解器。这些方法在计算成本、稳定性和准确性之间提供了不同的权衡，并且可以自然地融入我们基于算子的表述中。详细的公式表述见附录B.1。

与HGNN的关系

深层架构的无条件稳定性：隐式时间步长格式相对于步长 τ τ 表现出无条件稳定性，确保特征演化无论时间分辨率如何均保持有界。这一性质在HGNN中尤为有利，因为在HGNN中，更深的架构或高基数超边可能会加剧不稳定性并导致节点表示发散。隐式多步格式为构建层间更新提供了一种有原则的机制，同时提供强有力的稳定性保证，从而促进深层且可靠的HGNN的构建。
谱滤波与特征值调制：显式和隐式积分格式均通过瑞利商（Rayleigh quotient）和特征值分析拥有成熟的谱解释。在HGNN的背景下，这转化为一种控制机制，用于调控图谱分量如何影响扩散动力学。具体而言，隐式方法倾向于衰减高频模式（与超图拉普拉斯算子的大特征值相关），从而有效地起到低通滤波器的作用。这种谱阻尼有助于提高所学节点嵌入的平滑性、抗噪鲁棒性以及泛化能力。
针对特征敏感性的自适应动力学：自适应时间步长策略——例如那些基于嵌入式RK（Runge-Kutta）方法的策略——通过估计局部截断误差，为传播过程引入了动态调整机制。在HGNN框架下解释时，这种自适应可以被视为对每个节点或超边的聚合强度或学习率的一种隐式调制。这使得网络能够自适应地响应局部结构和信号变异性，从而实现对超图数据更具表达能力且对结构更敏感的建模。
高阶特征传播：以Adams-Bashforth格式为代表的显式多步法，融合了来自多个先前状态的时间信息，有效地将高阶依赖引入传播机制。在HGNN中，这对应于利用跨层的更丰富的历史信息，增强了模型捕捉长程依赖、保持时间一致性以及在学习动力学中编码类记忆行为的能力。
HGNN的离散时间扩散解释：HGNN的逐层更新可以被严谨地解释为非线性扩散过程在超图上的离散时间近似。数值积分格式的选择——显式与隐式、固定步长与自适应——从根本上决定了这种近似的保真度和稳定性。这种解释不仅架起了HGNN与经典基于PDE的扩散理论之间的桥梁，而且还为研究模型动力学、指导架构设计以及为训练超参数的选择提供信息，提供了一个统一的分析视角。

5 超图神经扩散

基于HDE的连续时间表述及其通过高级数值格式的离散化，我们提出了一种被称为超图神经扩散（HND）的新型神经架构。该模型在一个植根于PDE理论的连贯框架内，统一了梯度驱动的特征传播、自适应各向异性扩散以及神经参数化的原则。

5.1 HND框架

这种复杂度在超边数量及其平均大小上是线性的，使得HND对于具有较小 c c 的稀疏超图是高效的。

5.2 扩散强度的特征自适应控制

5.3 基于数值格式的层变体

HND框架支持广泛的逐层更新规则族，每一种都对应于连续扩散过程的不同时间离散化方法。这种灵活性使得能够根据特定任务的准确性、稳定性和计算约束来定制架构设计。下面，我们详细阐述几种关键变体。

显式欧拉HND。 该变体采用一种直接的前向欧拉格式：

它在计算上是高效的，每层仅需一次矩阵-向量乘积。然而，为了保证数值稳定性并避免特征爆炸，步长 τ τ 必须被仔细选择——通常受限于扩散算子的谱范数。

隐式欧拉 HND。 该变体将显式更新替换为隐式更新：

高级积分格式。 除了基于欧拉的离散化方法外，我们的框架还支持一系列高级格式，包括自适应步长方法、高阶龙格–库塔（Runge–Kutta）法以及线性多步法。这些方法实现了对扩散动力学更灵活的控制，在计算成本、稳定性和准确性之间提供了不同的权衡。所有这些格式都可以自然地集成到我们基于算子的表述中，从而产生相应的超图神经架构。详细的公式表述见附录 B.2。

这些权衡对于非线性且可能具有刚性的扩散动力学尤为相关，其中数值格式的选择直接影响效率和稳定性。我们的框架提供了一个支持这些格式的统一表述，允许从业者根据计算预算和精度要求选择合适的离散化方法。

5.4 理论优势与可解释性

HND模型从其连续扩散根源继承了若干理论保证：

6 实验

为全面评估所提出框架的性能，我们开展了一系列系统性的实验研究。具体而言，我们首先在多个真实世界与合成数据集上进行了广泛的性能评估，以证明模型的有效性。其次，我们针对模型的过平滑行为与鲁棒性进行了深入分析。最后，我们考察了模型对超参数的敏感性并进行了特征可视化，为其在实际应用中的可解释性与适应性提供了有价值的见解。源代码可在 https://gitee.com/zmyovo/hnd 获取。

6.1 基准数据集上的结果

数据集。 为全面评估所提出方法的性能，我们在多个基准数据集上进行了系统性实验，涵盖学术场景与真实世界场景。学术数据集包含五个广泛使用的超图基准（Yadati 等，2019）：Cora、Citeseer、Pubmed（共引网络）以及 Cora-CA、DBLP-CA（合著网络），其中节点特征为词袋表示，标签表示论文类别。真实世界数据集包括来自 UCI 仓库（Dua 等，2017）的 20Newsgroups 和 Zoo、来自 3D 视觉领域的 ModelNet40（Wu 等，2015）和 NTU2012（Chen 等，2003），以及来自社交与政治网络的 House（Chodrow 等，2021）和 Senate 数据集（Fowler，2006）。超图结构遵循先前工作构建，对于缺乏节点特征的数据集，则使用高斯随机向量。所有数据集均按 50%、25%、25% 的比例划分为训练集、验证集和测试集。在评估时，我们使用以固定基础种子初始化的确定性伪随机序列生成 20 组不同的训练/验证/测试划分，并报告这 20 次运行的聚合结果。所有数据集的部分统计信息见表 1。

基线模型。 我们将我们的模型与多种超图神经网络基线进行比较。这些模型包括：HGNN（Feng 等，2019），其为超图结构数据引入了谱卷积操作；HCHA（Bai 等，2021），其在超图表示学习中融入了层次化注意力机制；以及 HyperGCN（Yadati 等，2019），其通过团展开将图卷积网络扩展至超图。HNHN（Dong 等，2020）利用了超图特有的新颖归一化技术，而 UniGCNII（Huang 和 Yang，2021）则通过残差连接统一了多种超图卷积范式。HAN（Wang 等，2019）也因其在超图分析中使用层次化注意力网络而被纳入比较。

此外，我们与 AllSetTransformer 和 AllDeepSets（Chien 等，2022）进行了对比评估，这两种方法分别采用深度集操作以捕捉超图学习中的置换不变性质。我们还纳入了 ED-HNN（Wang 等，2023a），该方法引入了等变超图扩散算子，以及 HyperGINE 和 KHGNN（Xie 等，2025），其中 KHGNN 通过 K-hop 消息传递实现了远距离节点与超边之间的有效交互。此外，我们考虑了 FrameHGNN（Li 等，2025a），该方法将框架小波变换与图神经网络相结合以捕捉多尺度超图表示。我们进一步纳入了 HNSD（Choi 等，2025），该方法通过神经谱分解对超图扩散进行建模以捕捉高阶结构模式。HyperUFG（Li 等，2025b）也被纳入考量，该方法利用统一的框架小波滤波以实现超图上灵活的频域表示。最后，我们纳入了 HyperSheaflets（Li 等，2026），该方法引入层论（sheaf-theoretic）构造以建模超图数据中的局部几何一致性与高阶交互。所有模型均使用 PyTorch Geometric 框架（Fey 和 Lenssen，2019）实现，以确保公平且一致的比较。

实验设置。 我们研究了 HND 的两种变体：线性与非线性。在 HND-L 中，注意力权重在整个积分过程中保持恒定，从而产生一个耦合的线性常微分方程组。在 HND-NL 中，注意力权重在数值积分的每一步进行更新。在这两种情况下，给定的超图均被用作扩散算子的空间离散化。对于 HND-L 和 HND-NL 模型，我们均使用固定学习率为 0.01 的 Adam 优化器。关键超参数——权重衰减、输入丢弃率、隐藏维度和总训练时间——根据验证性能为每个数据集单独选择。具体而言，权重衰减从 {0.001, 0.01, 0.1} 中选择，输入丢弃率从 {0.001, 0.01, 0.1, 0.2, 0.3} 中选择，隐藏维度从 {16, 32, 64, 128, 256, 512} 中选择，训练时间从 {4, 5, 6, 7, 8} 中选择。对于两种模型，均在上述范围内选择最佳配置。学习率调度器在适用时设置为 CosineLR。所有实验均使用固定的基础随机种子（seed = 0）以确保可复现性。报告的结果是在 20 组不同的随机训练/验证/测试划分上的平均值。

结果。 如表 2 和表 3 所示，实验结果表明，所提出的方法在广泛的数据集上几乎全面优于基线模型，涵盖五个学术数据集和六个真实世界数据集。具体而言，我们的模型在五个学术基准中的两个上取得了最先进的性能，展示了其有效捕捉结构化数据中复杂关系的能力。此外，它在六个真实世界数据集上几乎全面优于所有基线方法，这些数据集涵盖了 3D 物体识别与社交网络分析等多样化的应用领域。这些结果共同证实了 HND 在受控学术环境与实用真实世界场景中的有效性。此外，我们计算了各方法的平均排名，HND-L 与 HND-NL 在学术与真实世界数据集上均持续占据前两名，进一步凸显了其卓越的性能。

6.3 深度敏感性分析

在本节中，我们分析改变层数对模型性能的影响。正如 (Chen 等，2022) 所指出的，大多数现有的超图神经网络架构都是浅层的，这限制了它们捕捉来自高阶邻居信息的能力。然而，增加层数也可能导致性能下降，这是图和超图模型中普遍观察到的现象。为了探究这一现象，我们在 Cora 数据集上评估了模型深度的影响。具体而言，在固定的数据划分下，我们评估了不同模型在层配置为 2、4、10、20、30 和 40 时的性能。

如图 1 所示，HND-NL（红色）和 HND-L（黄色）在不同的层深下始终表现出优越的性能。值得注意的是，随着层数的增加，它们的性能保持稳定。相比之下，其他方法在层数较少时往往表现较好，但随着网络变深，其性能逐渐下降。这表明 HND 在深层中有效地保持了节点表示的异质性，从而支持了我们关于其分层特征保持能力的理论分析。

6.4 鲁棒性分析

为了评估 HND 针对噪声输入的鲁棒性，我们在特征级和结构级扰动下进行了全面的实验。实验设计如下：

如图 2 所示，我们的方法在所有噪声条件下始终优于基线方法。在特征级扰动下（图 2(a), 2(b), 2(c)），两种模型变体在 Citeseer 数据集上均保持了鲁棒的性能，显示出无论噪声类型如何——高斯、均匀或基于掩码的破坏——都具有相当的稳定性。有趣的是，与其他特征扰动相比，所有评估模型对掩码噪声都表现出更强的恢复力，这可能是由于二值特征掩码固有的信息保留特性所致。

6.4 鲁棒性分析

为了评估 HND 针对噪声输入的鲁棒性，我们在特征级和结构级扰动下进行了全面的实验。实验设计如下：

如图2所示，我们的方法在所有噪声条件下始终优于基线方法。在特征级扰动下（图2(a), 2(b), 2(c)），两种模型变体在Citeseer数据集上均保持了鲁棒的性能，显示出无论噪声类型如何——高斯、均匀或基于掩码的破坏——都具有相当的稳定性。有趣的是，与其他特征扰动相比，所有评估模型对掩码噪声都表现出更强的恢复力，这可能是由于二值特征掩码固有的信息保留特性所致。

结构噪声分析（图 2(d)）揭示了在 CORACA 数据集上类似的优势。我们的方法在所有噪声水平（0.1-0.4）下均保持了优越的性能，HND-NL 和 HDN-L 两种变体均显示出显著优于基线方法的结果。虽然所有模型的性能都随着噪声率的增加而出现下降，但观察到的下降幅度非常有限——特别是对于我们提出的方法——这表明结构扰动对该数据集的模型有效性影响相对较小。这种鲁棒性归因于基于超图的表示针对边级修改的固有稳定性。

6.5 参数敏感性分析

为了评估 HND 针对关键超参数的鲁棒性，我们对两个关键参数进行了全面的敏感性分析：隐藏层维度和步长 τ 。具体而言，我们考察了模型在隐藏层维度 { 16 , 32 , 64 , 128 , 256 , 512 }和步长 { 0.1 , 0.2 , 0.4 , 0.6 , 0.8 , 1 }的各种设置下的性能。

针对隐藏层维度的分析，我们选择了两个具有代表性的数据集：Cora-CA 和 News20。针对步长 τ ，实验则在 Zoo 和 Cora 数据集上进行。如图 3 所示，模型性能在这两个超参数的不同设置下均保持相对稳定。这表明所提出的模型对隐藏层维度和步长的变化不敏感，展现出强大的鲁棒性、良好的泛化能力以及稳定的性能。

6.6 可视化

为了更好地理解节点表示的动态演化，我们在 Citeseer 和 Pubmed 数据集上进行了特征可视化分析。具体而言，我们记录了 ODE 积分过程中不同时间步的节点特征，即 t = 0 、 t = 2 和 t = 4时刻。这些高维特征使用降维技术投影到二维空间进行可视化。在图中，每个节点根据其类别标签进行着色。

如 Citeseer 的图 4(a)、4(b)、4(c) 以及 Pubmed 的图 4(d)、4(e)、4(f) 所示，我们观察到随着时间的推移，节点嵌入变得越来越聚类良好。这表明模型有效地学会了随时间分离不同类别的节点，并且随着积分的进行，表示向更具判别性的结构演化。

7 结论

在本工作中，我们提出了 HND，这是一个有原则且具表达能力的框架，它架起了非线性 PDE 与 HGNN 之间的桥梁。HND 植根于通过超图梯度和散度算子定义的连续时间扩散方程，引入了一个可学习的、结构感知的调制矩阵，该矩阵支配着跨超边-节点对的特征自适应和各向异性扩散。这种基于 PDE 的视角使得能够通过灵活的数值格式开发新颖、稳定且可解释的神经模型，包括固定步长方法（如显式和隐式欧拉法以及多步法）以及自适应步长积分器。

我们为 HND 框架建立了理论保证，包括能量耗散、极大值原理和数值稳定性，这些共同支撑了模型的鲁棒性和稳定性。在多样化基准数据集上的广泛实验表明，HND 取得了具有竞争力的性能。

我们的工作为基于连续动力学的一类新型超图神经模型奠定了基础。未来的方向包括将 HND 扩展至随机扩散设置以进行不确定性估计，融入诸如层（sheaves）和流形等几何先验，并探索其在生成式建模和时空超图预测中的应用。

原文链接：https://arxiv.org/pdf/2604.10955