加权单纯复形对高阶网络数据与拓扑的表达能力|代数|信号|复形|拓扑|新论文|狄拉克|算子

Weighted simplicial complexes and their representation powerof higher-order network data and topology

加权单纯复形对高阶网络数据与拓扑的表达能力

https://arxiv.org/pdf/2207.04710

超图和单纯复形都能捕捉复杂系统的高阶相互作用，其范围从高阶协作网络延伸到大脑网络。该领域的一个未解问题是：从高阶相互作用的数据出发，应该由什么来驱动对所采用的描述高阶网络的数学框架的选择。无权重单纯复形通常会导致数据信息的丢失，尽管它具有捕捉数据高阶拓扑结构的优势。在这项工作中，我们表明加权单纯复形能够规避无权重单纯复形在表示高阶相互作用时的所有局限性。特别是，加权单纯复形可以在不丢失信息的情况下表示高阶网络，同时还能捕捉数据的加权拓扑结构。我们通过研究适当定义的、呈现归一化谱的加权霍奇拉普拉斯算子（Hodge Laplacians）的谱性质，来探测高阶拓扑。本文将上同调理论与信息论相结合，研究了（加权）归一化霍奇拉普拉斯算子的高阶谱。在所提出的框架中，我们利用高阶谱熵和谱相对熵，量化并比较了不同维度高阶谱的信息含量。所提出的方法在真实的高阶协作网络，以及单纯复形模型“带风味网络几何”（Network Geometry with Flavor）的加权版本上进行了测试。

I、引言

高阶网络 [1–10] 捕捉了复杂系统的高阶相互作用，包括协作网络、面对面社交互动网络、大脑网络和化学反应网络。例如，在科学家之间的协作网络中，高阶网络能够捕捉由两名或更多科学家组成的共同作者团队的相互作用 [11, 12]。高阶网络包括超图和单纯复形。超图由一组超边组成，用于描述高阶相互作用。单纯复形由单纯形组成，其中 n n-单纯形由个节点组成。在文献中，人们越来越关注确定这两种专为对高阶数据建模而设计的数学框架之间的差异。无权重单纯复形与超图的区别在于，超图是超边的任意集合，而单纯复形是单纯形的集合，且该集合在包含其每个单纯形的面时是封闭的。例如，这一附加属性意味着，如果节点 A、B 和 C 之间的三方相互作用（2-单纯形，或实心三角形）[A, B, C] 存在于单纯复形中，那么我们也必须在单纯复形中包含构成该三角形面的所有连边（成对相互作用）和所有节点，即我们还应包含单纯形 [A, B]、[B, C]、[A, C]、[A]、[B]、[C]。在某些应用领域（如协作网络）中，这可能会被视为一种局限性。事实上，如果协作网络中的三位作者共同撰写了一篇论文，通常情况下，并不意味着该三角形中每对科学家都撰写过两人合著的论文。另一方面，单纯复形为网络科学家提供了来自代数拓扑的非常强大的工具 [1, 13–15]，用于表征高阶数据集的结构 [6, 8, 16–22] 以及拓扑与动力学之间的相互作用 [1, 23–50]。

解决超图与单纯复形之间这种二分法的一个方向是引入代数拓扑的概念来处理超图 [51, 52]。在这里，我们探索另一个方向，并提议研究加权单纯复形，这正吸引着越来越多的关注 [53–55]，其中单纯复形的每个单纯形都与一个称为权重的实数相关联。加权单纯复形保留了在包含每个单纯形的面时保持封闭的属性。然而，在本文中我们表明，如果单纯形的权重是根据我们的算法定义的，那么就可以区分那些仅仅为了满足封闭条件而包含在单纯复形中（且不描述数据中存在的原始高阶相互作用）的单纯形，与那些同时也编码了原始高阶相互作用的单纯形。因此，通过所提出的权重选择，单纯复形可以与超图互换使用，因为它们能够保留数据中存在的所有信息。此外，我们表明，所提出的加权单纯复形的权重选择也允许使用加权单纯复形的代数拓扑，从而研究其高阶拓扑。事实上，所提出的单纯形权重选择使我们能够定义每个维度的归一化霍奇拉普拉斯算子（Hodge Laplacians）。归一化霍奇拉普拉斯算子对于比较单纯复形在不同维度下的谱性质特别有用，从而揭示其高阶结构的重要方面。在这里，我们展示了高阶谱熵（它推广了网络的谱或冯·诺依曼熵的概念 [56–62]）如何用于表征高阶扩散过程 [25, 26, 31, 32, 63] 及其相关的特征时间尺度的性质。这些理论见解已被应用于真实的高阶科学协作网络数据集，以及加权单纯复形模型“带味网络几何”（Network Geometry with Flavor）[63–67]，揭示了编码在这些高阶网络结构中的信息含量。重要的是，在分析高阶协作网络时，我们还提出了一种量化与每个合作团队相关的原始权重的方法，从而将 Newman 在文献 [68] 中提出的科学协作网络权重的流行选择扩展到了高阶网络。

请注意，在本文中，我们的重点是确立如何使用加权单纯复形来捕捉真实数据而不丢失信息。因此，与旨在探索考虑不同高阶表示时出现的动力学效应的其他近期工作 [69] 相比，我们的方法在性质和范围上都是不同的。

本文的组织结构如下。在第二节中，我们讨论了加权单纯复形以及我们提出的拓扑权重选择。在第三节中，我们介绍了代数拓扑的基本方面，这些方面引出了高阶归一化霍奇拉普拉斯算子和归一化狄拉克算子（Dirac operator）的定义。在第四节中，我们讨论了单纯复形的高阶谱熵及其性质。在第五节和第六节中，我们分别展示了所提出的数学框架在真实协作网络和“带味网络几何”模型中的应用。最后，在第七节中，我们提供了一些总结性评论。本文还包含一个附录，提供了所提出的霍奇拉普拉斯算子在每个阶数上都是归一化的证明，从而丰富了本文的内容。

II、加权单纯复形

单纯复形 K K 是一种高阶网络 [1]，正被日益广泛地用于研究数据的底层拓扑。单纯复形编码了复杂系统的高阶相互作用，即两个或更多节点之间的相互作用。换句话说，单纯复形使得我们能够超越仅基于成对相互作用的复杂系统网络描述。

单纯复形的基本构建单元是单纯形。一个 n n 维单纯形 α α（或 n n-单纯形）由一组个节点组成

例如，一个高阶协作网络可以通过一个单纯复形来描述，其中将所有至少合著了一篇论文的共同作者团队视为单纯形，并将对应的单纯形及其所有面包含在该单纯复形中 [11, 12]。因此，给定一个以此方式构建的无权重单纯复形，该协作网络无法被完全重构，因为只有面片（facets）才能确切地指示高阶协作。

我们的目的是表明，只要做出适当的权重选择，加权单纯复形反而能够不失任何信息地忠实地捕捉高阶协作数据。

很容易验证，由于公式 (2) 和公式 (3) 是线性的，它们是可逆的。因此，通过这种拓扑权重的选择，总是有可能重构原始亲和权重并对数据进行忠实的表示，即使数据包含一组高阶相互作用，且这组相互作用在其节点子集的包含下并不封闭，正如一般的协作数据那样。

单纯复形的拓扑权重最终可能会随时间演化和波动，在这种情况下，它们被恰当地称为拓扑信号（topological signals），其动力学最近引起了广泛关注 [1, 23–32, 34–37]。然而，在本文中，我们将仅考虑由拓扑信号的单个快照构成的拓扑权重，或者由随时间恒定的拓扑信号构成的拓扑权重。

III、加权单纯复形的高阶谱

加权单纯复形不仅能够不失任何信息地忠实表示高阶网络数据，而且还允许对其高阶谱进行研究，从而揭示高阶扩散的重要性质 [26, 31, 32]。在本节中，我们介绍了研究加权单纯复形高阶谱的关键代数拓扑背景，这构成了将高阶结构与高阶动力学联系起来的基本途径。本节相关的背景文献包括参考文献 [1, 13–15, 69, 70]。

A. 链与上链

C. 高阶加权拉普拉斯算子与霍奇分解

D. 加权狄拉克算子

根据加权拓扑狄拉克算子的定义，可以得出结论：狄拉克算子的平方是高阶拉普拉斯算子的直和。

加权拓扑算子的特征值 λ λ 在绝对值上等于所考察单纯复形的上边界算子的奇异值。

E. 归一化高阶拉普拉斯算子

一个重要的问题是我们是否可以遵循类似的论证来提出高阶拉普拉斯算子的归一化版本。通常而言，提出归一化的高阶拉普拉斯算子是图论中的一个重要问题。然而，直到目前为止，只有少数几篇论文探讨了这个问题（例如见文献 [14, 34]）。在这里我们表明，利用由公式 (2) 和公式 (3) 给出的拓扑权重选择，并使用对角元由公式 (20) 给出的度量矩阵，只要我们选择

对于任何不超过单纯复形阶数的 n n，高阶霍奇拉普拉斯算子就会自动归一化。在这些假设下，可以证明霍奇拉普拉斯算子的特征值总是位于区间内（见附录 A）。

值得注意的是，本工作中提出的拓扑权重选择，即公式 (2) 和公式 (3)，自然地将通常用于归一化图拉普拉斯算子的权重选择推广到了高阶情形；正如上文所讨论的，该选择将节点的权重分配为关联连边的权重之和。

IV、单纯复形的高阶谱熵

A. 高阶谱熵的定义

为了表征编码在网络谱和广义网络结构中的信息含量，人们引入了谱熵，也称为网络的冯·诺依曼熵（Von Neumann entropy）[56–61]。网络的谱熵被定义为量子力学中的冯·诺依曼熵 [75]，其中密度算子（density operator）取为与网络相关联的半正定算子（semi-definite positive operator），且具有归一化的迹（normalized trace）。因此，密度算子的典型选择通常取为图拉普拉斯算子（graph Laplacian）的函数。在此，我们定义了加权单纯复形的高阶谱熵，并利用该量以及相关联的高阶相对熵，来评估加权单纯复形高阶谱的信息含量。

B. 谱密度与返回时间分布

C. 相对熵

在量子信息论 [75] 中，作用于同一空间的两个密度算子 ρ ρ 和 σ σ 之间的冯·诺依曼相对熵（或量子 Kullback-Leibler 散度）定义为

V、在高阶协作网络中的应用

A. 高阶协作网络的拓扑权重

例如，由两位作者组成的团队的协作强度仅仅等于他们共同撰写的双人合著论文的数量，而由三位作者组成的团队的协作强度等于他们共同撰写的三人合著论文数量除以二，依此类推（见图 1）。

图1是一个有助于直观展示权重分配结果的示例。从左侧开始，描绘了由两位共同作者撰写单篇论文的简单情况。接着，描绘了由三位作者撰写论文的情况，随后是一个更一般的情况。从情况(c)可以很容易地验证，连边的原始亲和权重可以通过该连边的拓扑权重减去与其关联的三角形的拓扑权重之和来获得。

B. 高阶协作数据集

正如预期的那样，该单纯复形的网络骨架是一个非连通图，反映了可能存在孤立的作者协作群组这一事实。由于对冯·诺依曼熵的研究可以解释为通过单纯复形的信息扩散，我们将分析限制在由网络骨架的最大连通分量所生成的单纯复形上。在图 2 中，我们展示了所考虑的单纯复形的网络骨架，它具有丰富的社区结构。生成的单纯复形规模比原始数据集小得多，由 356 个节点、1,172 条边和 2,614 个三角形组成。

C. 高阶协作网络的高阶谱熵

在图 3 中，冯·诺依曼熵及其导数被绘制为的函数，采用对数刻度。实线代表熵，而虚线表示比热。第一行显示了未加权网络获得的结果，第二行显示了加权网络获得的结果。从左开始，绘制了直到单纯复形阶数（在本例中为 2）的每个阶数的熵。从图中可以看出，通过观察 0 阶和 1 阶的熵，显现出了熵的多尺度行为。这一点通过导数中局部极小值/极大值的存在而得到强调。更具体地说，虽然在未加权网络中可以观察到 0 阶和 1 阶具有非常浅的局部极小值和极大值的平台，但在加权情况下观察到由两个更显著的峰值决定的更清晰的时间尺度分离。这些不同的时间尺度与协作单纯复形的介观尺度（meso-scale）社区结构及其大尺度拓扑有关。然而，我们注意到，这种时间尺度的分离在 2 阶谱熵的分析中并不明显，这可以通过以下事实来解释：不同的社区通常由仅通过节点相互连接的三角形形成，这不允许任何通过连边从三角形到三角形的扩散。

VI.在带味网络几何（Network Geometry with Flavor）中的应用

在本节中，我们研究了名为“带味网络几何”（Network Geometry with Flavor）[64, 65, 67] 的加权单纯复形模型的高阶谱，这是一个非常有趣的基准，用于验证我们要提出的方法论。该分析遵循与上一节中描述的协作复形分析相同的步骤。

A. 带味网络几何作为加权单纯复形模型

B. 带味网络几何的高阶熵

VII.结论

在此，我们要提出研究加权单纯复形，并对单纯形的权重采用精确的约定，以克服单纯复形在捕捉任意高阶网络数据方面的局限性。所提出的数学框架的优势在于，加权单纯复形具有丰富的高阶结构，可以通过高阶加权和归一化霍奇拉普拉斯算子（Hodge Laplacians）进行探测。高阶霍奇拉普拉斯算子的谱使得我们可以利用信息论工具来量化包含在单纯复形高阶谱中的信息含量以及高阶扩散过程的性质。事实上，我们要提出了高阶谱熵的概念，并表明该量可用于表征高阶扩散的典型时间尺度。此外，高阶相对谱熵使我们能够比较编码在不同维度霍奇拉普拉斯算子谱中的信息含量。

所提出的方法在此在一个真实的高阶协作数据集上进行了测试，该数据集是从文献计量数据中提取的，采用了一种基于对简单网络中广泛采用的约定进行扩展的程序来对高阶协作进行加权。

最后，该方法也被应用于单纯复形模型“带味网络几何”（Network Geometry with Flavor）的加权版本。分析揭示了高阶扩散性质对单纯复形的依赖性，这种依赖性是控制参数的函数。这为理解单纯复形的高阶谱性质如何依赖于其底层拓扑结构提供了见解。

我们相信，所提出的单纯复形权重选择以及相关的归一化霍奇拉普拉斯算子，将构成一个非常有用的工具，用于捕捉高阶网络数据的结构。此外，鉴于霍奇拉普拉斯算子越来越多地用于捕捉单纯复形上拓扑信号的动力学，我们相信所提出的归一化和加权霍奇拉普拉斯算子将成为描述加权单纯复形上拓扑信号动力学的非常有用的工具。

原文链接：https://arxiv.org/pdf/2207.04710