什么是高阶网络?

What Are Higher-Order Networks?

https://ora.ox.ac.uk/objects/uuid:acfb9de6-9299-4b7b-86ed-51038304a9d7/files/rws859g36t

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

摘要

利用图论语言对复杂系统和数据进行基于网络的建模,已成为跨越多个不同学科的重要课题。可以说,这种基于图的视角之所以成功,源于图的相对简单性:图不过是由一组顶点和一组边构成,用于描述这些顶点对(pairs)之间的关系。这种简单的组合结构使得图成为具有可解释性且灵活的建模工具。然而,图作为系统模型的这种简单性,最近在文献中受到了审视。具体而言,已有观点从不同角度指出,需要高阶网络(higher-order networks),以超越图所 encapsulated(概括/封装)的成对关系建模范式。在这篇综述文章中,我们对这些最新进展进行了盘点。我们的目标是阐明:(i) 什么是高阶网络,(ii) 为何它们是有趣的研究对象,以及 (iii) 它们如何在应用中发挥作用。

关键词。 网络,图,超图,单纯复形,拓扑,动力学,统计学,关系数据,数据分析

I. 引言

近几十年来,人们对网络和由相互连接的实体组成的网络动力学系统的兴趣激增,旨在理解各种复杂系统。例子范围从生物系统(如基因调控网络)到基础设施系统(如交通网络)[283, 20, 225]。

术语“网络”(network)通常指“图”(graph),这是一种由顶点(或节点)和边(或链接)组成的组合结构。在这种抽象中,节点代表系统中的实体,边表示哪些实体相互作用。将系统表示为图对于深入了解系统的结构和动力学特征一直至关重要:图属性可用于确定重要节点 [118, 232, 129],揭示系统的模块化结构 [114, 261],或者——如果每个节点是一个动力学单元——阐明集体网络动力学,如同步 [282]。这些想法已扩展到加权图、符号图、有向图以及具有多种边或节点类型的图(如多层图或多重图)。然而,任何基于图的方法的一个局限性在于,根据定义,所有关系都是二元(dyadic)或成对(pairwise)关系,因为图中的边是成对关系。例如,在网络动力学中,二元交互通常反映在运动方程中,即两个给定节点之间的交互独立于网络中的任何其他节点。

然而,在许多现实世界系统中,网络交互和关系是非二元的(nondyadic),涉及两个以上节点的联合非线性交互。例如,在社会经济系统中,基于群体的交互很常见,活动通常在多个代理人(例如,买方、卖方、经纪人)之间共同协调 [49]。生化系统中的反应通常涉及两个以上的物种[178],或者两种试剂可能仅在酶存在的情况下相互作用。三个或更多节点之间非线性交互的重要性在社会科学研究中也一直备受争论 [98]。例如,结构平衡理论暗示社交网络中的三元关系将按照俗语规则演化:“朋友的朋友是我的朋友”和“敌人的敌人是我的朋友” [202]。最近对大型在线社交网络的分析证实,这些网络确实极其平衡 [106]。同样,同伴压力、联盟和同盟的形成以及经纪活动是常见社会现象的例子,这些现象确实涉及多人的交织活动,而不仅仅是成对;参见 [26] 以讨论更多示例和参考文献。也有人认为,联合交互对于观察多个相互作用物种中的竞争模式至关重要 [1, 192]。

为了充分捕捉任何此类网络的属性,至关重要的是要超越仅捕捉二元关系的图,并阐明多元(polyadic)网络交互的影响 [30, 290, 26]。多元交互和关系在文献中已在各种名称下被讨论,包括超二元(supra-dyadic)、非成对(nonpairwise)、高阶(higher-order)或单纯形(simplicial)。在下文中,我们将把具有此类交互的网络统称为高阶网络。但是高阶网络究竟是什么?它们在数学上如何表示?有哪些工具可用于分析它们?

导致命名差异的一个潜在原因是,高阶网络出现在不同研究领域的各种背景中,这些领域通常具有稍微不同的动机、研究问题和数学工具。本文的主要目的是提供关于高阶网络及其数学表示的整合视角,并回顾这一非常活跃的研究领域的近期进展,重点关注基础问题和数学工具。因此,我们的综述补充了其他近期的调查,包括一个更侧重于物理学的视角 [26],该视角以广泛的参考文献列表为特色,讨论了不同高阶模型之间的关系及依赖建模 [290],以及关于高阶网络上信号处理的调查 [264]。具体而言,我们将在三个背景下讨论高阶网络,它们已发现特定的应用:

  • 数据的拓扑和几何(第3节):高阶网络如何帮助理解数据集的“形状”?
  • 关系数据的分析和建模(第4节):如何对高阶关系进行统计建模,以及使用此类统计模型有哪些优势?
  • 高阶网络动力学系统(第5节):高阶交互如何影响耦合动力学单元的集体动力学?

我们相信,这份关于高阶网络的综述可以为许多主要被单独考虑的研究领域提供一种共同语言。我们要强调这些领域之间的差异和相似之处,并制定长期研究展望。

1.1. 超越二元交互:从图到高阶网络。

打开网易新闻 查看精彩图片

1.1.1. 拓扑与几何:理解数据的“形状”

高维点云数据通常包含某些几何或拓扑信息。拓扑工具能够对拓扑或几何结构进行分类,例如,检测数据中可能的聚类。作为一个例子,考虑图 1A 中展示的 Isomap 算法 [287],该算法旨在学习点云数据的低维表示。Isomap 的核心思想是,如果假设观测到的数据是来自嵌入在更大样本空间中的低维流形的含噪样本,我们可以构建一个图,作为该连续对象的离散近似:顶点对应于数据点,如果对应数据点之间的距离小于某个预定义参数 ε ε,则两个顶点由一条边连接。由此产生的(一族)图提供了数据的低维表示。许多流行的算法遵循这一范式的变体:(i) 将每个数据点映射到图中的一个顶点,(ii) 根据基于原始数据点成对(pairwise)相似性或距离的某些标准定义边,以及 (iii) 分析构建的图以提取节点的低维表示,从而提供与这些节点关联的原始数据点的嵌入。例如,扩散映射(diffusion maps)[82] 或拉普拉斯特征映射(Laplacian eigenmaps)[27],基于从以上述方式构建的图导出的拉普拉斯矩阵的(缩放)特征向量来定义嵌入坐标。关于这类流形学习算法的概述,另请参阅书籍 [201] 及其中的参考文献。

1.1.2. 通过高阶网络对关系数据进行建模。

网络的统计分析,例如社交网络中的友谊关系,一直是网络分析的核心话题。在此背景下我们要理解的数据通常是关系数据(relational data),即关于实体集合(sets of entities)如何相互关联的数据(见图 2)。进一步的例子包括合著网络、生态关系(捕食-被捕食或互利共生),或描述万维网的超链接图,仅举几例。与 1.1.1 和 1.1.3 小节讨论的拓扑/几何或动力学视角相比,采用这种视角时,我们主要关注关系本身的统计建模,而不是分析这些关系以了解网络的某些拓扑和几何形状。换句话说,我们的目标是提供一个统计模型,该模型指定观察到一组给定关系的概率。

打开网易新闻 查看精彩图片

在许多应用中,关系是记录在恰好两个实体之间的——例如从一个网页到另一个网页的超链接,或两个人之间的友谊连接——这自然导致了连接这两个实体的(二元)图中的边,其中实体表示为顶点。因此,关系数据的典型模型定义了一组图上的概率分布。一个简单的例子是 Erdős–Rényi 模型,它假定对于给定的基数为 N N 的顶点集 V V,任何两个对象之间存在成对关系的概率是固定的 p p。其他例子包括配置模型(configuration models)、随机块模型(stochastic block models)或指数随机图模型(exponential random graph models)。

然而,正如上面提到的合著例子所说明的那样,关系数据可能包含包含两个以上实体的集合:一篇论文可能有两名以上的作者共同署名。与其将这种多个实体之间的关系分解为多个二元关系,我们可以尝试保持这些关系集合的完整性,并在我们的统计模型中直接考虑它们。这就变得有必要在超图或单纯复形的空间上开发概率模型。我们在第 4 节讨论并回顾此类统计模型,以及在其开发和分析中出现的问题。

1.1.3. 高阶网络动力学系统。

网络动力学系统为许多由相互作用的动力学实体组成的现实世界系统提供了一种自然的抽象。这些系统包括耦合神经元网络、电网、相互作用物种的生态网络以及网络上的流行病过程 [46]。一个网络动力学系统通常由 (i) 若干个具有状态变量的动力学节点组成,这些变量根据微分方程演化,以及 (ii) 一个网络结构组成,该结构捕捉哪些节点相互作用以及它们如何相互作用(函数形式)。主要问题是,集体网络动力学——所有节点的联合动力学,例如同步——如何与网络结构相关联?

在传统网络动力学系统中,节点间的相互作用由图来捕捉;参见图 3。该图可能基于实际的物理连接(例如,两个节点之间的物理电力线),作为建模选择强加的(例如,图上的动力学系统),从数据推断的(例如,当时间序列相关时在两个节点之间放置一条边),或者作为节点状态之间依赖关系的形式描述给出的(例如,在耦合细胞系统中)。此外,网络相互作用通常是可加的:对于 Kuramoto 振子网络 [183, 2, 254]——网络动力学系统最显著的例子之一——两个振子对第三个振子的联合效应是两个单独(非线性)效应的总和。当不同节点随时间演化(最终)表现一致时,就会发生同步。此类动力学特性受代表网络的图的特性影响。例如,经典结果将底层图的谱与网络动力学系统的同步特性联系起来 [238]。

打开网易新闻 查看精彩图片

网络动力学系统的一个自然推广是允许三个或更多振子之间的联合非线性相互作用——这导致了一个高阶网络动力学系统。然而,这种推广引发了以下问题:什么是捕捉此类相互作用的合适组合结构?动力学特性(如同步)如何与该结构的特性相关联?一种方法是在超图或单纯复形上定义动力学系统,但这存在一些注意事项。正如我们将在第 5 节讨论的那样,对于耦合振子网络,坐标变换也可能为加法耦合的系统产生“有效”的非二元相互作用;参见图 3。事实上,动力学系统的(高阶)网络表示在坐标变换下不一定是不变的。然而,更重要的是,如果一个高阶网络动力学系统通过坐标变换与一个二元网络动力学系统相关联,它将表现出相同的动力学特性。换句话说,如果存在这样的变换,那么整个系统可以等价地由一个有效(二元)网络来描述,而不需要高阶网络表示。我们将在第 5 节更详细地讨论这些方面及其对建模的影响。

1.1.4. 一个例子:高阶相互作用的多个方面

让我们通过考察秀丽隐杆线虫(Caenorhabditis elegans)的例子,来凸显上述讨论视角之间的差异。这种线虫的完整连接组(connectome)——即神经元之间的物理连接——已被绘制出来。重要的是,每只线虫的连接组都是相同的,因此有望通过以(高阶)网络的形式分析该连接组,来揭示线虫内部神经信息处理的重要特征。现在,我们可以提出几种类型的问题。首先,我们可能对该连接组的拓扑特征感兴趣,通过使用第3节中的技术来分析该网络的“形状”[270]。例如,持续同调(persistent homology)可以为该特定连接组的拓扑特征提供洞察。其次,我们可能对构建连接组数据的概率网络模型感兴趣(第4节)。尽管每只线虫的连接组都相同,因此秀丽隐杆线虫的连接组本身并不具有随机性,但将这些连接视为关系数据并尝试为其拟合概率模型,仍可能为我们提供某些洞见;例如,某些连接模式的出现频率是否高于或低于预期。例如,通过与随机零模型进行比较,我们可以评估连接组的某些特征纯属偶然出现的可能性有多大 [304, 138]。第三,网络特性有助于理解秀丽隐杆线虫神经元网络的集体动力学 [293, 18, 304]。尽管人们可能直观地将连接组视为一张图,但非加性网络耦合以及有效(或间接)相互作用均可引出一个高阶网络动力学系统(第5节)。

1.2. 缺失的环节:未涵盖的主题

还有一些其他主题可以直观地从高阶网络的视角来考虑,但超出了本综述的范围。我们在此给出一个简要概述,并提供进一步阅读的参考文献。

多重网络(Multiplex Networks)。 多重网络、多层网络(multilayer)以及网络的网络(networks of networks)已被提出作为存在不同类型交互的系统的建模范式 [177]。这些范式旨在解释不同类型的链接,例如通信网络中的不同模态(电话、短信、电子邮件)。然而,在大多数情况下,这些交互是二元的(dyadic),因此可以用传统网络来表示。

用于序列数据的高阶马尔可夫模型(Higher-Order Markov Models for Sequential Data)。定义在网络上的马尔可夫模型已成为描述和建模不同实体间信息、能量、质量、资金等流动的一种流行方法。如果其演化由(一阶)马尔可夫过程给出,则该过程可以被视为图上的随机游走 [203]。然而,许多在网络上经验观察到的流动确实具有某种路径依赖性。因此,需要高阶马尔可夫链模型 [185]。

高阶图模型与马尔可夫随机场(Higher-Order Graphical Models and Markov Random Fields)。 诸如伊辛模型(Ising model)之类的马尔可夫随机场以及更一般的图模型,也已被扩展为能够解释多个实体之间交互的高阶模型。例如,对于伊辛模型,人们寻求了包含三阶交互的扩展,以对小鼠的社会交互进行建模 [267]。关于在图模型中引入高阶交互的其他工作包括 [313, 242, 180]。请注意,图模型当然可以用来描述各种类型对象上的概率分布,包括图以及第4节中讨论的图的推广。然而,第4节的重点在于二元和非二元关系数据的统计模型,而不是内置于统计模型中的高阶依赖关系,例如扩展伊辛模型中的三阶交互 [267]。

图信号处理与单纯形信号处理(Graph Signal Processing and Simplicial Signal Processing)。 图信号处理是信号处理中一个相对较新的领域,它处理支撑于图节点上的信号,旨在将插值、信号平滑、采样和滤波等信号处理技术转化并扩展到图领域 [268, 230]。最近,有人提议将这些思想扩展到单纯复形和超图;参见例如 [311, 21, 264, 262]。

基于张量的模型、基于张量的算法及其应用(Tensor Based Models, Tensor Based Algorithms, and Applications)。 由于(二元)网络可以通过邻接矩阵或拉普拉斯矩阵等矩阵来描述,张量提供了网络模型可以扩展的另一个可能方向。例如,我们可以考虑基于张量的高阶网络生成过程。或者,我们可以使用基于张量的算法(如张量分解)来分析高阶网络数据。例子包括将张量分解应用于时间相关网络中的社区检测 [119],或模体(motifs)的谱聚类 [31],以及基于张量的中心性分析 [130]。

1.3. 本文大纲。 本文的其余部分结构如下。在第2节中,我们汇总了全文将使用的数学概念。在第3节中,我们讨论如何分析数据的拓扑与几何,并重点介绍高阶网络如何帮助理解数据集的结构特征。在第4节中,我们讨论高阶关系模型,以及它们如何有助于描述和理解关系数据。在第5节中,我们讨论高阶网络动力学系统及其与传统网络动力学系统的关系。最后,我们在第6节以讨论和进一步研究的问题展望作为结语。

2. 图、超图和单纯复形简述

超图和单纯复形是能够对高阶交互进行编码的数学对象。在1.1小节非正式介绍的基础上,我们在此汇总这些对象的定义。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

像图一样,超图也可以扩展以包含方向性和权重;参见例如 [16] 及其中的参考文献。在统计学的高阶网络背景下,我们可以将整数权重理解为某些边出现多次的超图。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3. (高阶) 网络数据的几何与拓扑

正如 1.1.1 小节所述,拓扑数据分析 (TDA) 的一个核心思想是通过拓扑对象(如单纯复形)来描述经验观测数据,例如点云。该拓扑对象的性质随后提供了一种描述数据的方法。欧拉示性数 χ χ 就是此类性质的一个例子,它在适当的意义上给出了大小的度量 [259]。同样,我们将在下一节描述的同调 (homology),提供了一种度量单纯复形性质的方法,例如连通分量和环的数量。事实上,同调与欧拉示性数密切相关,但它提供了关于单纯复形拓扑结构的更详细描述。在下文中,在讨论如何利用这些概念描述数据的高阶结构之前,我们首先关注作为单纯复形重要拓扑性质的同调。关于这些拓扑概念的更多信息,请参见 [144, 219, 6, 126, 205, 206, 125, 265]。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3.2. 持续同调。 持续同调(Persistent Homology, PH)是拓扑数据分析(TDA)中的重要工具之一。PH 通过研究数据多个尺度上的同调,实现了对数据中有意义的拓扑和几何特征的量化。

定义 3.7(见 [59, 101, 124])。单纯复形 K K 的一个滤过(filtration)是一列嵌套的单纯复形,

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

持续同调受益于理论支撑,这些理论证明了条形码对输入数据的小扰动具有鲁棒性 [81]。持续同调是可计算的,有许多软件实现可用,我们建议读者参阅教程和“用户指南” [231, 244, 218, 70, 236] 以获取更多信息。

注记 3.8。 定义单纯上同调(simplicial cohomology)并为给定单纯复形 K K 的滤过计算上同调群的条形码也是可能的。一般来说,上同调比同调更强大。但对于域 F F 上的系数,上同调群与同调群是对偶的,更一般地,它们通过万有系数定理(Universal Coefficient Theorem)相关联。在我们在此考虑的设置中,同调和上同调产生相同的条形码 [94, Proposition 2.3],这就是为什么人们通常不区分持续同调和持续上同调的原因。

扩展持续同调的数学理论仍然是一个活跃的研究领域。例如,当数据无法编码为滤过(即空间的嵌套序列)时,或者如果数据集最好用两个参数(即双滤过)进行分析时,那么之字形持续性(zig-zag persistence)[61, 60] 或多参数持续同调 [64, 63] 可能分别更合适。这些及其他同调对象的计算正在积极开发和实施中,以便应用于实际 [148, 62, 213, 258, 142, 172, 191]。研究有向网络的高阶类比的一个活跃研究领域是有向代数拓扑的数学领域,其旨在捕捉数据中的周期性 [107]。近年来,某些有向复形的持续同调 [200]、持续路径同调 [78, 96] 以及加权路径同调也已被提出 [195]。

最终,为了分析数据,我们需要比较持续性计算的输出。实现这一点最常见的方法是将条形码转换为向量格式,这可以采取各种形式,例如持续性图像(persistence images)或持续性景观(persistence landscapes),或者可以基于核方法,然后可以使用统计学和机器学习中的工具进行解释 [3, 184, 69, 52]。为拓扑开发此类统计工具,包括假设检验、自助法(bootstrapping)和定义形状统计,是另一个重要的相关研究领域 [250, 110, 301, 111, 245]。

3.3. 持续同调的应用

持续同调已在现实世界的复杂系统中得到广泛应用。3 例如,持续同调也被用于描述材料科学中的三维结构 [255, 152] 以及分析传感器网络(参见两篇易于理解的入门文章 [93, 251])。不同的应用有不同类型的输入数据,例如高维空间中的点云、网络数据(节点和关系)、图像(方形网格中的灰度像素数据),或作为给定超图的数据。

当数据以点云形式给出时,需要确定合适的滤过参数以及要构建的相应复形 [125, 59, 102, 101]。对于持续同调,所选的滤过高度依赖于具体应用(参见例如 [278, 281]),并且该滤过可能会将用户限制在特定的软件上。虽然超图数据的同调或持续同调是可行的 [50, 248],但这需要合适的滤过。本节讨论的应用主要集中在单纯复形或其 1-骨架(图)上,这两者都是超图的类型。

使用拓扑方法研究神经科学问题最早是在 20 世纪 60 年代提出的 [310]。神经科学数据的可获得性以及数学理论和计算的进步使该领域得以蓬勃发展。计算拓扑和高阶网络已被证明在分析全谱系脑数据方面是成功的,这些数据范围从功能网络 [270],到分支神经元的形态学 [167],到结构(突触)连接性 [246],到位置细胞(place cells)[127],到秀丽隐杆线虫的连接组 [147],再到脑部疾病的成像 [90, 51]。我们在此不列出拓扑神经科学研究的详尽清单,而是建议读者参阅几篇近期的综述文章 [91, 149, 43]。

高阶网络也被证明在基因组学和进化生物学 [243, 65]、结构生物学 [302],以及诸如血管网络 [28, 280, 54] 等结构的分析中非常有用。概述拓扑技术(例如在生物学中)潜力的参考文献包括 [43, 9, 243, 281]。近期的研究表明,高阶网络结构和计算拓扑可能有助于分析生物系统的复杂数学模型 [289, 175, 221, 207]。使用高阶网络来分析诸如癌症 [15, 226, 280, 131] 等疾病,为结合数据和数学模型提供了可能性 [279, 297]。虽然某些化学反应模型的结构可以使用持续同调来区分 [298],但其他模型最好编码为超图并使用离散里奇曲率(discrete Ricci curvature)进行分析 [104]。

更一般地,许多生物过程,包括神经科学中的过程,可以被建模为动力学系统,我们也可以尝试使用拓扑工具来理解它们。事实上,研究拓扑与动力学之间的关系有着深厚的根源,可以追溯到 Morse-Smale 动力学系统。Harer、Perea、Robins、Mischaikow 和 Mukherjee 等人(参见 [240, 249, 141, 161, 214] 及其中的参考文献)开发了使用拓扑方法分析时间序列数据和动力学系统的工具。Memoli、Munch 及其同事一直在扩展持续同调理论和方法,以分析时变系统,范围涵盖动态点云、动态图形式的集体行为以及 Hopf 分岔检测 [217, 174, 176, 292]。生长图(Growing graphs)也已使用节点滤过阶复形(node-filtered order complexes)[42] 进行了分析。时变数据已使用拓扑摘要(topological summaries)进行了分析,如葡萄藤图(vineyards)、Crocker 图(crocker plots)和多参数秩函数(multiparameter rank functions)[303],而时间网络(temporal networks)已使用持续路径同调(persistent path homology)[77] 进行了分析。不同网络结构(例如环状晶格和环面)以及单纯复形上的传染动力学也已使用持续同调进行了分析 [286, 157]。动力学也发生在更一般的超图上,这激发了超越持续同调的方法 [58]。

3.4. 霍奇拉普拉斯算子与霍奇理论

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

此外,霍奇拉普拉斯算子使得局部动力学过程的严格定义成为可能,例如在边(节点对)和高阶实体的域中的扩散和一致性动力学 [215, 194, 154, 260, 233, 234]。这些思想也与(单纯)复形上的信号处理紧密相连 [132, 22, 21, 23, 24, 264, 305, 306, 262, 252],在其中人们可以基于此类霍奇拉普拉斯算子定义诸如卷积等操作,甚至为单纯复形定义图神经网络的类比物 [253, 47, 99, 128, 53, 41, 139]。基于相关思想,人们还可以构建去中心化协议来解决传感器网络中的覆盖问题 [284],对网络内的节点进行排序 [160],或者分解博弈 [56]。

4. 使用高阶网络模型理解关系数据

在本节中,我们描述(高阶)网络如何被用于研究关系数据。在展开更广泛的讨论之前,我们在 4.1 小节强调与迄今为止讨论的高阶模型视角的差异,然后在 4.2 小节对高阶数据在数学上的含义进行更详细的讨论。随后,我们在 4.3 小节讨论基于单纯复形和超图的此类数据的各种概率模型,并在 4.4 小节指出几个应用场景。

4.1. 关系数据与从数据创建的关系

对数据之间的关系进行建模当然是本综述的一个主题,在第 3 节中结合拓扑和几何进行了讨论,在第 5 节中结合动力学进行了讨论。然而,当我们将焦点转向关系数据本身时,我们在旨在理解的内容以及通常使用的数学工具方面存在差异。因此,(高阶)网络在分析中所扮演的角色也有所不同。

第 3 节和第 5 节实际上关注的是理解与网络中节点关联的数据(例如时间序列)是如何在拓扑、几何或动力学上组织的,以及我们如何利用这些节点之间的关系来更好地理解该数据。请注意,在 1.1.1 小节描述的“几何与拓扑”场景的核心,是构建适当的图和高阶对象以理解关于数据(通常是点云数据)的某些拓扑和几何问题的想法。例如,根据测量得到的点云数据,按照最近邻规则构建一个图,其中每个数据点成为一个节点。然后,所得图拉普拉斯算子的特征向量被用作描述数据的新坐标系。类似地,在考虑动力学网络(1.1.3 小节)时,核心问题是我们如何通过分析底层的高阶网络来理解系统的(全局)动力学。

相比之下,在对关系数据进行建模时,我们通常对理解与节点关联的数据不感兴趣,而是我们测量并旨在建模的数据直接以关系的形式出现,例如友谊链接或合作关系。例如,我们可能希望通过指定每次合作发生的可能性来对合作网络进行建模。换句话说,要建模的数据是(高阶)网络或复形的(超)边或面的集合。虽然也可以尝试仅从节点观测中推断此类关系,例如通过测量节点变量之间的相关性,但在下文中,我们将主要关注那些感兴趣的关系可以直接被测量的场景。这包含了一大类数据,包括共现关系、合作、隶属关系,或质量、能量、资金等的流动。

4.2. 描述高阶关系数据

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

值得注意的是,数据建模范式(抽象)的选择对下游分析可用工具有着深远的影响。如果系统可以恰当地由单纯复形表示,那么我们就有大量来自应用拓扑学和拓扑数据分析(TDA)的工具可用,我们可以用它们来调查数据的各种特征,例如同调方面的问题(例如,作者合作空间中是否存在空白?)。相比之下,尽管原则上超图提供了更灵活的数据抽象,但可用的工具相对较少。我们建议读者参阅最近的综述 [290],以获取关于相关(高阶)数据建模表示的更深入讨论。

4.3. 高阶网络的概率模型

除非我们的目标仅仅是进行描述性分析,否则一旦我们选择了合适的框架来表示高阶数据,我们通常需要为这类数据定义一个合适的概率或统计模型,以便进行进一步的统计分析。在下文中,我们将讨论高阶网络概率模型研究中的一些方向。与其提供完整的讨论,我们这里的目标是突出一些促使了进一步数学探究的模型。为了更详尽的概述,可以参考 [26]。

作为起点,并为了确立本节的术语,在例 4.2 中我们探讨了 Erdős–Rényi 随机图模型,并介绍了该模型向高阶网络的推广,我们将在本节稍后更详细地描述这些推广。首先,我们形式化地定义一个统计模型。在本节中,当我们使用术语模型或概率模型时,我们通常是指形式上的统计模型,并以此定义为准则。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.3.1. 单纯复形和胞腔复形的概率模型

随机单纯复形和胞腔复形的研究仍然是一个相对新兴的研究领域。在此可以区分出两条主要的研究路线。首先,有一些复形的随机模型可以被视为随机图模型的推广,例如上文讨论的著名的 Erdős–Rényi (ER) 随机图模型。关于这些推广和结果的早期综述,请参阅 [165, 88, 166]。其次,有一些随机几何复形的模型。与第一种模型(也可以被视为随机抽象(单纯)复形的模型)相比,这些几何模型的构建通常与 TDA(见第3节)中考虑的设置更为接近,因此作为此类应用的零模型具有特别的相关性。

随机抽象单纯复形。 该方向最早的模型之一是由 Linial 和 Meshulam [196] 提出的。他们的模型从一个完全图(一个完全的 1-骨架)开始,然后以概率 p p 独立随机地添加 2-单纯形。他们表明,就像在 ER 模型中任何采样图关于零阶同调群(即连通分量)存在阈值现象一样(即,一旦超过某些连接概率,就会出现巨大的连通分量且图几乎肯定是连通的),在他们的随机 2-复形模型中,关于一阶同调群也存在相应的阈值现象。这些结果后来得到了完善和扩展 [17, 153, 198];例如,[210] 给出了随机 n n 维复形的类似结果。

打开网易新闻 查看精彩图片

随机几何单纯复形。 类似于随机抽象单纯复形模型可以被视为对著名随机图模型的扩展,也存在将随机几何随机图模型扩展到单纯复形的扩展。与其提供详尽的讨论,我们这里的目标再次是提供一些关键论文和观点的指引。为了更全面的近期综述,感兴趣的读者可以查阅 Kahle [163] 以及 Bobrowski 和 Kahle [44] 的综述(另见 [26])。

复形的随机几何模型作为 TDA(见第3节)的零模型特别相关。特别是,此类模型使我们能够理解从随机几何数据构建单纯复形时出现的各种统计量,例如欧拉示性数 [113]、同调 [45],或将持续同调应用于随机几何数据时出现的持续图(persistence diagrams)的其他统计量 [111]。

单纯复形的最大熵和潜变量模型。 上述描述的模型是高度风格化的模型,允许进行理论探索。然而,对于单纯形数据的零模型假设检验,我们可能会发现一个模型,它固定某些观测到的统计量,同时随机化数据的所有其他特征。形式上,这个想法可以通过单纯复形的最大熵模型来实现,例如配置模型(configuration model)[89, 309](它保持观测数据的观测到的(单纯形)度序列)或指数随机单纯形模型(exponential random simplex models)[316](关于指数随机图和超图模型的定义,见下一节)。到目前为止,这些模型大多是在计算上进行探索的,关于它们的理论性质知之甚少。除了最大熵模型外,另一类重要的随机单纯复形模型是潜变量模型。例如,在随机几何复形的情况下,给定一些观测到的单纯形数据,我们可能希望推断出与该数据兼容的潜在几何。由此产生的几何随后可以被解释为观测到的单纯形数据的一种隐藏原因形式。在几何模型的领域之外,潜变量模型的研究在单纯复形建模方面受到的关注很少(另见 [26]),但主要局限于一般的超图。

4.3.2. 超图的概率模型

与随机单纯复形和胞腔复形的研究一致,一般随机超图概率模型的研究仍然相当年轻。虽然在理论上几类模型足够灵活以建模各种各样的效应,但在实践中,只有少数特定的超图概率模型得到了详细研究。大多数已发展的超图统计模型在某种程度上是简单的,因此,倾向于像上一节描述的随机单纯复形模型那样被用作零模型。然而,值得注意的是,超图的几种模型,特别是那些作为指数随机图模型(ERGMs)扩展的模型,其根源在于分类数据分析,这是一个处理离散数据集的统计学领域,因此受益于一些现有的参数估计和拟合优度检验方法。这为我们提供了一些处理高阶关系数据的工具。在这里,我们描述几种超图的概率模型,从 ER 随机图的推广开始,进而转向上一节暗示的配置模型。最后,我们讨论 ERGMs,这是一个包括超图 β β模型以及诸如超图随机块模型等潜变量模型的家族。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

[121] 和 [75] 都展示了配置模型作为超图零模型的有用性,前者侧重于描述来自在线照片分享网站数据的三部超图,后者侧重于各种合作和通信网络。最近,Chodrow 和 Mellor [74] 将配置模型扩展到了标注超图(annotated hypergraphs),这是有向超图的推广,其中每个顶点在每条边中都有一个“角色”。

指数随机图模型。 也许超图最灵活的概率模型家族是指数族,可以被描述为指数随机图模型的扩展。这个框架对分析特别有帮助,因为如果模型是对数线性的,那么就可以使用分类数据分析中的工具。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

[121] 和 [75] 都展示了配置模型作为超图零模型的有用性,前者侧重于描述来自在线照片分享网站数据的三部超图,后者侧重于各种合作和通信网络。最近,Chodrow 和 Mellor [74] 将配置模型扩展到了标注超图(annotated hypergraphs),这是有向超图的推广,其中每个顶点在每条边中都有一个“角色”。

指数随机图模型。 也许超图最灵活的概率模型家族是指数族,可以被描述为指数随机图模型的扩展。这个框架对分析特别有帮助,因为如果模型是对数线性的,那么就可以使用分类数据分析中的工具。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

虽然当每个顶点的簇成员身份已知时,超图随机块模型可用于测试超图数据集中的同质性(homophily)效应,但它们的主要应用之一(如下一节所述)是在每个顶点的簇成员身份未知时用于社区发现和聚类。在这种情况下,模型变成了潜变量模型,目标变成了试图确定每个节点最可能的成员身份分配。对于图,推断通常使用坐标上升法(coordinate ascent methods)完成,例如期望最大化(EM)算法的变体、MCMC 方法和变分方法(此类方法的概述可在 [187] 中找到);这些方法才刚刚开始为超图开发 [171]。

最简单的超图随机块模型形式倾向于生成同一社区中所有节点具有相似度的图,然而,对于应用而言,希望拥有一个节点度可以表现出某种异质性的模型。在图的设置中,也允许度异质性的随机块模型被称为度校正随机块模型(degree-corrected stochastic block models)。在指数族设置中,这些模型的充分统计量是通过取相应随机块模型的充分统计量并附加顶点的度序列而获得的 [307]。从图转向超图,已经提出了允许度异质性的超图随机块模型的类似变体。例如,在 [171] 中,Ke, Shi, 和 Xia 定义了度校正超图随机块模型,并开发了一种使用张量分解进行社区发现的方法。此外,度校正超图随机块模型构成了 Chodrow, Veldt, 和 Benson 在 [76] 中描述的聚类算法的基础,他们在其中通过几个数据集展示了它们对于检测真实社区(ground truth communities)的有用性。值得注意的是,[76] 中描述的模型也允许边大小的异质性,这意味着在这种情况下,模型是在具有不同边大小的超图上的概率分布集合。

4.4. 分析高阶关系数据:应用实例。 让我们现在考虑一些应用实例,这些实例基于关系数据的分析(从统计学的角度)。

基于超图的技术被考虑用于分析关系数据的应用包括异常检测 [269]、种群分层 [294],以及大众分类法(folksonomies)的分析 [312, 121]。我们要再次提到 Chodrow 等人 [75, 74] 关于超图配置模型的工作,这些模型可以作为各种统计应用的零模型。

在网络设置中,关系数据最流行的分析之一是社区发现(或网络聚类),其目标是将系统中的顶点集划分为若干组,使得这些组彼此之间比与网络其余部分更相似。基于关于构成良好社区的各种概念 [261],存在大量用于网络的社区发现方法 [114]。不出所料,社区发现问题也被考虑用于高阶关系数据。例如,Vazquez [295] 展示了使用贝叶斯框架检测超图社区的一些早期工作。一些更具理论性的工作包括 Ghoshdastidar 和 Dukkipati [123, 122],他们在植入划分模型(一种特定类型的随机块模型)下分析了超图的谱聚类及其一致性。Kim, Bandeira, 和 Goemans [173] 考虑了针对类似超图随机块模型的平方和方法,而 Chien, Lin, 和 Wang [73] 分析了 d d 元( d d-wise)超图随机块模型的社区发现最优速率,其中超边的概率依赖于超边中包含的顶点的顶点块分配分布。此外,高阶关系数据的社区发现激发了谱超图理论 [10, 67, 66, 193, 291, 314] 以及超图割和分裂函数 [146, 296, 308] 方面的大量工作。

由于高阶关系数据也可以通过单纯复形进行抽象,因此也有许多工作使用这种建模视角,通常将来自拓扑数据分析(TDA,第3节)的工具与统计工具相结合。特别是,已经有关于将网络中三元闭包的概念(即如果两个节点有共同邻居,它们倾向于连接)推广到高阶网络的工作 [29, 235]。虽然这些工作关注的是(高阶)网络的拓扑如何演化,但也有一些用于分析网络上边数据的高阶模型,这些模型利用霍奇分解来以一致的方式提取聚合排名 [160],或者用于在网络和单纯复形上平滑和过滤流及轨迹 [24, 263, 23, 159, 260]。

5. 具有高阶交互的网络动力学系统

网络动力学系统描述了相互作用的动力学节点的联合演化。节点之间的耦合可以导致引人入胜的集体网络动力学,如同步,即节点步调一致地演化。一个关键问题是网络交互——包括网络结构以及耦合的函数形式——如何塑造这种集体动力学。虽然传统上使用图来编码网络结构,但我们关注更一般的、“高阶”方法来捕捉耦合结构。自然地,这产生了诸如以下问题:什么样的高阶结构适合网络动力学系统?高阶交互如何塑造动力学?在这里,我们关注节点/顶点是动力学单元的网络动力学系统,尽管最近也讨论了具有动力学(超)边的(高阶)网络 [212, 227]。当然,网络动力学系统可以产生数据(例如,通过对轨迹进行采样),前面几节概述的方法可以应用于这些数据。然而,在这里我们将采用更一般的动力学系统方法来阐明相互作用的动力学系统的一般性质。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5.2. 具有高阶交互的网络动力学系统

对于一般的网络动力学系统,每个节点的状态演化可能无法像 (5.1) 中那样表示为成对交互的叠加。例如,假设动力学按照以下方程演化:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

类似于我们通过将 A A 解释为邻接矩阵从而将图 G G 与成对动力学 (5.1) 相关联,我们可能希望将适当的(组合)数学结构与高阶交互项相关联。与图的情况类似,随后我们可以分析这个数学对象,并希望阐明高阶系统 (5.3) 的一些有趣的动力学性质。这种推理引出了一系列问题:

(Q1) 高阶网络交互的动力学后果是什么?

(Q2) 高阶交互对于理解现实系统的动力学是否至关重要?

(Q3) 是否存在适当的结构(超图、单纯复形等)来表示一般耦合的网络动力学系统,例如 (5.2)?

直观上,由于 (5.3) 与 (5.1) 相比在右侧展示了一类更一般的向量场,我们可以预期高阶网络将表现出许多新现象。因此,如果一个现实系统只能根据高阶交互 (5.3) 来表示,我们可以认为这些高阶交互确实至关重要。然而,对我们上述例子进行稍加仔细的审视表明,这个问题有些微妙。例如,对于耦合细胞系统 (5.1),尽管通常该系统将是一个具有高阶交互的网络动力学系统,但就与该系统的关联而言,存在一个有意义的基于图的描述。此外,展开式 (5.3) 通常不是唯一的,我们可以将许多可能的高阶网络与形式为 (5.2) 的系统相关联。事实上,我们认为问题 (Q2) 和 (Q3) 没有定义明确的答案,我们将在 5.4.1 小节讨论选择适当的结构如何是一个视角问题。在回到这些概念性问题之前,我们将首先更具体地探讨问题 (Q1) 和 (Q2) 的某些方面,并概述文献中迄今为止给出的一些部分答案。

5.3. 网络动力学系统中高阶交互的影响

在下文中,我们将讨论高阶网络交互对动力学的一些后果,以及为何考虑这些后果可能至关重要(参见上一节中的 (Q1) 和 (Q2))。我们专注于在各种现实世界动力学系统中相关的具体例子,而不是试图给出一个全面的概述;关于更广泛的参考文献列表,请参见 [26]。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5.3.3. 神经科学。 非加性高阶相互作用也在神经网络的动力学中发挥着功能性作用(参见例如 [11, 158] 及其中的参考文献)。为了理解高阶相互作用对集体网络动力学的影响,Memmesheimer 和 Timme [209] 考虑了在每个神经元的输入(树突)处具有非线性放大和饱和的神经网络。具体来说,他们考虑了具有非加性输入函数 σ σ 的漏积分发放(leaky integrate-and-fire)神经元。如果给定神经元的输入较低,则输入线性相加。稍大的输入会被超线性放大,然后饱和至每个神经元的整体最大兴奋度。虽然 [209] 中考虑的耦合描述了非连续动力学,但该耦合是非加性的,如 (5.3) 所示,且每个神经元的输入非线性地依赖于其所有发出尖峰(spike)的输入神经元的联合状态。除了同步活动的传播 [209] 之外,这些非加性相互作用还允许高频振荡 [208] 和记忆过程 [158] 的出现。

5.3.4. 传染、扩散及其他具有高阶交互的网络动力学。 虽然我们仅考虑由常微分方程确定的网络动力学系统,但高阶相互作用也出现在离散时间动力学系统或具有离散状态空间的系统中。这包括,例如,单纯形上的传染动力学 [157, 92, 48, 151],其中一个节点的传染取决于两个或更多节点的联合状态;或者具有非成对交互和重连的适应性选民模型 [155]。获得对此类动力学分析见解的一种可能方法是捕捉高阶交互的平均场方法:例如,这些方法可以揭示此类系统中的临界转变如何从次临界变为超临界,反之亦然 [182]。高阶动力学过程的其他例子包括超图上的意见形成和一致性过程 [95, 223, 224, 150],扩散过程 [58, 57, 260, 247, 211](另见 3.4 小节),以及复制者动力学 [8]。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

最后,注意任何超图都可以与其二分关联图(bipartite incidence graph)同一化,该图捕捉节点和超边之间的成对关联关系(参见 4.3.2 小节)。在最近将耦合细胞框架推广到高阶网络动力学的背景下 [4],对于簇同步模式,一个给出了关于另一个的信息,但这几种视角并不等价。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这进一步强调了一个观点:关于网络动力学系统中高阶交互重要性的任何问题——因此也就是 5.2 小节中问题 (Q2) 和 (Q3) 的答案——都是微妙的。即使是具有加性交互的振子网络(即连接可以简单地由图编码),在(高阶)相位约化中也会产生非加性的有效交互。换句话说,将图上的网络动力学系统的动力学约化到一个吸引的低维不变流形(如环面)——即系统维度的约化——是以更复杂的耦合结构为代价的,这种结构编码了不变环面邻域内向量场的非线性。从这个角度来看,同样的动力学效应,例如不连续同步跃迁 [182],可以在没有高阶交互的耦合非线性振子 [55] 和具有高阶交互的相位振子 [272] 中被观察到,这就不足为奇了:网络动力学系统可能只是通过坐标变换相互关联。这提供了一个机会,将具有高阶交互的网络动力学(具有特定网络结构的动力学系统)与一般动力学系统理论的结果联系起来。

6. 讨论

开发用于建模和分析高阶网络的各种工具,为批判性思考以及在不同的应用中对所使用的工具类型进行甄别带来了新的机遇。通常情况下,当数据以矩阵形式存在时,该矩阵会被解释为图的邻接矩阵或加权邻接矩阵。在许多情况下,这种解释是合理的,并在应用领域带来了令人兴奋的新见解。例如,图(如连接组或相互作用组)是成对关系数据的自然数学结构。然而,在其他时候,使用图解释是出于无奈——因为缺乏分析高阶结构的工具,所以投影到图集合上一直是进行有趣分析的少数几种方法之一。然而,这种方法的代价是丢失了高阶关系和结构,以及一些意义。例如,在几篇论文中对将合作网络分析为图与分析为超图进行了比较和对比,这些文章中的每一篇都说明了当把合作网络视为超图思考时可以获得的新见解 [105, 170, 199, 274]。拥有用于高阶网络的工具,如本综述中讨论的那些,使得此类分析成为可能,并且重要的是,它促使我们在分析数据时对所做出的选择更加自觉。在建模和分析方面,新工具的开发引出了以下问题:在做出建模决策时,我们应如何思考所做出的权衡?我们如何平衡可解释性和便利性?而且,对于具有定量思维的人来说最重要的是,是否有办法开发一个指导框架来帮助回答这些问题?

尽管这里讨论的高阶网络的三个方面通常被分开研究(并由不同的学术群体研究),但它们是相互关联的。一个例子是神经科学中的结构-功能关系:神经细胞的结构网络及其连接的属性如何与网络动力学系统的动力学属性相关联?一方面,人们可以分析连接性本身的结构特征:无论是为小规模网络(如胃神经节 [143] 或秀丽隐杆线虫(参见 1.1.4 小节))显式提取,还是使用诸如扩散张量成像等技术在大尺度上提取,这些数据都已从(高阶)网络的角度进行了分析。当然,这些神经系统会产生非加性高阶效应发挥作用的动力学(参见 5.3.3 小节)。这些动力学最终决定了神经系统的功能。动力学本身——无论是来自神经记录的实证数据,还是来自神经模型网络动力学系统的合成数据——都可以被视为通过使用基于相关性的技术将其投影到(高阶)网络上而进行分析的数据 [25]。

新兴的高阶网络领域开辟了令人兴奋的新方向。虽然它有时可能看起来像是多个领域结果的拼凑,但我们相信通过交叉融合可以获益良多;这篇综合性的综述和展望是朝着这个方向迈出的一步。我们期待在未来看到这些研究方向的成果。

https://ora.ox.ac.uk/objects/uuid:acfb9de6-9299-4b7b-86ed-51038304a9d7/files/rws859g36t