Uplifting edges in higher-order networks: Spectral centralities for non-uniform hypergraphs

在高阶网络中提升边的重要性:非均匀超图的谱中心性

https://www.aimspress.com/aimspress-data/math/2024/11/PDF/math-09-11-1539.pdf

摘要:

网络的谱分析表明,图的许多结构属性,例如其节点的中心性,可以通过它们的邻接矩阵来描述。将这种谱分析自然地扩展到高阶网络,强烈受限于一个给定的超图可能有多个不同的邻接超矩阵这一事实,因此迄今为止所获得的结果主要局限于均匀超图这一类别,这使得许多真实系统未被关注。本文提出了一种新的方法,用于分析非均匀超图的非线性类特征向量中心性度量,这可能有助于研究非均匀情况下的H-特征向量和Z-特征向量的性质。为此,我们引入了一种新的操作——提升(uplift),通过在超图中引入辅助节点以实现类似均匀的分析。我们随后论证了为什么这是一种在数学上合理且有意义的操作,并进一步利用它对具有唯一类似佩龙(Perron)Z-特征向量的超图家族进行了分类。我们通过多个合成数据集和真实数据集上的例子和数值模拟补充了理论分析:在后者中,我们发现在现有方法的基础上有明显的改进,尤其是在每个阶次的结构存在巨大差异的情况下;而在前者中,我们发现无论选择何种均匀化方案,节点的排名都大致相似。

关键词:图论;超图;中心性;超矩阵;特征向量

1. 引言

过去十年见证了“复杂性科学”这一跨学科领域的兴起,这既得益于计算技术的进步,也得益于理论上的重要里程碑。在这个广泛的领域中,复杂网络是最活跃且最重要的领域之一:它研究的是被简化为个体及其相互作用的系统。这一领域起源于图论数学,但也吸收了统计物理、生物学和计算科学等领域的思想和概念,从而在这些以及其他领域(如社会学、动态系统,甚至是多线性代数)中不断产生越来越多的成果。

复杂网络理论的理论进展揭示了其自身的局限性;特别是近年来,大量研究致力于将已有的图分析工具、概念和数值方法扩展到超图领域。超图是图的自然扩展,其中的相互作用不再局限于成对的形式,即可以有两、三、四甚至更多个体之间的相互作用。这些通常被称为高阶相互作用,或简称为超边。这类系统的典型例子是合作作者网络:其中节点代表作者,而科学文章则是它们之间的相互作用(这些相互作用显然不限于由两位作者撰写的论文)。

尽管经典复杂网络理论已经产生了大量成果[2–4],但仍有更多成果尚未应用到超图中,这也是当前的研究方向(例如,参见)。原因很简单:考虑高阶相互作用通常会使分析计算变得复杂,以至于需要建立某些近似或假设才能取得进展。一个典型的例子是获得谱性质,例如谱中心性度量,这些度量提供了一种超越节点度的方式来量化节点的重要性,同时考虑其邻居的相关性,这也是诸如PageRank等现实世界应用的基础。

在图中,研究这些性质转化为研究矩阵(邻接矩阵、拉普拉斯矩阵等),而在超图中,则转化为研究张量。尽管前者已经被广泛研究,但后者则不然。

上述例子与本文的主题相关。为了将图的谱中心性推广到超图的情况,Benson利用最近发展的张量H-特征向量和Z-特征向量的理论,提出了一系列中心性度量。然而,这种公式化仅适用于均匀超图(即所有超边的阶数相同的超图),这极大地限制了其结果在许多只能用具有不同大小超边的超图建模的真实系统中的应用。本文的主要目标是提出一种方法,允许考虑非均匀超图的非线性类特征向量中心性度量,从而将Benson对均匀高阶网络的结果扩展到一般情况。

我们提出的技术基于在非均匀超图中引入辅助节点,以便进行类似均匀的分析,从而使我们可以使用所有针对均匀超图的工具和结果,但现在适用于一般的超图。这种均匀化过程,称为超图的“提升”,在某种程度上是将k个节点之间的超边投影到2 ≤ j < k个节点之间的超边的投影过程的对偶。它具有良好的数学性质,使其非常适用于分析超图和超矩阵的多种结构属性,本文将对此进行展示。

需要指出的是,尽管我们在此手稿中仅关注网络理论和中心性度量中提出的分析工具,但这些方法可以在张量特征问题出现的所有其他领域中得到应用,例如生物学、医学成像、量子纠缠、数据挖掘或高阶马尔可夫链。

本文的结构如下。在第2节中,我们提供所需的数学概念,并总结当前研究现状。在第3节中,我们定义了提升操作,该操作允许我们以一种适当推广均匀H-特征向量中心性的方式对任何超图进行均匀化,这在第4节中进行了讨论。我们展示了为什么它无法推广Z-特征向量中心性,但在第5节中,我们将其用于解决多线性代数中的一个问题,而这一问题反过来又反馈到某些超图的Z-特征向量中心性问题中。本文在多个合成和真实高阶网络上进行了数值计算,并通过多个例子来说明所呈现的分析结果,并与其他提议和方法进行比较。

2. 预备知识

我们将首先简要介绍后续所需的主要概念和符号,首先是关于标准图中特征向量中心性的内容,然后引入一些有用的超图概念。

图中的特征向量中心性:本研究框架是关于网络中的中心性度量。中心性度量是一种为网络中的节点提供重要性概念的方法,基于关于什么是重要性的标准(启发式规则)。这种标准是主观的,需要根据具体应用来决定。最简单的标准是计算每个节点的邻居数量,即所谓的度中心性(Degree Centrality)。然而,对于许多现实世界的应用(参见及其引用的文献),我们还希望在计算节点的重要性时考虑每个邻居的重要性。这就是所有谱中心性度量的基础。

在标准的成对交互网络中,最简单的谱中心性是所谓的特征向量中心性(Eigenvector Centrality)。其背后的启发式思想是:在一个图 ( G = (V, E) ) 中,一个节点的重要性与其邻居的重要性成正比。从数学上来说,

在这里,我们使用了符号 。已经有许多结果证明了超图的连通性属性与该张量的不可约性之间的关系[17,8]。然而,与成对情况不同的是,超图中连通性的直观概念并不能直接转化为相关张量的不可约性(见中的例2.7)。事实上,张量的不可约性是一个过于严格的约束条件,无法完全描述一般的超图。

相反,强连通超图是通过弱不可约张量来描述的。

2.1 超图谱中心性:现状

为了简化问题,我们现在将自己限制在3-一致超图中,尽管推广到k-一致超图是显而易见的。成对特征向量中心性最直接的推广是定义函数并施加以下方程:

这相当于考虑超图的模式邻接矩阵 W 的标准(成对)特征向量中心性。

这种方法的主要缺点是它掩盖了超图的高阶性质,将计算其中心性分数的问题简化为具有修改后的邻接矩阵的标准图的问题。

如果超图是强连通的,这个方程不仅保证有一个正解,而且这个解还是唯一的(最多相差一个标量倍数)。

我们不会进一步讨论每种方法的性质、优点和缺点。感兴趣的读者可以参考,以深入了解这些方法在超图背景下的详细分析,以及参考,以获得关于它们的数学性质、特殊情况和结果的一般讨论。

到目前为止,我们的讨论仅限于 m-一致超图。然而,大多数真实的超图是非一致的,具有各种大小的超边。例如,真实超图的一个典型例子是合作网络,其中节点代表研究人员,超边代表他们合作撰写的论文。在这个简单的例子中,很明显,相应的超图将包含成对的交互(两人合作的论文)、三元交互(三人合作的论文),等等。

2.1.1 向量特征刻画

上述方法的主要缺点是,超图在每个阶上很可能并不是强连通的(例如,参见图 1)。不仅如此,不同阶之间的相互作用也完全缺失。为了缓解这两个问题,文献 [23] 提出了一种方法,他们借助超图的线图(如果原始超图是强连通的,那么这个结构也被证明是强连通的)将问题转化为超边中心性分数的问题,这可以通过标准的成对图论方法来解决。然后,这些边中心性会在每个层次 k 上被参与其中的节点“共享”,从而形成一个向量中心性分数。

2.1.2. 拥抱非一致性

除了超图中心性的向量特征刻画之外,似乎很自然地会思考是否可以将CEC、ZEC和HEC的概念扩展到这些非一致的情况。遵循特征向量中心性的传统启发式方法,最一般的情况将是一个形式如下的方程:

3. 提升(The uplift)

我们从底层开始对超图进行均匀化处理。为此,考虑一个最大超边大小为 M 的超图H = (V, E) ,以及一个大小 ,可能包含多重集超边,即同一个节点在超边中出现多次(具有这种特性的超图有时被称为“多重超图”)。我们可以通过添加一个辅助节点(我们将其命名为“?”)来将所有小于 m 的超边扩展到大小 m ,并且在同一个超边中可能需要多次添加。

需要注意的是,这种添加额外节点的概念已经在其他与超图相关的研究中出现过,尽管其目的完全不同:在 中,他们将其称为“增强(augmentation)”,并将其用于社区检测;在 中,他们将其称为“膨胀(inflation)”,并将其用于超图多项式。在这两种情况下,他们使用的是一个更简单的、未加权的版本,它只编码邻接关系,而不是邻接的强度,这与我们的提议形成对比。

为了说明这一概念,图1通过一个简单案例(一个包含两个2阶超边和一个3阶超边的超图,通过辅助节点提升到3阶)展示了提升过程。

请注意,这个张量是加权的(尽管仍然是非负的),这是由其构造方式决定的。对于加权超图,也可以考虑类似的构造方法,但由于清晰起见,我们省略了这部分内容。

继续以图1中考虑的示例超图为例,我们将有

ZEC 问题:注意到我们能够在 HEC 情况下忽略上述问题的原因是,如果 c 是一个 H-特征向量,那么 仍然是一个 H-特征向量。对于 Z-特征向量来说,情况并非如此:它们不能被重新缩放,同时仍然解决在第 2.1 小节中定义的 Z-特征问题(回想一下,它们受到归一化约束 [8])。

似乎将提升与 Z-特征向量结合起来是没有用处的。然而,事实并非如此,如果我们对一个已经 2-一致的超图进行提升,将其变为一个 (2 + m)-一致的超图,我们将会看到这一点。从计算重要性得分的角度来看,这是不必要的(ZEC 已经可以在原始超图中计算),但我们会看到它在某些类型超图的 Perron 类 Z-特征向量的特征化中发挥着重要作用。这一结果反过来又会很自然地反馈到 ZEC 中心性中。

因此,从现在开始,我们将把讨论分成两部分:一方面,如果从一个非一致超图开始,其提升可以用来计算类似 HEC 的中心性;另一方面,如果从一个一致超图开始,其提升可以揭示某些 Z-特征问题的性质。

4. 提升 + H-特征向量:非一致超图中的谱中心性

我们现在将讨论的内容具体化到H-特征向量的情况。正如我们提到的,这种提升的主要兴趣在于将HEC中心性度量扩展到非一致超图的情况。鉴于我们目前所了解的内容,我们已经可以做到这一点。

为了简洁起见,避免符号过于繁琐,从现在开始,我们将m-UHEC简称为UHEC,其阶数由上下文明确,或者另行说明。

请注意,如果超图H已经是M-一致的且m=M,那么UHEC向量和标准的HEC向量是相同的。

很容易看出,这个度量是良好定义的,因为UHEC向量是正的,并且是唯一的(在缩放上),就像HEC度量一样。

本节的其余部分安排如下:在第4.1小节中,我们将对成对图进行提升操作,将其转变为一个3-一致超图。这将表明,尽管提升后的图的HEC(高阶中心性)在排名上与原始的特征向量中心性相似,但实际情况要复杂一些。在第4.2小节中,我们将补充低阶的提升操作,并对高阶进行“投影”,从而定义不止一个,而是多个均匀化的中心性度量,每个阶数对应一个。一个玩具模型将展示其相对于向量中心性的优势。在第4.3小节中,我们将比较这些方法与文献和中提出的方法,并在真实和合成网络数据上进行验证。

4.1 成对情况

提升过程不仅限于高阶网络:也可以将其应用于成对交互网络。尽管在实际应用中,没有明显理由会让人更倾向于选择它,而不是其他已经确立的谱中心性度量,但对我们来说,将其作为一种与它们进行比较的手段是很有意思的:如果在提升到超图之后的中心性结果与成对特征向量中心性的结果有显著差异,那么这将表明我们的方法存在缺陷。

这与加权无向版本的特征向量中心性方程(2.1)相似,只是多了一个 项。因此,将通过这种提升度量得到的中心性与标准(成对)特征向量中心性进行比较是自然的。

我们期望得到类似的排名(即按重要性对节点进行排序),尽管实际中心性分数的分布范围会更小。这是因为提升操作在一定程度上“压缩”了中心性分数:辅助节点将所有节点连接在一起,从而使中心性趋于同质化。然而,最值得注意的是,这种同质化可能会改变节点之间的实际排名,如图2所示。

到目前为止,我们已经讨论了如何通过提升操作来处理小于期望阶数的超边。然而,为了真正处理非一致超图,我们还应该考虑一种操作,将高于期望阶数的超边降低到期望的阶数。

这一思想在第2.1小节讨论团簇(Clique)基元特征向量中心性时已经有所暗示。在那里,一个阶数为k的超边被拆分成其组成元素之间所有可能的成对关系,即 个这样的关系。换句话说,大小为k的边被投影到大小为2的边的集合中。

我们可以考虑一个类似的过程,但将大小为k的边转换为大小为p(p < k)的边的集合。

(1)向每个大小为 k < p 的超边中添加一个辅助节点(或者多个,只要它们无法区分),并用它们对应的组合因子对其进行加权。

(2)将每个大小为 k > p 的超边投影到一组大小为 p 的超边中,同时用它们对应的组合因子对其进行加权。

正如在UHEC(提升高阶中心性)情况中一样,为了简洁起见,从现在开始,我们将p-UPHEC简称为UPHEC,其阶数将由上下文明确,或者另行说明。

很容易验证,得到的超图的连通性保持不变。

请注意,可能存在与参数 p 的不同值相关的不同的UPHEC解。为了看清这一点,考虑图3中的例子。

在这里,我们看到了一个新度量优于现有度量的例子,因为它执行了类似的任务,但能够将整个超图结构的信息聚合到每个被评估的阶数中,而不是忽略那些节点不属于的阶数。

事实上,一旦考虑到整个结构,在这个例子中,关于哪个节点是整个网络中最不重要的,以及哪两个节点是最重要的,就不会有任何疑问。例如,如果仅依赖于二阶的向量中心性,可能会被误导认为第一个节点相当重要。此外,简单地将这些阶数的分数相加(一种天真地组合这些阶数的方法)也会让我们认为节点1比节点3更重要。到目前为止,应该清楚的是,非线性处理为我们提供了有价值的见解。

关于计算复杂性的说明:在转向实际应用之前,我们首先想讨论到目前为止所讨论的算法的计算成本。

在创建了张量之后,我们现在需要计算对应于最大H-特征值的特征向量。为了计算UHEC和UPHEC中心性,我们并没有创建一个新的算法,而是使用了一种带加权张量的幂法变体(参见[13])。

4.3 数值比较

首次尝试在非一致背景下推广邻接张量的是[26](后来Benson在[7]中对其进行了简要概述),这种方法被称为超边“膨胀”(blowups)。该方法依赖于在邻接张量中适当地复制索引,以适应更高阶的超边,并且最近在计算上得到了改进,以避免在张量应用操作时出现高计算成本。然而,正如[8]已经指出的,这种方法存在一些不确定性。

我们现在希望展示在本文中讨论的不同张量方法之间的差异,具体包括:标准的HEC(方程(2.9))、UPHEC(定义4.4)以及替代的均匀化方法(方程(4.11)),在超图中存在的每个不同阶数上。

4.3.1 真实超图数据集

作为对所提方法兴趣和实用性的进一步证明,现在考虑一些真实世界的超图数据集,通过分析三个不同的方面来展开:我们讨论的两种超图均匀化方法(我们的UPHEC和“膨胀”方法)与Benson提出的逐阶超图分析相比如何?在这真实案例中,这两种均匀化方法之间有什么区别?最后,即使在这些均匀化方法中的任何一种内,也需要选择在哪一阶进行分析(在我们的方法中,提升低阶并投影高阶;在“膨胀”方法中,膨胀低阶并投影高阶)。

需要指出的是,除了本文中展示的图表(由于其清晰性以及对阐述的帮助而被挑选出来)之外,我们还对更多的超图进行了广泛的分析(所有这些超图都可以在XGI库中免费获取),相关内容可以在以下开放仓库中找到: 。由于网络原因,上述链接的解析未能成功。如果您需要该网页的具体内容,请检查链接的合法性,并尝试重新加载网页。

首先,让我们考虑两个超图:一个是经典的“Tags Ask Ubuntu”数据集,它也被用于中以展示CEC、ZEC和HEC的提议;另一个是“Hypertext Conference”数据集。前者包含了Ask Ubuntu StackOverflow论坛中用户交互的信息。具体来说,它可以被视为一个超图,其中节点代表标签,标签之间的超边代表被标记了这些标签的问题。后者包含了在2009年ACM超文本会议上收集的数据,涉及会议参与者之间的交互。

在使用XGI库对这些超图进行预处理(以移除孤立节点、单节点边等)后,它们的一些基本统计数据可以在表3中观察到。需要注意的是,当将每个均匀阶单独研究时,如果某些节点在该阶没有交互,则它们可能会变得孤立。

比较排名的自然方式是通过某种相关性度量,这种度量只考虑条目之间的序数相关性(即它们在排名中的位置),而不是它们的实际大小。这种度量的一个最著名的例子是肯德尔秩相关系数(Kendall’s tau,τ ∈ [0, 1],越接近1表示相关性越高),我们将计算每一对排名之间的肯德尔秩相关系数。

在展示实际结果之前,我们应该提到,为了比较两个排名,它们必须包含相同数量的元素。然而在均匀化与非均匀化的情况中,这并不成立(非均匀化版本,即标准的HEC,只保留了与那些交互相关的最大连通分量)。因此,我们选择用零值填充空缺条目,因为这些节点并不参与该阶的交互。正是在这里,我们可以初步看到标准非均匀化HEC的问题:如果我们查看表3,我们可以看到,虽然在“Tags Ask Ubuntu”数据集中这可能是合理的,但在“Hypertext Conference”数据集中,3阶以上的最大连通分量在整个超图中只占很小的一部分。因此,排名将集中在这些节点周围,导致τ ≈ 0。

每一对排名比较的结果如图4所示。在这个阶段,我们将专注于之前描述的第一个问题:将每种均匀化方法与按阶数的非均匀方法进行比较。

在“Tags Ask Ubuntu”数据集中,四种标准的HEC(高阶中心性)度量之间的相关性最低。图中最低的相关性实际上出现在第2阶和第5阶之间。这是由于每个阶的均匀超图之间几乎没有关联,它们各自描述了整体的一部分。

正如之前提到的,这种情况在“Hypertext Conference”数据集中更为显著:几乎每一对阶的相关性都接近于零,只有第5阶和第6阶之间的相关性例外,因为这两个阶的最大连通分量共享了相同的8个节点(见表3)。

这种分析清楚地表明,需要对HEC中心性进行均匀化处理,因为逐阶研究超图明显缺乏对整体的连贯描述。

在处理了均匀度量与非均匀度量的问题之后,我们现在将关注点转移到另外两个问题上:提升(uplift)与膨胀(blowups)之间的比较,以及检查它们的顺序。为了更好地理解这些问题,我们在前面的例子基础上补充了另外四个真实超图数据集(这些数据集也可以在XGI中找到),它们在预处理后的最基本统计数据(这次没有逐阶的概述)总结在表4中。

对于这些超图中的每一个,UPHEC和膨胀+投影度量之间的相关性已在图5中计算,为了便于可视化,现在忽略非均匀度量,同时忽略最上面一列和最左边一行(图4中的“U2/B2”),因为它们仅对应于将任何更高阶的交互投影到成对交互上,并计算相应均匀超图的HEC。由于没有提升也没有膨胀,因此在均匀化方法上没有区别,这就是为什么我们选择在此忽略它们。

从图4和图5中,关于这两种均匀化程序,我们可以得出以下结论。

首先,相同类型的均匀化在不同阶数之间的平均相关性(即U-U和B-B象限)在提升(uplift)情况下总是高于膨胀(blowup)情况。作为参考,每个超图在这两个象限中非对角线相关性的平均值在表4中显示。在这方面,有趣的是看看sfhh-conference的例子:任意两个UPHEC度量之间的最低相关性约为0.88,而在膨胀均匀化中,最低相关性约为0.55。

此外,可以清楚地看到,检查的阶数越高,差异越大。这表明,在低阶时,度量的投影部分(在UPHEC和膨胀均匀化中是相同的)正在平衡排名,而当我们专注于最高阶(因此只有纯粹的提升和膨胀,没有投影)时,膨胀计算的内容略有不同。从这个意义上说,这似乎证实了文献[8]中关于膨胀均匀化的说法,即它在增强过程中包含一定程度的任意性,这正是我们所观察到的。

除了均匀化方法的选择外,我们还希望了解在检查超图时选择阶数的含义。专注于UPHEC方法,我们可以看到在大多数例子中,选择阶数基本上是无关紧要的:一旦我们考虑了每一个交互层次(无论是通过投影还是提升),就会出现一种中心性的一致性,这可以从〈τUU〉≈1中清楚地看出。然而,高阶的相关性更好,这意味着提升越多、投影越少,对整个超图的描述就越一致。

在这个问题上,重要的是还要考虑每种方法的计算成本。正如我们所讨论的,理想情况下,人们希望在最高阶上用UPHEC计算中心性。然而,可能更倾向于在提升和投影之间取得平衡,从而保持在中间阶数。或者,如果计算效率是必要的,可以使用[20]中提出的方法,该方法在计算膨胀时实现了显著的速度提升,将一个O(nM)的问题转化为一个多项式阶为M(最大阶数)的问题。

除了完整的排名比较外,通常还有兴趣了解当我们用一种方法得到的前K个节点与另一种方法得到的相应排名进行对比时,相关性如何随着采样节点数量K的增加而变化。为了简单起见,我们将以“Tags Ask Ubuntu”案例为例进行展示,因为其他数据集的结果是类似的。

鉴于可能的比较数量(UPHEC-UPHEC有12种,UPHEC-HEC有16种等),我们决定过滤掉大部分比较,以便呈现一个有意义的图表。具体来说,对于每种度量比较,我们选择保留最多四种相关性:达到最高最大值的相关性、达到最低最小值的相关性,以及平均值最小和最大的两种相关性。我们认为这些条件将为我们提供一组能够传达更多信息的相关性(从最相似和最不相似的排名意义上来说)。结果图如图6所示,未过滤的图表可以在开放仓库中找到,地址为: 。

我们看到,尽管在K = 100时存在一些初始波动,但大多数相关性倾向于增加或稳定,最终收敛到图4中显示的各自值。我们还注意到,在大多数情况下,最小值是成对出现的,例如,在子图1a中,U2和U4在任何方向上彼此相关性都不高,这是相当合理的。

4.3.2 合成超图

在本小节中,我们引入了一些实验,以帮助确认所提方法的鲁棒性。为此,我们使用了几种合成超图,它们不仅作为信息来源,还用于证明新提出的度量方法能够在任何类型的超图中按预期工作,无论超图所属的领域是什么。

合成超图是使用[35]中提出的方法生成的,该方法将二项式Erdős-Rényi随机图模型扩展到非一致超图。选择这种方法是因为它将Erdős-Rényi模型的性质扩展到了非一致超图。此外,它特别符合我们的具体需求:给定一个概率元组,生成一个超图,其中每个大小为n的超边在元组中具有相应的概率,稍后会进一步讨论这一点。这确保了生成的超图是非一致的。此外,这种方法是XGI库[27]中计算效率最高的方法之一,因为它是生成随机非一致超图的最快算法之一。

该方法的工作原理如下:在成对的情况下,该方法通过选择p₂来工作,p₂表示任意两个节点v₁和v₂形成边(v₁, v₂)的概率。在扩展中,为了生成一个具有n个节点和超边大小{2, ..., m}的随机非一致超图,我们提供概率(p₁, ..., pₘ),其中每个pᵢ表示在超图中任意i个节点之间形成i-超边的概率,并相应地生成它们。

这里使用的生成超图具有n = 100个节点,超边大小范围从2到5。我们选择p₂ = 0.1 > log(n)/n,以确保生成的超图是强连通的,选择p₅ = 10⁻⁶,使得每个生成的超图大约有100个5-超边。通过固定这些参数,我们遍历p₃和p₄,确保我们至少有大约150和200个不同的3-和4-超边,最多分别有大约1500和2000个。为此,p₃和p₄都取自两个等间距的范围,每个范围被分成八个等间距的部分,其中p₃ ∈ (10⁻³, 10⁻²),p₄ ∈ (5 · 10⁻⁵, 5 · 10⁻⁴)。

通过这种方式,我们有64种可能的(p₃, p₄)组合来生成超图。我们为每个4元组(p₂, p₃, p₄, p₅)生成了20个超图。对于这1280个超图中的每一个,我们计算了k-UPHEC,其中k ∈ {2, 3, 4, 5},并计算了所有度量组合之间的肯德尔τ相关系数,如图7所示。

正如我们在图7中看到的,相关性可以分为两种不相交的行为,即上排和下排。上排显示了相关性随p₃增长的正比关系。我们讨论了p₄对这一排中不同图像的影响。注意到p₂和p₅都是固定的,如果我们比较“U₂与U₃”,p₃的增长与相关性的增长成正比。很容易识别出其背后的原因是:拥有更多的3-超边将弥补4-和5-超边与2-超边之间的大小差异。此外,拥有更多的3-超边使3-UPHEC更接近原始超图。相反,在我们引入更多4-超边的情况下,我们不仅会有2-超边的差异,还会有3-超边的差异。

在“U2与U4”的情况下,我们只能看到与p₃成正比的增长,而没有像之前那样看到与p₄成反比的增长。计算4-UPHEC是显而易见的;引入4-超边会产生积极的影响,因为它在前面的情况中引入了3-超边。在这里,p₄也像p₃(之前也是如此)一样,弥补了2-和4-UPHEC对5-超边的影响。

最后,在“U2与U5”的情况下,如果p₄的影响似乎无关紧要,我们会发现p₃的强烈影响,因为3-超边再次充当了2-和5-UPHEC之间的中间角色。

现在我们已经讨论了在合成超图上得到的计算结果,可以得出结论:尽管对于不同的(p₃, p₄)组合存在差异,但所提出的均匀化方法仍然能够跟踪中心性度量,使得每个节点在不同的均匀化中具有相似的排名位置;也就是说,每个节点的重要性相对得以保留。

5 提升 + Z-特征向量:唯一性充分条件

6. 结论与未来工作

在本研究中,我们提出了一种新的方法来分析非一致超图,通过添加一个辅助节点并将它们转换为均匀超图,同时适当调整转换后的超边的权重,我们将这一操作称为“提升”(uplift)。这种转换使我们能够应用基于结果邻接张量的特征向量的明确定义的中心性度量。通过与文献中现有的中心性度量进行广泛的比较,我们展示了我们方法的有效性和相关性。

本研究的关键贡献在于弥合了非一致超图与已建立的中心性度量之间的差距。通过引入辅助节点,我们有效地将复杂且多面的关系转化为与基于H-特征向量中心性的已建立超图分析技术一致的格式,这种一致性归功于权重的选择。此外,当我们补充投影操作时,这种新方法不仅保留了一定程度的粒度(我们可以选择关注的阶数),还提供了一种合理且明确定义的中心性度量,同时能够识别出超图中最重要的节点。

我们的结果展示了我们方法相对于现有方法的优势:一方面,均匀化使我们能够比传统方法纳入更多的信息;另一方面,计算邻接张量的计算复杂度远低于文献中唯一可用的其他方法。此外,从代数角度来看,将提升操作推广到不同节点有助于对张量的Z-特征向量进行特征化。特别是,它为一类特定超图的Z-特征向量的计算提供了一种简单的方法。

本研究为高阶系统分析开辟了一个新时代,使得在以前不可行或最多无法决定的情况下,能够以一种计算要求不高的方式识别出最重要的节点。我们在本文中以社会和生物数据为例展示了这些方法,但可以进一步收集来自其他来源的数据来验证这些发现。最后,尽管我们在本研究中考虑了静态无向超图,但将提升推广到其他情况(如有向或异构超图[37, 38]或动态演变的超图[39])将是一个有趣的方向。

总之,我们的研究为非一致超图的分析提供了一个有前景的框架,使其能够适应基于张量特征向量的明确定义的中心性度量。这一进展在包括社交网络、生物系统、交通网络等多个领域具有巨大的应用潜力。通过在复杂非一致关系与已建立的网络分析技术之间架起一座桥梁,我们的方法有助于更深入地理解这些复杂系统的底层结构,并识别其中的关键节点。

原文链接: https://www.aimspress.com/aimspress-data/math/2024/11/PDF/math-09-11-1539.pdf