A Survey on Hypergraph Representation Learning

超图表征学习综述

https://dl.acm.org/doi/10.1145/3605776

摘要

超图近年来因其在自然建模方面具有灵活性而越来越受到关注,它们能够很好地表示相互作用部分之间存在的高阶关系的各种系统。本调查回顾了新出现的超图表示学习问题,其目标是学习一个函数,将输入超网络中的对象——最常见的是节点——投影到一个潜在空间中,以便编码并保留网络的结构和关系属性。我们提供了现有文献的全面概述,并提出了一种新的超图嵌入方法的分类法,通过识别三个主要技术家族:谱方法、保持邻近性的和(深度)神经网络。对于每个家族,我们描述了它们的特点,并在我们单一但灵活的框架中提供了我们的见解,然后讨论了各个方法的特殊性以及它们的优缺点。然后,我们回顾了通常使用超图嵌入的主要任务、数据集和设置。最后,我们确定并讨论了将激发该领域进一步研究的开放性挑战。

CCS 概念:• 通用和参考 → 综述和概述;• 计算数学 → 超图;• 计算方法 → 机器学习;其他关键词和短语:超图表示学习,超图嵌入,超图神经网络,超图卷积,超图注意力

1 引言

超图是表示广泛系统中组(或高阶或多对多)关系存在于其相互作用部分之间的自然形式。从技术上讲,超图是一种图的泛化,其中(超)边允许任意数量的节点连接[24]。这种结构可以轻松地抽象出社交系统,其中个体以任意大小的群体进行交互[17, 102];例如,在合著者合作网络中,一个超边可以代表一篇文章,并将所有合作的作者(节点)连接起来[10, 48, 49, 74, 86, 120, 139, 143, 159, 171](见图1)。在生物学[56, 132]、生态学[47, 58]和神经科学[83, 106]中,也存在以高阶交互为特征的类似情况。

尽管超图在表达上非常强大,但由于其固有的复杂性以及缺乏适当的工具和算法,它们在文献中的探索相对较少(偏向于它们的图对应物)。最近,趋势已经改变,这要归功于越来越多的系统性研究,这些研究表明,将超图转换为经典图要么不可避免地导致信息丢失,要么创造出大量的额外节点/边,从而增加了下游图分析任务的空间和时间需求[2, 17, 175, 178]。具体来说,当要研究的底层系统表现出其组成部分之间高度非线性的交互时,超图已被证明是一个关键的工具[17]。在实践中,这一考虑转化为使用超边来模拟(可能是不可分解的)群体交互,这些交互不能简单地用二元组(因此,通过图)来描述。例如,超图建模已被利用来嵌入关键的社会概念,如同质性(即,群体对单个个体的影响)和从众性(即,群体压力,也就是个体倾向于将其信念与同伴保持一致的倾向,通常由共享观点的性质加强)来研究意见形成[81, 115, 116, 130]和社会影响力扩散[6, 142, 157, 195, 196]的动态,当群体被明确考虑时。类似地,超图已被用于模拟流行病传播过程,以明确考虑社区结构和非线性感染压力[5, 22, 71]以及群体动态[39, 82, 92, 107]。在这篇综述中,我们将讨论其他应用场景,其中超图建模可能比传统图建模更有益,并详细阐述抽象的多对多关系的特征和解决的具体任务。

所有与图相关的问题和相应的挑战在基于超图的设置中仍然存在,其中由于高阶交互的存在,计算成本甚至更加显著[112, 135]。从这个意义上说,超图表示学习(即超图嵌入)的任务在有效和高效地解决分析问题中进一步承担了关键角色。嵌入一个网络——无论是图还是超图——意味着将其结构和可能的附加信息投影到一个低维空间中,在这个空间中,结构和语义信息(例如,节点的邻域和特征)理想地被保留。这个过程的基本思想是,将节点和(超)边表示为一组低维向量,允许在(超)图上高效执行传统的基于向量的机器学习算法。与图一样,超图嵌入的问题因此涉及到两个传统研究问题的重叠:超图分析和表示学习[26]

第一个问题旨在从超网络结构中挖掘有用信息,而表示学习则寻求在学习紧凑表示(即潜在特征向量)时解决分类[10, 138, 194]、链接预测[45, 176, 191]和推荐[152, 153, 181]等任务。学习超图的潜在表示,而不是图,可以探索数据中的高阶相关性和某些群体关系的不可分解性质,以构建更全面的表示,从而在实践中取得更好的性能[136, 179]。

正如图2所示,在过去的十年中,越来越多的工作致力于研究超图,以在各个领域设计更有效的解决方案[17]。然而,到目前为止,还没有系统地探索超图嵌入方法。

本综述的目的是填补这一空白,通过提供现有文献的全面概述,并提供超图嵌入技术的分类法。我们最广泛的目的是发展对这个新兴研究领域的全面理解和批判性评估。

与以前的调查的不同之处。当前与我们密切相关的调查[54, 186]在讨论的主题和涵盖的文献上有很大的不同。

Gao等人[54]的工作涉及超图学习问题(有时称为超图正则化),这是一个与超图表示学习相关但不同的主题。根据[54],超图学习是在分析结构化数据和解决诸如节点分类问题时,沿着超图拓扑传递信息的过程。学习超图嵌入不是超图学习的目标,尽管这两项任务共享一些概念和想法(例如,[194])。此外,作者还深入分析了超图生成方法(本调查未涵盖)。

张等人[186]的最新调查对超图表示学习技术进行了浅尝辄止的探讨,提供了一个与本调查中提供的类似的单级分类法(见第5节)。然而,作者将讨论限制在少数代表性工作上,重点关注如何使用超图处理不确定数据。他们的调查还涵盖了一些图表示学习和超图生成方法。

由于上述原因,我们的工作可以被视为对Gao等人[54]和张等人[186]的调查的补充,因为它通过提供一系列新的贡献来强调超图表示学习的任务,这些贡献在下面列出。

贡献。我们的贡献可以总结如下:

- 固有挑战。由于超图是图的泛化,一些挑战直接继承自图表示学习问题。然而,超图的高阶特性带来了额外的困难。我们讨论了(超)图嵌入的经典挑战,然后详细说明了这些结构所带来的特殊挑战。

- 新的分类法。我们提出了三种分类法,根据(1)它们的学习方法(谱方法、保持邻近性的和神经网络技术)、(2)输入超图的结构(同质/异质、无向/有向、统一/非统一、静态/动态、有属性/无属性节点、转换为图)和(3)期望的输出(节点/超边嵌入)来对超图嵌入方法进行分类。

- 全面回顾。超图表示学习领域的最近蓬勃发展使我们能够收集、系统地回顾和描述这一研究领域的整个发展过程。我们描述了每个超图嵌入类别中最有代表性的方法,揭示了每种学习机制的优缺点,并强调了每个类别中描述技术之间的高层联系。

- 超图分析任务。我们从表示学习应用的角度回顾了讨论的方法,根据节点和超边相关任务对它们进行分类。

- 未来方向。我们审视了当前技术状态的限制,并提出了六个潜在的未来方向,涉及问题设置、建模技术、可解释性和可扩展性。

文章组织。本次调查的其余部分组织如下。第2节详细说明了论文收集过程和选择本次调查包含文章的纳入标准。第3节介绍了我们将在这项工作中使用的概念和符号。第4节正式定义了超图表示学习问题(见第4.1节),描述了问题设置的分类法,包括超图嵌入输入和输出(见第4.2节),并讨论了问题的固有挑战(见第4.3节)。第5节基于嵌入技术对文献进行分类,描述了谱表示学习(见第5.1节)、保持邻近性(见第5.2节)和(深度)神经网络(见第5.3节)方法,揭示了这三种方法的优缺点并进行了比较(见第5.4节)。第6节介绍了以前描述的超图嵌入方法所启用的应用示例。第7节确定并讨论了该领域的开放性研究挑战和未来方向。最后,第8节对本次调查进行了总结。

2 方法论请参阅在线补充材料中的附录A。

https://dl.acm.org/doi/suppl/10.1145/3605776/suppl_file/3605776.supp.pdf

github....

github....

3 基础知识

本节介绍我们将在文章中使用的概念,从正式定义超图到描述这些结构如何转化为它们的图对应物。

表1列出了将在本次调查的其余部分中明确引用的数学符号和与超图相关的概念。

3.1 超图

3.2 超图到图的转换

在文献中,超图通常被转换为对应的图表示。尽管这种转换通常因为计算方便以及图相比于高阶结构更容易处理而被偏好,但这一过程可能会导致信息的丢失或引入与原始超网络结构无关的冗余节点或边。超图转换为图的典型方法依赖于其二分图、关联图或线图的表示 [24]。图3展示了一个示例超图及其对应的二分图、关联图和线图。

二部图表示有效地描述了群体交互(见图3(c))。在这种模型中,一个顶点集对应于超图的顶点,另一个顶点集对应于超边。因此,在这个图中,一条边连接了一个顶点与其参与的任意阶的交互。然而,二部图的结构也有一个关键缺陷。原始系统中的顶点不再直接交互,因为交互层总是介导它们之间的关系。这种交互结构意味着,在二部图表示上定义的任何度量或动态过程都必须考虑到这种额外的复杂性。

4.2 问题设置
本节从问题设置的角度比较现有的超图表示学习文献,描述不同类型的输入/输出以及每种设置的具体特征。

4.2.1 输入设置在本综述中,我们沿着六个轴线分析了超图嵌入的输入:高阶关系的性质、方向性和规模、时间维度、节点是否附加了额外信息,以及超图是否被转换为图。补充材料中的图3展示了不同类型的超图,而图4概述了输入设置。接下来,我们介绍每个类别并总结其具体特征。

关系的性质‍‍‍‍

与图类似,超图可以编码一种或多种类型节点之间的关系。同样,超边可以表示单一或多种可能的交互类型。

同质超图

同质超图是最简单的输入设置,因为节点和超边都属于单一类型。在这种情况下,每个超边告诉我们,给定的节点子集共享某种共同的属性或特征。

同质超图广泛用于为推荐目的建模各种用户-物品关系(例如,[33, 84, 166, 181, 185]),用于链接预测任务的引文网络(例如,[10, 48, 49, 86, 171])以及用于分类问题的其他关系数据(例如,[88, 120, 131, 169, 194])。在文献中,也可以找到基于非关系数据构建的同质超图(例如,[54]),例如,超边表示特征空间中基于某种距离概念的顶点连接。在这些情况下,这种结构通常是抽象的,可能是用于对象分类的多模态特征(例如,[48, 103, 117, 160, 177]),交通或乘客流量预测(例如,[105, 154, 155]),以及气体或出租车需求预测(例如,[177])。

同质超图通常以加权版本使用,通过超边权重传递关于关系重要性的信息(例如,[48, 80, 103, 121, 134])。这种选择背后的直觉是,权重应该引导算法在学习更重要超边内的节点嵌入时更加准确。学习同质超图的向量表示的最大挑战是要在潜在空间中保留其连接模式,因为只有结构信息可用。通常定义在这些结构上的嵌入方法更为通用,可以直接复用而无需特别调整,因为定义这些方法的任务没有特定的约束。

异质超图

通过不同类型的节点或通过多种类型的节点和超边,超图捕捉了底层超网络的异质性。在第一种情况下,所有超边语义上编码了不同实体之间相同类型的交互。大多数异质超图属于此类别,

通常用于建模用户、物品以及领域特定属性或行为之间的关系,用于排名/推荐(例如,[18, 33, 152, 179, 181])、链接预测(例如,[147, 172, 175, 176, 191])或分类任务(例如,[36, 147, 198])。具有异质节点和超边的超图增加了表达力,因为关系可以是多种类型的。在这种情况下,超边可以表示不同类型的事件(例如,[37, 61, 62]);文档、标签和注释关系(例如,[197]);用户、歌曲和标签的交互(例如,[91]);社交媒体上的行为(例如,[138]);甚至是化学/机械过程中的组件(例如,[164])。

处理异质超图嵌入的两个主要挑战是:第一,如何有效地编码不同类型的节点和关系以保留结构和语义属性;第二,如何应对不同类型对象之间可能存在的不平衡。此外,异质超图越复杂,表示学习方法就越具体。这种情况往往导致嵌入算法严格与应用任务相关,难以泛化。

关系的方向性

该特性指的是在底层超网络中,节点(或节点组)之间是否存在直接的交互。因此,文献中可以找到无向超图和有向超图。

无向超图

到目前为止,无向超图代表了超图表示学习任务中的典型输入设置。在这种情况下,不考虑节点或超边之间的依赖关系。

有向超图

与图相反,有向超图并没有一个标准定义,方向性的概念可能应用于超边之间(即节点集)[51] 或同一超边内的节点之间[8]。Yadati 等人 [172] 和 Gao 等人 [53] 采用了第一个解释,基于 Gallo 等人的定义[51],提出了一种在有向超图上工作的嵌入算法。在这种情况下,有向关系的头和尾由两个超边表示。Luo 等人 [105] 和 La Gatta 等人 [91] 则采用了第二个解释,基于 Ausiello 等人提出的定义[8],将嵌入技术建立在单个超边的方向性上,其中一个超边由两个节点集(头和尾)组成。

静态超图

静态超图是该研究领域初期最常见的输入设置。静态超图可以建模某一固定时刻的现有连接(例如 [146, 147, 175, 176]),或者是随着时间推移节点间的交互,这些交互被汇总为单一的静态快照(例如 [33, 62, 78, 171, 179])。

动态超图

真实的(超)网络通常具有动态行为,这意味着节点和(超)边可以被添加或从系统中移除,或者标签和其他属性可以随时间改变 [16]。在文献中,动态超图通常表示为一系列静态超图的序列,即 H = 〈H(t0),...,H(tT −1)〉,其中 H(tk) = (V (tk), E(tk)) 是具有时间戳 tk 的静态超图,k ∈ {0,...,T − 1},T 是快照的数量,V (tk) 是时间戳 tk 时的节点集,E(tk) 是在时间段 [tk,tk+1) 内包含所有边的超边集 [95, 152]。

时间超图已被用于建模推荐任务中用户的偏好随时间的变化 [70, 87, 95, 152],用于谣言检测中的用户信任关系 [140],或用于时间序列预测 [134, 154, 155, 164, 177]。

开发嵌入动态超图的方法需要应对当时间组件出现时带来的系列挑战 [16]。这些方法需要考虑:(1) 如何建模时间域(离散时间或连续时间),(2) 需要嵌入哪些动态行为,以及 (3) 哪种时间粒度将在向量空间中表示。

节点特征

此类别指的是在嵌入过程中,节点是否关联了额外的语义信息作为输入。

无特征节点

在此设置中,节点仅通过其连接模式传递结构信息。

有特征节点

除了结构模式外,节点还可以携带关于其性质的额外信息,通常以特征向量的形式表示。这些向量可以编码与用户(例如 [72, 87])或物品特征相关的信息(例如 [41, 70, 166]),预训练的词嵌入 [40],图像光谱特征(例如 [103, 117, 141]),以及从传感器中提取的数值(例如 [105, 154, 155])等。

尽管额外的属性可能提升预定任务的性能 [52],但这些辅助信息的嵌入可能并不简单,尤其是当其不是向量形式时。

转化为图

文献中,处理超图高阶性质的最常见方法是将超边中编码的单一关系拆分为一组成对交互。正如 3.2 节所述,超图可以被转化为团图、关联图或某种中间表示。关于每种转化方式的缺点的讨论可以在 3.2 节中找到。

Clique graphs

将超图转换为相应的团图意味着在每一对位于同一超边中的节点之间实例化直接交互。例如,当超图邻接矩阵被利用来考虑链接模式(例如 [23, 128, 131]),或者被用来计算同一超边内节点的两个嵌入向量的成对相似度时(例如 [37, 62, 146, 176]),可以实现这样的连接。团图转化被大多数基于消息传递框架的超图卷积方法隐式使用,详见第 5.3 节。

Incidence graphs

在关联图中,超边被表示为节点,节点在超边中的高阶关系通过这些特殊节点通过成对链接进行调解。

从计算的角度来看,关联图允许信息从节点流向超边并返回。正因为如此,这种图的转换被基于两阶段更新程序的消息传递技术隐式使用(例如 [7, 79, 136, 145]),在单个卷积层中,消息从节点传递到超边,在超边中聚合,然后从超边返回到节点(详见第 5.3 节)。

线图‍‍‍‍

线图捕捉了超图中边之间的关系。这种表示法被用于保留超边中编码的高阶关系的不可分解性,正如 Bandyopadhyay 等人 [15] 所设计的超图卷积网络依赖于对加权线图的隐式转化。Xia 等人 [166] 也引入了一种超图到线图的转化,旨在缓解推荐任务中的稀疏性问题。在 LE [174] 中,线图转化被应用于利用标准的图卷积网络。

其他转化方式

其他方法将超图转化为 3.2 节中描述的修改版,以更好地捕捉结构属性,并将其用作隐式正则化器 [171],缓解对节点分布的敏感性 [123],或建模领域特定特征 [33]。例如,Pu 和 Faltings [123] 构建了一个有向加权线图,其中每个超边被替换为两个节点(正负节点),并根据相同的线图比例在正负节点对之间添加边。Yadati 等人 [171] 提出了一种经典星形扩展的修改版本。同样,在这种情况下,每个超边被两个节点替换,这两个节点由一条边连接,并链接到原本包含在对应超边中的所有节点。第三个例子可以在 Chen 等人 [33] 中找到,作者定义了团图的修订版本,将每个超边(3-均匀超图)转换为两对成对交互。

4.2.2 输出设置

超图嵌入技术的输出是表示(部分)超图的低维向量集。嵌入输出是严格任务驱动的,找到最合适的嵌入类型对于满足特定应用需求至关重要。

在本次调研中,我们将节点和超边作为嵌入输出设置。最常见的嵌入输出是节点嵌入,而只有少数方法提出了超边嵌入。目前没有方法处理整个超图或超图子结构的嵌入(详见第 7 节)。

需要澄清的是,特定的嵌入输出设置与所解决的任务之间并没有一一对应的关系,因为节点(或超边)嵌入可以用于评估与超边(或节点)相关的任务。

节点嵌入 节点嵌入将每个节点表示为低维空间中的一个向量。其基本思想是为在原始超图中相邻的节点学习相似的潜在表示。在实践中,这种接近性通常指的是包含在同一超边中的节点。当节点附加了额外的特征时,嵌入过程中会同时考虑结构和语义的接近性。作为最常见的嵌入输出设置,节点嵌入已被用于各种下游超图分析任务,如聚类(例如 [37, 131, 194]),分类(例如 [120, 138, 169]),回归(例如 [134, 154, 177]),链接预测(例如 [45, 74, 191])和推荐系统(例如 [152, 153, 185])。定义适当的相似性度量的复杂性很大程度上取决于输入超图的属性。

超边嵌入‍‍‍‍

超边嵌入方法学习超边的低维向量表示。与图中每条边编码的是成对关系不同,在超边嵌入中,向量需要捕捉任意数量节点之间的交互。最常见的方法是结合特定超边内节点的嵌入向量,例如通过求和 [23],求平均 [62],执行更复杂的聚合 [37],或通过(深度)神经网络学习聚合函数 [40, 43, 45, 53, 60, 63, 79, 120, 136, 145]。其他方法包括通过操作(1)对偶超图(在这种情况下,新超图的节点表示原超图的超边)[74, 88] 或(2)对应的二分图(在其中每个超边被建模为一个额外的节点)[143],将超边嵌入问题转换为节点域。在本次调研中,我们将只考虑那些明确学习超图嵌入的技术。正如预期的那样,超边嵌入有助于边相关任务,例如链接预测 [45, 74, 143] 或链接分类 [120, 136]。尽管如此,超边嵌入向量也被用来捕捉上下文信息,以改进节点相关任务,如聚类 [37]、分类 [37, 43, 62, 74, 140] 和推荐系统 [145]。

4.3 超图表示学习的挑战

将超图准确地表示为低维空间并非易事 [26, 31, 184]。由于超图是图的泛化,以下挑战直接继承自图表示学习问题。

第一个挑战在于找到表示的最佳嵌入维度。使用较低的维度更节省资源,也有助于减少原始网络中的噪声;但另一方面,可能会在过程中丢失关键信息。相反,较高维度的表示通常能保留更多信息,但代价是需要更多存储空间和计算时间。此外,合适的维度取决于输入的超图和应用领域。

第二个问题与选择要嵌入的超图属性有关,这些属性可能体现在节点特征、链接结构或元数据中。再次强调,哪个特征最适合任务是严格依赖于领域的。这些障碍与保留结构和网络元素附带的丰富内容有关 [31, 184]。

第三个挑战与数据的性质有关:由于隐私或法律限制等多种原因,数据稀疏性问题可能破坏网络的结构和附加内容。这种情况可能会导致在发现不直接连接的顶点之间的结构级相关性和语义相似性时遇到额外困难 [184]。对于异质网络,超图表示学习任务变得更加艰难 [42, 158]。

除了前述挑战之外,这里最核心的问题是如何有效地融合异构信息,将不同类型的实体和关系编码到潜在空间中,从而保留结构和语义属性。捕捉此类网络的内在组织可能需要在嵌入过程中包含应用领域的先验知识(例如,在设计元路径时 [60, 78])。这引发了严格依赖于应用的嵌入技术,这些技术难以在其他背景中泛化和复用 [158]。尽管如此,嵌入超图还必须解决由这些结构的高阶性质带来的两个额外问题:

捕捉群体关系

超图模型中包含了实体之间的多对多关系。然而,一个超边仅仅表示一些节点共享一个共同的属性,并不一定意味着它们之间存在直接的交互。例如,一个超图可以编码角色共现的(超)网络,其中每个节点是一个电影角色,每个超边是一个电影场景(因此,所有出现在同一场景中的角色也出现在同一个超边中)[4]。两个角色属于同一个超边仅说明它们出现在同一场景中,并不表示它们之间有过某种互动。对于异质的 k-均匀超图也是类似的情况。比如考虑一个建模位置基础社交网络(LBSN)的超图,其中每个超边连接一个用户在特定时间出现在某个兴趣点(POI)及有关该用户在那里的活动的语义信息 [146, 175](即每个超边是一个四元素集合)。在这种情况下,每个超边表示一个不可分割的关系,涉及四种类型的实体,这些实体都与同一个现实世界事件相关。移除这些实体中的一个会导致超边的消失。超图表示学习的一个关键挑战在于在嵌入过程中捕捉这些高阶关系。能够抽象这些关系的数学工具对于实现这一目标至关重要。

任务定义

超图的关键特征是每个超边体现了一个可能连接多个节点的关系。这一结构特征意味着所有基于关系的任务(即在图的边上形式化的任务)——例如链接预测或网络重构——需要进行泛化。关键问题在于这些任务的定义需要适应具体应用的背景。例如,链接预测问题。在图上实例化这个任务时,目标是预测两个节点之间是否存在(或将存在)关系,对于初学者来说这是非常直观的。当处理超图时,这个问题根据底层超网络的性质会有不同的意义。异质的和 k-均匀超图通常建模的是特定类型实体之间的固定大小关系。在这种情况下,我们感兴趣的是是否存在一个连接固定数量不同元素的关系(例如 [78, 147, 176])。对于非均匀超图,问题变得更复杂:这一次,对于要预测的超边的大小没有(事先)约束(例如 [45, 79, 169])。因此,链接预测问题的计算复杂性呈指数级增长,因为不同超边的数量是所有可能子集的数量。

另一个直接的结果是,由于超图的结构性质,这些结构还可以用来研究集合上的问题(一个超边是节点的一个子集)。因此,源自集合理论的任务可以很容易地在这个背景下进行调整。一个很好的例子是超边补全任务 [136],它来源于集合扩展任务 [183]。这个问题涉及寻找那些可能适合现有超边的节点,从而完成它。显然,这个问题在图中没有直接的对应物。

5 超图表示学习方法

超图表示学习旨在将超图嵌入到低维空间中,同时尽可能保留原始超网络的属性。我们将超图嵌入技术分为三大类:谱学习方法、邻近保持方法和(深度)神经网络基础方法。这三类方法的主要区别在于解决表示学习问题的方法。

谱学习方法

谱学习家族是超图表示学习的开创者。尽管最早的工作(例如 [23, 128])并未专注于学习方面,但基本概念和思想在后来的大多数工作中都有应用(例如 [194])。基本上,谱学习方法通过对超图的拉普拉斯矩阵进行分解(因此称为“谱”)来定义超图表示学习问题(见第5.1节)。这种分解(也称为因式分解)的输出是(顶点)嵌入矩阵,其中嵌入向量的拓扑接近性由分解的性质所确保。

邻近保持方法

邻近保持方法依赖于一种更灵活的方法来解决问题:在嵌入空间中,顶点的邻近性是通过相似性函数(例如余弦相似性)来测量的,这些嵌入通过优化一个定义为保留拓扑邻近性的目标函数来学习(即,近的顶点应该相似),以及与给定任务相关的其他因素和约束。这类方法的灵活性在于整体方法的模块化(即,相似性函数 → 目标函数 → 优化),使其能够轻松适应非常具体的任务和/或输入设置。

(深度)神经网络基础的超图嵌入

如其名所示,这一类技术基于(深度)神经网络。正如后面将清楚地指出的那样,现如今,深度学习基础的方法在超图学习技术中占据主导地位。这种成功归因于深度神经网络(DNN)的众所周知的优势,如自动特征学习、可扩展性和泛化能力。与图的DNN类似,超图卷积在使得成熟的神经模型能够处理任意结构的超图中扮演了重要角色。可以说,许多邻近保持方法可以通过浅层神经网络实现;然而,在本调查中,我们坚持原始论文中描述的方法,因此我们将邻近保持方法与神经网络无关。

接下来,我们将描述在我们的分类法中提出的每种方法,讨论其动机、代表性方法及其优缺点。最后,我们将总结和比较超图表示学习的方法。在线补充材料中的图5概述了这一分类法。使用本节所涵盖的方法的应用任务将在第6节中讨论。

有关本调查中所涵盖论文的时间分布讨论,请参见补充材料中的附录C.3。

5.1

动机‍‍

谱超图嵌入(也称为谱表示学习)方法是超图表示学习的最早方法。值得注意的是,迄今为止,最早关于节点/超边向量表示学习的讨论可以追溯到1980年代 [50],当时的目标是学习适合可视化的二维表示。尽管这种方法与今天的标准相比有些不正统,但 [50] 中的工作捕捉到了谱表示学习的本质。一般来说,这种方法论旨在为顶点学习低维潜在表示,使得“相似”的顶点在学习到的(欧几里得)潜在空间中彼此接近。尽管原则上,顶点的相似性可以通过多种方式建模,但绝大多数谱超图嵌入方法将其定义为共享的事件超边数量。名称“谱”源于与谱(超)图理论相关的概念 [28, 38],特别是(超)图拉普拉斯矩阵的特征向量和特征值之间的关系。正如我们将看到的,这一类方法的共同点是将节点嵌入特征定义为拉普拉斯矩阵最小特征值对应的特征向量。

方法

在深入每种谱嵌入技术的特点之前,我们提供该方法论的一般概述。

5.1.3 带有附加特征的节点的谱嵌入。

尽管公式(2)具有广泛的适用性,但它假设节点仅携带结构信息。然而,许多应用中,节点可以附加额外的特征。我们可以将框架推广到包括这些情况,并考虑初始节点表示。设 是一个矩阵,其中每一行代表一个节点,每一列代表节点的特征;那么,我们可以将公式(2)重写为:

此外,与图的情况一样,超图的谱理论并不能直接转化为有向超图(无论其定义如何,参见第4.2.1节),而使邻接矩阵对称化的解决方案会增加额外的(计算)复杂度,使得问题变得更加艰巨 [193]。此外,谱方法在 \( |V| \) 上的扩展性较差,因为它们需要在内存中存储方程(1)中涉及的所有矩阵,即使稀疏表示(对于稀疏超图)可能有助于缓解这个问题,仍然严重限制了它们在非常大超图上的适用性。这种扩展性问题解释了为什么大多数谱嵌入方法是在2000年代初提出的,而如今更倾向于使用更具扩展性的方法,例如基于神经网络的方法。

表1(见在线补充材料,附录D)提供了本节中描述的谱方法的概述。我们提供了大多数这些方法的实现,网址是 [https://github.com/alessant/HEE](https://github.com/alessant/HEE)。

5.2 近似保持方法

动机:近似保持(PP)算法旨在设计一种合适的相似性函数,以捕捉超图传递的各种结构和语义信息。相似性可以在图中基于一阶或二阶邻接信息自然地计算。一阶邻接信息告诉我们两个节点基于它们之间链接的权重的相似度,而二阶邻接信息则比较节点邻域结构的相似度 [26]。对于超图来说,嵌入的一个理想特性是能够同时保留同一组内节点之间的邻近性,因为一个超边编码了高阶关系,这些关系在分解成成对链接时可能并不有意义 [179]。

方法:近似保持和谱嵌入算法共享保持节点拓扑邻近性的理念,但解决问题的方法大相径庭。PP技术理论基础较少,但方法更加灵活,容易适应具体任务。

尽管无法提供一个足够通用的框架来覆盖所有此类别的方法,但可以突出大多数方法共享的概念和思想。

相似性作为点积的函数:在欧几里得潜在空间中,两向量的邻近性/接近性通常通过点积来测量 [26]。基于这一一般思想,为超图设计的PP方法通常旨在通过点积(HEBE(-PO/PE) [61, 62]、FOBE和HOBE [144])或其变体(如余弦相似度(Lbsn2Vec [175]、Lbsn2Vec++ [176] 和 MSC-LBSN [146]))共同优化超边中节点的元组(或n元组)邻近性。

目标函数:所有PP方法的目标函数结构类似。具体而言,可以识别出三个主要子目标:

1. 最大化节点嵌入的相似性,对于那些在拓扑或语义上相互接近的节点;

2. 最小化负样本(如果存在)的节点嵌入相似性;

3. 最大化一个特定任务的子目标,这个子目标可以嵌入到方程(1)的目标中。例如,Event2Vec [37] 中的事件对之间的接近性最大化,用于描述超边之间的成对接近性。

没有正则化:令人惊讶的是,大多数PP方法没有对学习到的嵌入应用任何形式的正则化(MSC-LBSN [146] 和 HOBE [144] 是唯一的例外)。对于基于余弦相似度的方法,如 Lbsn2Vec(++) [175],正则化可能不是必要的,因为嵌入向量的幅度不会影响它们之间角度的余弦。然而,对于基于点积的方法,如 HEBE [61, 62]、Event2Vec [37]、FOBE [144] 和 HGE [179],是否缺乏正则化可能导致过拟合还不清楚。

尽管在更高层次上相似,每种PP技术的特点在于优化目标,通常通过随机梯度下降优化,这决定了节点/超边嵌入的学习方式。优化标准可以采取不同形式,如相似性最大化(例如 Lbsn2Vec(++) [175]、HGE [179]、MSC-LBSN [146])、均方误差(例如 HOBE [144])、Kullback–Leibler 散度(例如 FOBE [144]、Event2Vec [37])或贝叶斯个性化排序 [126](例如 HEBE(-PO/PE) [61, 62])。显然,损失函数考虑了任务的特点。

5.2 近似保持方法

方法:近似保持(PP)方法在如何传递超边所传达的高阶关系以及是否显式学习超边本身的表示方面也有所不同。几乎所有这类方法都通过成对计算余弦相似度(如 Lbsn2Vec(++) [175]、MSC-LBSN [146])或点积(如 HEBE [61]、Event2Vec [37]、HOBE/FOBE [144])来最大化同一超边内节点的嵌入相似性。一个例外是 HGE [179],它将超边视为一组节点。具体而言,HGE [179] 将标准的点积操作推广到任意数量的向量,用于计算超边中节点的相似性评分。然而,这种点积推广(称为多线性映射)仅从代数角度上是有意义的,且没有几何解释。在所有 PP 方法中,只有 HEBE-PE [61, 62] 和 Event2Vec [37] 也学习了超边的潜在表示。在 HEBE-PE [61, 62] 中,超边嵌入通过最大化超边向量与该超边内节点的平均表示之间的相似性来学习。在 Event2Vec [37] 中,潜在的超边表示通过加权点积将超边内节点的嵌入组合起来。

另一个重要观察是,除了 Event2Vec [37] 之外,所有 PP 方法仅考虑一阶邻近性,这可能是次优的。特别是,Event2Vec [37] 通过建模超边邻近性来捕获二阶邻近性。受因子分解机 [125] 启发,作者提出了一种新的操作,将同一超边中节点对之间的所有交互结合起来。然后,通过嵌入与刚刚描述的组合之间的点积来建模超边邻近性。

备注:近似保持方法共享相同的总体设计:定义(1)作为嵌入函数的相似性度量和(2)优化保持节点邻近性以及可能的任务特定目标的标准。这种简单的设计使得 PP 方法足够通用,可以通过专门设计的优化(子)目标轻松适应特定任务。这种基本结构也允许自然地处理异质性、不均匀性和有向超图。特别是,方向性概念可以在目标函数中编码。例如,在超边间有向超图的情况下,优化标准可以强制尾节点的嵌入具有某些特定特征(例如,作为超边内所有节点嵌入的质心)。将动态信息注入到潜在表示中的 PP 方法需要单独考虑。在这种情况下,动态设置会使得整体方法的结构更难设计,从而与这些技术本身简单高效的精神相悖。目前,没有 PP 方法定义在有向或动态超图上。

与深度表示学习(第5.3节)相比,这些方法可以定义为浅层方法,因为它们为每个节点/超边优化一个唯一的嵌入向量(即一个抽象层)。这些方法本质上是传递性的,这使得它们不能用于归纳应用。大多数这些方法的一个缺点是它们未能捕捉超图的结构信息,除了单跳邻居。此外,由于相似性通常定义为点积的函数,这些方法可能无法建模节点/超边之间潜在的非线性关系。最后,超图上的 PP 方法通常将超网络视为其完全图扩展的对应物,这可能会失去最初建模高阶交互的好处。在线补充材料(附录 E)中的表 2 总结了本节描述的方法。

5.3 (深度) 神经网络模型

动机:深度学习(DL)在语音、语言和视觉检测系统中取得了显著的成功 [55]。这种成功驱动了研究社区要么直接将 DL 模型应用于图数据,要么设计新的神经网络模型专门用于嵌入图形数据 [26]。超图神经网络(HNNs)起源于图神经网络(GNNs),目前 GNNs 代表了图表示学习的最先进技术 [161]。因此,GNNs 的动机和直觉也适用于类似超图的输入数据。(深度)HNNs 被用来捕捉超图节点之间的高阶非线性关系,而无需手工设计特征(即提供端到端的解决方案)。此外,最先进的神经网络框架(如 Pytorch、Keras、TensorFlow)利用硬件加速(如 GPU)来加速计算,使得高效训练非常深且强大的模型成为可能。

接下来,我们将重点描述神经网络中明确或隐式地学习潜在超图表示的部分,较少关注读出层。

5.3.1 超图卷积网络:图卷积网络是学习图嵌入的最受欢迎的技术。卷积算子在(超)图上的操作可以被优雅地通过(超)图信号处理理论来说明,它将欧几里得卷积推广到非欧几里得数据 [161]。

在文献中,(超)图卷积通常根据卷积算子的定义被分类为空间卷积和谱卷积 [161, 192]。一方面,谱图卷积使用傅里叶变换将图信号转换到谱域,在那里进行卷积操作。另一方面,空间图卷积从空间域的角度汇聚节点特征 [187]。然而,正如 [13, 14] 中详细展示的那样,这种区分变得越来越模糊,因为许多图卷积方法可以在谱域和空间域中定义。基于这一考虑,我们倾向于在我们的调查中避免这种模糊的分类,转而采用一个更通用的框架,涵盖几乎所有的卷积方法,同时仍然留出一些空间给特定的谱卷积方法。

正如 Hamilton 等人 [65] 所展示的,图卷积是更通用且更易于理解的消息传递框架(MPF)的一个特殊情况,其基本直觉很简单。给定一个初始的超图表示(例如,节点特征矩阵 \( X^{(0)} \)),MPF 会按照以下过程迭代地更新它。在每次迭代中,每个节点从其局部邻域中聚合信息,随着迭代的进行,每个节点的嵌入包含越来越多来自超图更远部分的信息。因此,节点嵌入编码了双重知识:结构性和基于特征的信息,这些信息都来源于根据超图结构迭代地收集邻居的表示。每个消息传递步骤表示为(深度)超图卷积神经网络(convHNN)的一个层,该层可以作为输入传递给下一个层。

与图中的每条边仅连接两个节点不同,超图中的超边编码了多个节点之间的多对多交互。因此,为了正确利用超图的高阶特性,信息在节点之间的传播应考虑这些更丰富的关系。这种直觉可以通过两阶段(或称为两级或两步)更新/聚合过程来实现 [7]:

值得注意的是,尽管消息传递框架(MPF)足够灵活,允许在邻居之间发送不同的消息,但方程 (5) 中的卷积层假设每个节点向其每个邻居发送相同的消息。此外,由于节点嵌入的更新直接进行,因此在过程中并没有显式学习超边嵌入。然而,可以通过采用对偶变换并应用 MPF 来学习超边嵌入(EHGNN [88])。为了减少图连接的两个部分并加快学习过程,Yadati 等人 [171]((Fast)HyperGCN)提出用不完全的完全图替换每个超边。

方程 (5) 涵盖了大多数超图卷积模型(稍后讨论);然而,也有一些例外可能只适用于方程 (4)。例如,H2SeqRec [95] 在双曲空间中定义了一个特定的卷积操作,以缓解超图在推荐任务中的稀疏性问题,而 DHGNN [86] 和 KHNN [99] 使用 1D 卷积和参数化聚合函数来更好地建模节点之间的区分信息。在 [170] 中,Yadati 提出了 G-MPNN [170],一个能够处理多关系有序超图的广义 MPF,以及 MPNN-R 以处理递归超图。

还有一些方法使用非参数化的聚合函数,仅用于在超图中传播信息和初始化节点表示,例如 DHCN [166] 和 MHCN [181]。

接下来,我们讨论五个卷积设计因素(即参考操作符、跳跃连接、注意机制、门控更新和谱卷积),这些因素会影响信息在学习过程中的传播和聚合。这些设计选择可能在同一网络架构中组合使用。

参考操作符。在方程 (5) 中,矩阵 R R 描述了如何聚合嵌入。在其最简单的形式中, R R 就是超图完全图扩展的邻接矩阵,定义为(NHP [172],SHCN [33],HHNE [18],DHCN [166],HGNN+ [53])。在这种情况下,聚合函数是邻居节点表示的总和。

然而,未归一化的邻接矩阵可能会阻碍优化过程,因为节点特征可能在不同的范围内,并且特征值可能在深度网络中无限增长。因此,邻接矩阵通常被归一化。行归一化的邻接矩阵变为HCHA [10],HHGR [185],GC-HGNN [121],和 IHGNN [34] 不包括与超边相关的矩阵),而对称归一化的形式为(HGNN [48],GC-HGNN [121],DH-HGCN [68],HyperCTR [70],DualHGNN [159],DualHGCN [169],MHGNN [9],STHAN-SR [134],MultiHGNN [76],HGDD [119],STHGCN [155],F2HNN [110],S2HCN [109],AdaHGNN [160],HybridHGCN [77],HyperINF [87],MT-HGCN [154],HGNN+ [53],HGNNA [41])。

注意机制。方程 (5) 中的聚合函数表示了所有邻居节点的(归一化)平均值。尽管这种选择很直接,但可能不是最优的,因为它给予所有邻居相同的重要性。克服这一限制的自然方法是对每个邻居给予不同的权重。这种解决方案是注意机制的基本思想,即一个学习如何加权邻居节点的神经网络,这一思想首次由 Velickovic 等人 [150] 引入。简而言之,(超)图注意机制是(H)GNN 的一个特例,其中发送给邻居的消息不是相同的。

文献提供了不同类型的注意机制,在超图中最流行的是加性注意(DHCN [166],DHGNN [86],DualHGNN [159],HNN [139],HGC-RNN [177])和乘法注意(HyperGAT [40],SHARE [153],[164],HGNNA [41],HGAT [29],DH-HGCN [68],[140])。虽然在超图中不那么流行,但也可以添加多个注意“头”(HCHA [10],DHAT [105],SHT [163]),每个头在独立参数化的注意层上计算 k k 个不同的注意权重。最终,使用 k k 个注意力的聚合消息会线性组合。注意机制还可以帮助结合节点嵌入,用于群体推荐任务(HHGR [185],HCR [85])或处理时间序列(例如,STHAN-(S)R [134],(D)STHGCN [155])。最近,得益于 transformer 架构的成功 [149],自注意机制开始出现在 convHNN 中(DHGNN [86],HOT [89],SSF [72],Hyper-SAGNN [191],HyperRec [152]),广泛用于结合序列节点/超边嵌入以进行任务特定目的(Higashi [190],DualHGNN [159],DHAT [105],HyperTeNet [151],H2SeqRec [95])。

门控更新。在 transformer 架构出现之前,递归神经网络是处理序列输入的标准工具。在超图中,序列输入可以指(1)节点级别,即节点特征随时间变化,或(2)结构级别,即超图拓扑随时间变化。在节点级别的情况下,邻居的信息不仅包含它们当前的隐藏状态,还有一个全新的观察。在这种设置下,主要使用的机制有门控递归单元(GRUs)([164],HGC-RNN [177]),门控 GNN [96]([156])和堆叠在卷积层上的门控线性单元(GLUs)(MT-HGCN [154],(D)STHGCN [155])。据我们所知,目前没有相关的超图嵌入技术处理结构序列输入。

频谱卷积。频谱超图卷积依赖于频谱(超)图理论,它是 Feng 等人提出的首个 convHNN 方法的基础 [48](HGNN)。正如之前讨论的那样,HGNN 也可以被解释为 MPF 的一个特例(见方程 (5));然而,直接将特定的频谱超图卷积方法映射到 MPF 上可能不那么直接,但可以争论说这是可能的 [13]。

频谱超图卷积的主要概念是傅里叶变换和拉普拉斯算子之间的联系。我们可以通过超图拉普拉斯算子的特征分解来定义超图信号的傅里叶变换,其中特征值表示超图频率(即超图的频谱),特征向量表示频率成分(即超图傅里叶基)。然后,频谱域中的卷积通过变换后的傅里叶空间中的逐点乘积来定义(HpLapGCN [49],pLapHGNN [108])。

除了傅里叶基外,还可以使用小波基,如在 HGWNN [117] 和 HWNN [138] 中,其中超图小波变换将图信号从顶点域投影到频谱域。

5.3.2 基于随机游走的方法

随机游走(RW)是一种常见的替代卷积的方法,用于编码接近性的概念。在(超)图上,随机游走的一个优点是其与文本中的句子的类比:路径是节点(和超边)的序列,就像短语是单词的序列一样。这种相似性允许利用语言学中的分布假设,即在相同上下文中出现的单词通常具有相似的意义 [69]。同样,具有相同结构上下文的节点在潜在空间中应该彼此接近。这一类比使得自然语言处理技术可以应用于(超)图(DeepWalk [122])。

在这个背景下,一种成熟的方法遵循 DeepWalk 引入的两步框架:首先,通过在超网络中进行随机游走来捕捉结构上下文,然后通过自然语言处理模型(通常是 Skip-gram 和 CBOW [114])来学习节点嵌入。最终,得到的节点表示可以作为读出层(Hyper2Vec/NHNE [74, 75],Hyper-gram [78],DHHE [36],HEMR [91])的输入,或者作为另一个神经网络模块来微调嵌入(DHE [120],Hyper-SAGNN [191])。在 [198](HRSC)中,所描述的方法(使用 CBOW)应用于双部分图,但未能学习超边的表示。因此,为了解决这个问题,作者提出了一种新颖的基于负采样的集合约束目标函数。

超图的性质允许将现有图的随机游走方法固有地推广到这些结构,但它们更丰富的语义要求定义特定于超图的策略。例如,类似于 node2vec [59] 提出的探索-利用策略,Hyper2Vec [75] 利用度偏置的二阶随机游走来在同质超图中采样路径。Hyper-SAGNN [191] 也提出了类似的策略。相反,Hyper-gram [78] 的基于超路径的随机游走方法捕捉到超边可能在异质超图中编码不可分解关系的思想。与此类似,DHE [120] 也提出了一种新随机游走模型,以获取每个超边中的共同成员信息。

5.3.3 编码器基方法

在学习低维嵌入时,编码器-解码器架构是机器学习中的常用方法。然而,这种类型的架构可能无法捕捉由超图结构化数据编码的结构信息。因此,这些网络通常作为更大网络的子模块。例如,Hyper-SAGNN [191] 使用这种方法初始化节点表示,而 DHNE [147] 使用自编码器学习节点的初始潜在表示,然后使用专门设计的神经网络进行微调,以保留二阶邻近性。更“复杂”的方法使用变分自编码器(HeteHG-VAE [45])和 DeepSets(DHE [120])。通常,当与特定的解码器结合使用时,这些方法主要用于任务特定的超图嵌入(例如,HeteHG-VAE [45],Event2Vec [37],HNN-HM [97])。

备注 由于其多功能性,HNN 可以很容易地适应广泛的任务,例如(多类)分类(例如,HpLapGCN [49],HyperGCN [171],DualHGNN [159],DHE [120]),回归(例如,[164],HGC-RNN [177]),链接预测(例如,HeteHG-VAE [45],DHCF [84],DHNE [147]),和推荐(例如,HHGR [185],HyperRec [152],SHARE [153])。神经网络方法的模块化也简化了不同输入通道的融合。例如,使用超图的对偶可以使设计用于超图节点嵌入的相同架构来学习超边嵌入(例如,NHNE [74])。通常,多通道输入在领域特定任务中可能很有用,例如处理异质超图(例如,MHCN [181],DHCF [84])。HNN 还可以处理动态超图 [164] 或一般需要建模序列信息的任务(例如,H2SeqRec [95])。

此外,HNN(超图神经网络)允许进行迁移学习,并通过简单地设计读出层或任务特定的损失函数来重用已建立的架构。HNN的典型学习设置是(半)监督的传递学习,但也有少数几种方法,如DHE [120]、G-MPNN [170]、AllSet [35] 和HGAT [29],可以用于归纳设置。

像其他深度神经网络一样,HNNs需要大量的数据进行充分训练,并且超参数调优可能会非常昂贵。HNNs的另一个缺点是,特别是在非常深的网络中,训练阶段可能需要高计算能力(如GPU、TPU),这限制了它们在边缘设备上的应用。

在所有HNN技术中,卷积HNN(convHNN)目前在文献中占主导地位,主要是由于其优越的性能。从附录F中的表3可以看出,自2020年以来,编码器基础和随机游走基础的方法几乎已经消失。这种方法的成功主要归功于图表示学习文献中的知识复用。类似于图神经网络(GNNs),这些方法学习节点表示,然后将其聚合以学习超边的潜在表示(例如,NHP [172])或整个超图(例如,[164])。最近,趋势似乎正转向专门为超图设计的卷积方法(例如,[136]、AllSet [35]),其中超边嵌入被显式学习。

然而,convHNNs通常在计算要求方面比编码器基础和随机游走基础的方法更为苛刻,因此在计算能力有限的情况下应优先考虑这些方法。此外,许多卷积方法使用的点击扩展变换可能是一种限制,因为关系的高阶性质仅在学习过程中间接利用。随机游走基础方法的重要优势在于其通用性,这使得该方法几乎可以无缝地应用于任何超图。相反,编码器基础方法可能需要在设计编码器/解码器架构方面付出一些努力。然而,当随机游走和编码器基础方法结合时,可以达到最先进的性能,例如Hyper-SAGNN [191]和DHE [120]。

在任务方面,我们没有注意到任何特定的趋势:所有(深度)神经网络方法都已成功应用于分类、链接预测和推荐任务。然而,在处理动态或多通道超图时,convHNNs更为适合,因为它们可以轻松设计以处理递归或多通道输入。

超图表示学习模型比较

之前讨论的所有方法都有其独特的特点(见表2),使它们适合特定的应用领域和约束。一般来说,我们可以观察到,光谱基础的嵌入算法由于其可扩展性问题,在实际的大规模应用中很少使用。然而,这些方法在处理小型数据集时是一个可行的选择。接近性保持方法的简单设计使其特别适合在学习过程中利用先验领域知识,这些知识可以通过设计特定的相似性函数轻松嵌入到学习过程中。与光谱方法类似,PP方法在小型到中型数据集上表现更好。目前,(深度)神经网络方法代表了超图表示学习的最新进展,绝大多数嵌入方法属于这一类别。这种趋势直接源于这些方法所取得的高质量性能和执行端到端学习的可能性。此外,MPF的灵活性允许捕捉每个超边所编码的高阶关系。超图神经网络比其他超图嵌入技术具有更好的扩展性,因此可以应用于大规模数据集。然而,特别深层网络的训练可能需要高性能的硬件支持。

6 学习任务与应用

超图表示学习可以有效地解决多种图分析任务,因为学习到的潜在表示能够高效地执行传统的基于向量的算法。根据图表示学习的相关综述[16, 25],在这项工作中,我们根据超图嵌入的应用是否聚焦于节点或超边来分类现有的应用。需要注意的是,我们仅将每项工作与其在相应文章中明确报道的任务匹配。有关最常用数据集的列表,请参见表4(附录G)。

6.1 与节点相关的学习任务与应用

在这一部分,我们描述超图表示学习在超图节点上的经典学习任务中的作用,例如分类、聚类和推荐。对于每个任务,我们还进一步描述了它被应用的领域。

6.1.1 节点分类

节点分类是一个监督任务,其目标是根据从其他已标记节点中学到的模式,将正确的标签分配给每个未标记的节点。节点分类是超图嵌入文献中最常讨论的任务之一,并在(可能是多标签的)事件(例如HEBE-(PE/PO) [61, 62],Event2Vec [37])、电影(例如DHNE [147]、HRSC [198]、DualHGNN [159])、作者(例如HyperGCN [171]、Hyper2Vec/NHNE [74, 75]、HWNN [138])、引用(例如DHGNN [86]、HCHA [10]、UNIGNN [79]、LE [174])、图像(例如SSHGDA [103]、AdaHGNN [160]、HGWNN [117])和项目(例如DualHGCN [169]、AllSet [35]、DualHGCN [169])分类等领域中得到了广泛应用(例如HOT [89]、EHGNN [88]、DHE [120])。

节点分类通常在(半)监督设置下进行,文献中有两种主要方法来解决这一任务。第一种方法包括一个三步的顺序过程,其中:(1)嵌入方法首先学习节点的潜在表示;(2)然后使用已有的分类器在标记实例上进行训练;(3)最后,训练好的分类器根据节点的嵌入预测未标记节点的类别。支持向量机(例如DHNE [147]、HEBE-(PE/PO) [61, 62]、SSHGDA [103])、逻辑回归(例如HEBE-(PE/PO) [61, 62]、Hyper2Vec/NHNE [74, 75]、Event2Vec [37])和k近邻(例如SSHGDA [103])是最常用的分类器。第二种方法涉及(深度)神经网络。具体而言,这一任务以端到端的方式解决,其中网络的第一部分显式或隐式地学习节点嵌入,而读出层解决特定的分类任务(例如AllSet [35]、HOT [89]、HNHN [43])。

6.1.2 节点聚类

节点聚类的目标是将相似的节点分到同一组,使得同一组中的节点彼此之间的相似度高于其他组中的节点。节点聚类是一个无监督学习任务,通常在没有节点标签的情况下应用,以发现节点组之间的相似性。经典的工作流程是首先学习节点的低维表示,然后在这些潜在向量上应用所需的传统聚类算法。本综述中包含的所有工作(Zhou等人[194]、Ren等人[124]、Saito等人[131]、Event2Vec [37])都采用了k-means作为聚类算法。具体而言,Event2Vec [37]利用这一任务来测试学习到的节点嵌入在捕捉事件数据中的事件内和事件间关系的表达能力,而Ren等人解决了物体视图的聚类问题。

6.1.3 节点推荐

节点推荐任务的目标是根据某些标准,为给定节点(例如用户)找到最感兴趣的节点(例如项目)。在这个背景下,超图作为一种有价值的工具,可以结构化地编码超越经典用户-项目关系的高阶关系。例如,超图可以显式建模附加在用户-项目交互上的额外信息,如情感(例如HGE [179]、SHCN [33])、项目类别或属性(例如HHE [197]、HEMR [91]、HyperCTR [70])、搜索查询(例如HyperSAR [145]、IHGNN [34])、购买历史(例如HyperREC [152]、H2SeqRec [95])、社交关系(例如MHCN [181])、用户会话(例如SHARE [153]、DHCN [166]、GC-HGNN [121])或用户/项目组(例如DHCF [84]、HHGR [185]、HCR [85])。一般来说,基于超图的推荐系统被用于文档/书籍(例如HHE [197]、H2SeqRec [95]、KHNN [99])、电影(例如HGE [179]、DHCF [84]、HHGR [185])、产品(例如HyperRec [152]、SHCN [33]、SHARE [153])、歌曲(例如FOBE/HOBE [143]、MHCN [181]、HEMR [91])、视频(例如HyperCTR [70])、商业/地点(例如HyperSAR [145]、MHCN [181]、HHGR [185]、DH-HGCN [68])和新闻(例如DHCF [84])推荐等领域。

6.2 与超边相关的任务和应用

接下来,我们讨论超图表示学习在链路预测任务及其变体和相关应用领域中的作用。

6.2.1 链接预测

在传统图中,链接预测任务涉及基于实体的属性和当前观察到的链接来推断新的关系或仍未知的交互。在超图中,超链接预测问题涉及根据当前观察到的超边集 E 从全集中预测缺失的超边。

在处理 k-均匀超图时,待预测的超边大小受所建模关系的性质限制。然而,在更一般的非均匀超图设置中,超边的可变基数使得为图定义的链接预测方法不可行,因为这些方法基于两个输入特征,即可能形成链接的两个顶点的特征。

为解决上述困难,所有为超链接预测设计的方法都 heavily 依赖负采样技术,以在训练和评估阶段排除无意义的关系(例如,MSC-LBSN [146]、NHP [172])。然后,给定超边的存在基于评估与该关系相关的节点的嵌入向量对之间的相似性分数。相似性分数可以通过一些相似性度量来计算,例如欧几里得距离和余弦相似度(例如,NHNE [74]、LBSN2Vec [175, 176]),或者使用更复杂的边分类器,如逻辑回归。在后一种情况下,链接预测任务被视为一个分类问题,其中目标类别标签指示一对节点之间是否存在链接(例如,G-MPNN [170]、HNN [139]、DualHGCN [169])。

6.2.1 链接预测

在文献中,这一任务被应用于检测以下关系:用户-地点-活动、用户-电影-标签、用户-药物-反应、以及同义词集-关系类型-同义词集(例如,DHNE [147]、HRSC [198]、Hyper-SAGNN [191]、HOT [89])。其他应用领域包括预测非均匀(可能)异质协作网络中的超链接(例如,HeteHG-VAE [45]、NHP [172]、NHNE [74])、用户-电影兴趣(例如,HeteHG-VAE [45]、NHNE [74])、用户-物品(例如,DualHGCN [169]、[156]、HNN [139])以及化学/药物反应(例如,HHNE [18]、HGDD [119])网络中的链接。

6.2.2 网络重构

网络重构任务可以视为链接预测的一个特例,其中需要推断原始超网络的所有超边(例如,DHNE [147]、Hyper-gram [78])。该问题的另一个变种,即超边扩展,由Srinivasan等人 [136] 提出,基于集合理论。在这种情况下,任务是从给定的超边(集合)中预测缺失的节点(元素)。

6.3 其他应用

以下是对其他相关应用的简要描述。

6.3.1 时间序列预测

时间序列预测是回归问题的一个子类,具体来说,是将模型拟合到历史的时间戳数据上,以预测未来值。这个术语涵盖了多个领域特定的任务,其中利用了超图,例如交通预测(MT-HGCN [154]、DHAT [105])、乘客流量预测(STHGCN [155])、燃气和出租车需求(HGC-RNN [177])以及股票选择(STHAN-SR [134])。在这个背景下,同质和非均匀超图建模了时空信息。

6.3.2 可视化

可视化超图表示学习算法的结果是对所设计的嵌入方法是否保留了输入网络的期望特性的强有力展示。在学习低维潜在向量后,这些向量通常会通过t-SNE [148] 投影到二维空间中,以便可视化高维数据。另一种常见的方法,对于基于谱的方法,是绘制每个节点的表示,考虑拉普拉斯矩阵的两个或三个最小特征向量 [194]。在节点分类或(如有可能)聚类任务中,每个节点类别的颜色不同:这样可以很容易地查看属于同一类别或具有相同特征的节点是否被嵌入在一起。本文讨论的一些方法(例如,Event2Vec [37]、HyperGCN [171]、DHE [120]、HHNE [18])使用了这种技术来将其计算的嵌入与一些基线进行比较。

6.3.3 知识超图

在建模知识库(KB)时,图是首选的方法,因为它们自然表示三元关系,即KB中的事实形式(例如“头部、关系、尾部”)。然而,对于n元关系,超图可能是一个有效的替代选择 [46, 173]。知识超图嵌入技术与任务(通常是预测事实)紧密相关,因此很难将这些方法转移到不同的背景中。

6.3.4 自然科学

在过去几十年中,网络科学已成为分析生物和化学剂之间相互作用的一个成熟框架 [17]。在这种背景下,超图表示学习的任务被用于预测化学机械加工过程中的材料去除率 [164, 165]、多方色彩交互 [188, 189]、基因组特征 [190] 和药物-疾病关联 [119]。其他研究也集中在医疗相关问题上,如癌症组织分类 [12]、自闭症诊断 [111] 和植物疾病检测 [133]。

7 未来方向

以下是关于超图表示学习的挑战和潜在未来方向的讨论。

深度超图表示学习 近年来,深度神经网络超图嵌入技术逐渐兴起。这一趋势延续了图神经网络(GNN)的成功,GNN在图上表现出色。然而,大多数努力集中在将现有的图方法适应到超图上。未来的一个真正挑战是开发专门为超图设计的神经模型,以充分利用其独特特性。例如,大多数卷积超图神经网络(convHNN)方法通过将每个超边近似为一个完全图,从而丧失了关系的不可分性。一个可能的方向是开发能够直接利用高阶交互而非成对连接的消息传递函数(MP函数),如 [35, 136] 所述。

超图嵌入之外的表示学习 本调查中大多数方法处理的是节点嵌入,仅有少数方法还考虑了超边。然而,仍然需要开发能够学习整个超图或子结构表示的解决方案。这些方法对于可视化 [11]、社区检测 [27] 和超知识图谱嵌入 [129] 等任务非常有用。沿着消息传递框架的精神,一个有前景的方向是学习具有排列不变性的函数,能够以对任务有意义的方式聚合节点/超边表示。

动态超图嵌入 动态性是许多网络的一个重要特征,可以表现为时间变化的特征或结构交互模式 [5, 16]。超图可能在节点/边结构(添加/移除)或信息方面发生变化。这些特性导致静态嵌入方法失效,因为超图的大小不是固定的,特征可能随着时间漂移,且添加新节点/边需要有效更新表示 [31]。当前关于动态超图嵌入的工作通常假设在一个固定的节点集和一个可变的超边集 [87] 或节点特征集 [95, 152, 154, 164, 177] 下进行。然而,更具挑战性的问题是预测新添加节点的表示。尽管存在归纳框架,主要挑战是如何增量更新现有节点表示并适应图结构的概念漂移。受到图表示学习文献 [66] 的启发,一个有前景的方向可能是通过从节点邻域中聚合特征来学习生成嵌入的函数,而不是训练单独的节点嵌入。

可解释性 大多数先进的超图嵌入方法使用卷积,通常是在分层架构中构建的。这些模型的复杂性使它们足够表达能力强,可以提取出好的压缩超图表示。然而,这些模型高度非线性的性质损害了它们的可解释性。通常,为了解释嵌入,我们需要找到潜在特征与原始超图特征之间的关联。一个可能的方向是探索所谓的解耦表示 [21]。解耦表示学习 [64, 94] 可能有助于学习不相关的潜在特征,从而可以描述学习到的因子化表示背后的各种潜在解释因素。

可扩展性 在处理许多现实世界网络时,可扩展性是一个关键要求。超图增加了进一步的复杂性,因为不仅节点和超边的数量可以达到数百万,而且相同超边的基数可能也非常大。目前,关于提高超图算法可扩展性的工作较少(例如,[171]);因此,规模化的计算范式和模型是未来工作的关键挑战。NetVec [112] 体现了朝这一方向努力的尝试,通过应用粗化策略来预处理数据。一般来说,超图粗化或划分策略结合并行方法可能是一种有效的解决方案。

复现性 如何直接衡量数据表示的质量是表示学习中的一个长期问题 [93]。目前,学习到的表示的质量是通过间接执行一组相关任务来衡量的。然而,当前还没有标准的基准数据和方法。除了(并不罕见的)开源实现的不可用性,这种碎片化导致了方法难以重用和比较。正如 Hamilton 等人 [67] 在图表示学习的情况下所建议的,应当投入努力定义一个通用框架,描述——针对特定任务——期望编码的网络结构、我们期望模型如何编码这些信息以及对学习表示的可能约束,以明确在实际应用中应该使用哪种方法。

8 结论

计算能力的不断发展和理论模型的进步要求统一和抽象处理具有复杂关系的现实数据。超图是这一需求的一个有前途的答案;然而,超图研究,尤其是超图表示学习领域,仍处于起步阶段,但相关工作正快速增长。

在本调查中,我们系统而全面地讨论了超图表示学习。我们在文献中识别出了三大类超图嵌入方法:谱方法、邻近保留方法和(深度)神经网络超图嵌入方法。

• 谱超图嵌入方法代表了最早期针对超图学习向量表示的努力。尽管这些方法有着坚实的理论基础,但谱方法在处理大规模超图时表现不佳,因此近年来在研究界的吸引力有所下降。

• 近邻保留方法和(深度)神经网络方法解决了这一可扩展性问题,提供了两种截然不同的超图表示学习方法。

- 近邻保留方法使用标准的机器学习流程,通过一个基于节点间距离(或相似度)的损失函数来保持潜在空间中节点的接近度。损失函数还可以设计为嵌入额外的约束或与特定任务相关的信息。这种简单的设计使得近邻保留方法能够适应更多不同的情境。

- 如今,基于深度学习的方法由于其灵活性、能力和性能而成为主流。它们利用了图表示学习领域的经验以及不断增长的高计算能力,使得训练非常大的(即深度的)模型成为可能。一方面,这种从图表示学习中的继承加速了超图学习技术的发展。另一方面,它也使得研究人员的努力偏向于对图方法的适应。然而,尽管类似,超图具有固有的特征,如编码高阶关系等,需要考虑。例如,Chien 等 [35] 和 Srinivasan 等 [136] 的工作通过在(多重)集合上进行消息传递函数开辟了新的研究方向。我们相信这些贡献可能会激励研究界开发专门为超图设计的新型表示学习框架。

超图表示学习中的最大挑战之一是缺乏一个至少经过验证的工具,供研究人员作为实现新嵌入技术的参考。而在图领域,社区提供了许多替代工具,如 DGL、Spektral 和 Karate Club,仅举几个例子。遗憾的是,超图领域没有类似的工具,甚至超网络分析库也不如 NetworkX 等图库那样成熟(如 HyperNetX、SimpleHypergraph.jl 和 Hypergraphx)。

通过本次调查,我们旨在为未来的研究人员和从业者提供对当前超图嵌入问题解决趋势的全面理解,并勾勒出一些设计新颖且实用的超图表示学习技术的指导方针。

4 https://docs.dgl.ai.

5 https://graphneural.network.

6 https://karateclub.readthedocs.io.

7 https://pnnl.github.io/HyperNetX.

8 https://github.com/pszufe/SimpleHypergraphs.jl.

9 https://github.com/HGX-Team/hypergraphx.

10 https://networkx.org/.