超图模式机：面向高阶交互的组合式标记化|单抗|子结构|子集|序列|标记化|编码器

超图模式机：面向高阶交互的组合式标记化

Hypergraph Pattern Machine: CompositionalTokenization for Higher-Order Interactions

https://arxiv.org/pdf/2605.16527v1

摘要

超图对驱动现实世界决策的高阶关系进行建模，范围涵盖从药物处方到推荐系统。此类数据中一个超出成对关系表达能力的核心结构信号是交互组合性（interaction compositionality）：即一个高阶关系相对于其观测到或未观测到的集合而言，是组合的（compositional）、涌现的（emergent）还是抑制的（inhibitory）。在多药并用（polypharmacy）场景中，治疗方案决定了一种药物应该被停用、保留还是排除：一个组合性的药物三元组可以被安全地简化，一个涌现性的三元组需要所有药物共同作用，而一个抑制性的三元组则标记出一种破坏了现有交互的药物。然而，现有的超图学习方法仅仅在观测到的超边上进行消息传递，使得这种组合信号未被建模，导致危险的药物组合漏网并被误分类。为此，我们提出了超图模式机（Hypergraph Pattern Machine, HGPM），将范式从消息传递转变为学习子集的组合模式。它对组合子集进行标记化（tokenize），将它们组织在一个包含关系的有向无环图（inclusion DAG）中，并在掩码重构（masked reconstruction）任务下训练一个感知包含关系的 Transformer。在十个超图基准测试中，HGPM 的表现匹配或超过了最先进的方法。值得注意的是，在一个真实的不良事件预测案例中，HGPM 在特征相同的候选者中正确识别出了抑制副作用的药物添加，这是现有方法无法做出的区分。代码和数据位于 https://github.com/KryieZhao/HGPM.git。

1 引言

超图 [17, 10, 54, 49, 18, 32] 对高阶关系进行建模，例如药物相互作用、推荐系统、知识库。超图数据携带了一种成对图 [27, 53] 无法表达 [20, 5, 4] 的结构属性：即一个高阶交互相对于其观测到的或缺失的集合而言，是组合的、涌现的还是抑制的（图 1）。我们将这种属性称为交互组合性。然而，现有的方法 [64, 2, 13, 43] 仅在观测到的超边上传播消息，使其未被建模。我们要论证的是，组合性是超图学习的自然学习目标。在这项工作中，我们相应地将学习对象从在观测超边上的监督转变为在组合、涌现和抑制转换模式上的监督。

多药并用 [50, 11] 使这一点具体化。评估多药方案的临床医生需要区分三种模式。如果一对药物和完整的三元组药物都有效，第三种药物仅仅复合了现有的效果，处方可以被简化。如果只有完整的三元组有效而没有任何更小的子集有效，这三种药物是共同需要的，且没有一个可以被去掉。如果一对药物有效但添加第三种药物消除了效果，第三种药物主动破坏了现有的交互并且应该被排除。每种模式指向不同的处方。

值得注意的是，在 HODDI [60] 和 JADER [52] 药物相互作用数据集上，HGPM 在边分类和链接预测任务中均达到了最先进水平。除了基准测试得分，我们的案例研究表明，HGPM 能够在特征相同的候选药物中，正确识别出抑制副作用的药物添加。我们追踪了一份 FOLFOX 周围神经病变的报告，其中两种近乎相同的抗 EGFR/VEGF 抗体——帕尼单抗（panitumumab）和贝伐珠单抗（bevacizumab）——产生了相反的模式：帕尼单抗保留了副作用（组合的），而贝伐珠单抗则抑制了它。HGPM 正确地还原了这种分化，这是现有的基于相似性的方法无法做出的区分。

2 相关工作

基于消息传递的超图学习。 与图学习 [31, 70, 26, 42, 69] 类似，超图学习中的主流方法主要依赖于在观测到的超边上进行消息传递。以超边为中心的方法 [64, 13, 25, 10, 54, 33, 34] 通过关联关系在节点和超边之间进行聚合，最近的变体通过层（sheaf）、能量（energy）、框架（framelet）或高阶构造 [14, 55, 30, 62, 48] 来丰富传播过程。基于扩展的方法 [65, 17, 32] 将超图简化为成对图并应用标准的消息传递 [53, 27]，而单纯复形网络 [5, 16] 在 k-面上传播但需要子集闭包，从而排除了抑制性转换。因为所有这些方案都是在观测结构上进行消息传递 [51]，所以子集存在与缺失的联合模式并未在状态中表示。HGPM 偏离了这一范式，通过对观测到和未观测到的子集进行标记化，使该模式成为显式输入。

结构化数据的子结构标记化。 图学习中的一条平行路线用由带有结构注意力偏置 [67, 44] 的 Transformer 编码并通过掩码重构 [23, 61] 预训练的子结构标记序列来取代消息传递；最近的工作确立了子结构标记化作为图 [57, 56, 58, 59] 和时序图 [35] 上可扩展的替代方案。HGPM 将其扩展到超图：标记从子图模式转变为中心化的子集层次结构，监督从标记重构转变为组合、涌现和抑制模式。并发的超图基础模型 [18] 预训练了一个以顶点为中心的编码器用于跨语料库迁移，这与 HGPM 在子集层面的关注点是正交（独立）的。

高阶药物相互作用预测。 药物相互作用的计算建模在历史上是成对的：协同作用估计 [41, 66]、副作用分类 [71, 46] 和基于子结构的药物-药物相互作用（DDI）[39, 9]。最近的一条路线通过排列不变池化 [40]、潜在组合类型 [38] 或简化为成对目标的超图网络 [47]，将其扩展到任意大小的组合，其中 HODDI [60] 和 JADER [52] 大规模提供了高阶药物效应数据。这两条路线都将一个组合编码为单一观测并对其效应进行评分，而没有将其与其子集和相邻超集的指示符进行对比，这正是 HGPM 旨在恢复的区别。

3 问题设置

4 超图模式机

4.1 组合式标记化

4.2 感知包含关系的自注意力

预训练的编码器通过轻量级 MLP 读出层和端到端微调，迁移至节点级和边级下游任务，完整的读出层定义见附录 C.3。

5 超图基准测试上的通用性

5.1 设置

我们遵循 Chien 等人 [10] 和 Wang 等人 [54] 建立的基准套件，在八个标准超图节点分类基准上进行评估：四个同配（homophilic）基准（Citeseer、Pubmed、CoraCA、DBLP-CA）和四个异配（heterophilic）基准（Congress、Senate、Walmart、House），涵盖共引、合著、共同购买和政治合作领域，采用 50/25/25 的划分（详见附录 D）。我们将 HGPM 与一组全面的模型进行比较：MLP、CEGAT [10]、HGNN [17]、HyperGCN [64]、HNHN [13]、UniGCNII [25]、AllSet [10]、ED-HNN [54]、SheafHyperGNN [14]、PhenomNN [55]、FrameHGNN [30]、KHGNN [62] 和 HealHGNN [48]。对于 HGPM，我们报告了从头训练的 HGPM（无预训练）和先预训练后微调的变体。HGPM 的超参数通过每个数据集的随机搜索进行调优；详细信息见附录 E.1。所有结果均报告为十次随机种子下的平均测试准确率。尽管在子集标记序列上运行，HGPM 在单个 A40 GPU 上训练效率很高：在较小的基准测试（如 Cora-CA、Citeseer、Senate）上，预训练在 2 小时内完成，微调在 10 分钟内完成；在较大的基准测试（如 Walmart）上，完整的预训练和微调流程在 5 小时内完成。

5.2 主要结果

表 1 报告了八个基准测试上的节点分类准确率。HGPM 在八个数据集中的六个上取得了最佳的测试准确率，平均排名为 1.6，远远领先于第二强的基线（HealHGNN，平均排名 = 2.9）。差距在异配基准测试（Senate、Walmart、House）上最大，在这些测试中消息传递方法在结构上表现挣扎，这表明包含 DAG 表示能够干净地迁移到子集结构偏离纯粹同配性的超图上。预训练做出了有意义的贡献：移除它会使 HGPM 的平均排名从 1.6 下降到 6.4，使其与最近的最先进编码器持平，这证实了掩码子集重构目标提取了超出从头训练所能提供的组合信号。综上所述，这些结果表明包含 DAG 标记化器是一种通用的超图表示。

5.3 模型空间与见解

HGPM 展示了六个设计维度（子集标记、包含 DAG 边、标记编码器、结构注意力偏置、预训练重构目标和标记序列顺序），在表 2 中进行了联合总结；每个维度的数值讨论详见附录 F。

见解 1：组合结构必须是显式的，而非推导的。 三个独立的架构层，即标记构建（表 2a）、边选择（表 2b）和注意力偏置（表 2d），汇聚于同一结论：COMP/EMER/INHIB 模式必须被注入到输入中，而不是由编码器去恢复。在异配数据上，中心化子集标记最决定性地击败了原始超边；中心锚定的包含边实质上优于数量相同的随机边，因此包含 DAG 的内容远比其密度重要；且公式 (4) 中的组合偏置 b comp bcomp 单独就在每个基准测试中恢复了约 75% 的全偏置差距，这是设计空间中最稳健的发现。线性化探测（表 2f）反向证实了这一图景：拓扑信号通过注意力偏置流动，而不是通过位置嵌入 [67, 44]，因此组合性是一种偏置侧属性，而非序列侧属性。

见解 2：归纳偏置的对齐比模型容量更重要。 错误的归纳偏置比完全没有标记间交互更糟糕，且这一模式在两个独立的层级上重复出现。在子集标记编码器（表 2c）中，GRU 基线在每个数据集上的表现甚至不如平均池化，因为它对排列不变的子集标记集强加了顺序 [68]；因此，包含感知 Transformer 相对于原始 Transformer 的优势在于包含感知的细化，而非额外的容量。便选择消融（表 2b）从反面展示了同样的动态：与相邻包含边数量匹配的随机边表现远逊于中心锚定的边，因此容量匹配但偏置未对齐的连接使得大部分信号未被利用（遗漏在桌面上）。在四个架构轴 (a)–(d) 上，异配基准测试受到的影响大约是同配基准测试的 1.6–2 倍，证实了 HGPM 的价值恰恰在于消息传递方法结构性失败的地方最大。

6 药物相互作用上的组合性

6.1 设置

我们在两个药物警戒生态系统上评估 HGPM，它们的报告惯例、药物词汇表和标签分布存在显著差异，因此强大的跨语料库性能反映了对真实不良事件监测在不同司法管辖区遇到的异质性的鲁棒性。HODDI [60] 源自美国 FAERS，涵盖 1,821 种药物和一个具有密集单药监督的分层 1,710 类副作用本体；JADER [52]，由日本 PMDA 维护的日本不良药物事件报告数据库，涵盖 4,230 种药物，标签空间更为集中，保留了 100 个类别（每个数据集的统计数据见附录 D.2）。每个数据集支持两个任务：边分类，预测观察到的药物组合的主要副作用类别；以及链接预测，一个区分观察到的组合与构造的负样本的二分类任务。两者均使用 50/25/25 的随机训练/验证/测试划分。我们将 HGPM 与目前应用于药物相互作用建模的方法谱系上的基线进行比较：将方案聚合为药物袋（bag-of-drugs）的扁平编码器（MLP、GAT [53]、GCN [27]）以及将每个方案视为原子超边的超图编码器（HGNN [17]、AllSetTransformer [10]、ED-HNN [54]、KHGNN [62]）。对于边分类，我们报告 F1 和 AUROC；对于链接预测，我们报告 AUROC 和 AUPRC。所有指标均在十次随机种子上取平均。

6.2 主要结果

表 3 报告了两个临床意义不同的查询：边分类（上市后分流：哪个副作用类别主导了观察到的方案）和链接预测（筛查：候选组合是否与安全相关）。HGPM 在所有八个指标列中取得了最佳成绩（AR = 1.0，领先于 KHGNN 的 2.4 和 ED-HNN 的 3.3）。在饱和的 HODDI 基准上，HGPM 将边 F1 从 90.5 提升至 92.9；在更难的 JADER 上，其药物词汇量增加了一倍多（4,230 对 1,821），链接 AUROC 从 59.6 提升至 63.2。收益与方案难度相关，而不是集中在饱和监督上，这表明归纳偏置在发挥实际作用。原因在于药理学：k 药方案的副作用特征并非其成员单药特征的并集，因为其中的成对子方案带有不同的协同、拮抗或剂量调节特征 [11, 50]，而完整方案继承了这些特征。扁平超边和团扩展编码器将这种内部结构坍缩为一个单一对象；HGPM 的包含 DAG 将每个观察到的低阶子方案保留为一等信息源，反映了临床医生在面对新型多药并用时所采用的组合推理。

6.3 案例研究

我们以一个多药并用的案例研究作为结束。一份 JADER [52] 周围神经病变报告记录了一名接受 FOLFOX [12]（奥沙利铂、氟尿嘧啶、亚叶酸钙）治疗的患者，其神经毒性主要由奥沙利铂 [8] 主导。添加第四种药物需要区分是保留副作用的添加还是抑制副作用的添加（图 4a）。三个候选药物在 JADER 中与该核心共同出现：帕尼单抗（panitumumab）、贝伐珠单抗（bevacizumab）和卡培他滨（capecitabine）。帕尼单抗和贝伐珠单抗在特征相似度编码器看来几乎完全相同：两者都是同一药物特征簇中的单克隆抗体（图 4b）。然而数据记录了相反的结果：FOLFOX + 帕尼单抗表现出周围神经病变（标签 1，COMP），而 FOLFOX + 贝伐珠单抗和 FOLFOX + 卡培他滨则抑制了它（标签 0，INHIB）。特征相似度预测器无法解决这一问题；这种对比只能从 3 药物子集及其 4 药物超集的联合观察模式中读取。

为了支持临床决策，我们在 HGPM 预训练编码器的顶部训练了两个头：一个在 {COMP, EMER, INHIB} 上的关系头，用于对候选方案交互进行分类；以及一个在 JADER 副作用词汇表上的不良事件头，用于对产生的毒性进行排序。关系头正确地分离了这三个分支（图 4c）：帕尼单抗的 COMP = 0.78，贝伐珠单抗的 INHIB = 0.69，卡培他滨的 INHIB = 0.77。贝伐珠单抗在特征上与帕尼单抗相似，但被标记为抑制剂，这是从指示符对结构而非药物嵌入中读取的，而特征相似度基线则将两种抑制剂都坍缩到组合类别上（图 5）。超越二分类，不良事件头（图 4d）在没有任何临床标签的情况下恢复了每个候选药物的药物类别特征：帕尼单抗的周围神经病变，抗 VEGF 贝伐珠单抗的高血压，以及氟嘧啶类卡培他滨的手足综合征。基线将所有三个坍缩到一个共享的神经病变先验上（图 6）。

7 结论

我们提出了 HGPM，这是一个超图学习框架，它将监督从超边的存在转移到交互组合性：即区分高阶关系与成对关系的子集存在与缺失的联合模式。HGPM 将子集标记化为包含 DAG 的节点，并赋予带有组合标签的边，并在掩码重构目标下训练一个感知包含关系的 Transformer。在八个超图基准测试和两个药物相互作用语料库上，HGPM 的表现匹配或超过了最先进的方法。目前仍存在两个局限性：(1) 包含 DAG 随阶数呈组合级增长，导致计算难以处理；可以通过对子 DAG 进行采样来缓解该问题。(2) HGPM 是针对每个目标的：每次预测都会构建并处理其自身的 DAG，因此在大型图上进行全图推理需要逐节点采样。然而，由于学习到的组件是一个标准的 Transformer，现有的 Transformer 推理框架可以直接应用，从而保持实际成本可控。完整的讨论见附录 A。

原文链接：https://arxiv.org/pdf/2605.16527v1