化学中的高阶结构:超图重塑分子与反应†
Higher order structures in chemistry: hypergraphs reshape the molecule and the reaction†
https://pubs.rsc.org/en/content/articlepdf/2026/dd/d5dd00533g
化学系统包含超出传统基于图的模型二元约束的高阶关系。尽管图论长期以来支持分子和反应的数字化表示,但许多基本化学现象——如多中心键合、芳香性、协同相互作用,以及反应固有的集合论性质——无法通过成对编码来捕捉。本文引入了超图和一系列扩展的高阶数学结构“族”,作为建模分子结构和反应网络的统一框架。分子超图自然地捕捉多原子相互作用,而有向超图则为反应提供了数学上忠实的表示,即将反应视为任意物质集合之间的变换。更复杂的变体——包括有序、有向、二元和有向有序超图——使得能够纳入额外的化学信息,例如物质层面的原子排序、配体 - 口袋亲和力和多孔材料中的空腔组织,以及反应层面的毒性和经济约束。超图谱理论、随机模型和高阶网络统计的最新进展开辟了新的化学、数学和计算途径。这些发展与新兴的机器学习证据相吻合,表明基于超图的分子表示可以优于基于图的模型,甚至优于 3D 坐标模型。通过概述超图方法的能力及其当前局限性,本文化学系统包含超出传统基于图的模型二元约束的高阶关系。尽管图论长期以来支持分子和反应的数字化表示,但许多基本化学现象——如多中心键合、芳香性、协同相互作用,以及反应固有的集合论性质——无法通过成对编码来捕捉。本文引入了超图和一系列扩展的高阶数学结构“族”,作为建模分子结构和反应网络的统一框架。分子超图自然地捕捉多原子相互作用,而有向超图则为反应提供了数学上忠实的表示,即将反应视为任意物质集合之间的变换。更复杂的变体——包括有序、有向、二元和有向有序超图——使得能够纳入额外的化学信息,例如物质层面的原子排序、配体 - 口袋亲和力和多孔材料中的空腔组织,以及反应层面的毒性和经济约束。超图谱理论、随机模型和高阶网络统计的最新进展开辟了新的化学、数学和计算途径。这些发展与新兴的机器学习证据相吻合,表明基于超图的分子表示可以优于基于图的模型,甚至优于 3D 坐标模型。通过概述超图方法的能力及其当前局限性,本文论证了高阶数学结构将成为下一代数字发现的核心,从而实现更忠实的化学复杂性表示,并促进化学、数学和计算机科学之间更深入的整合。了高阶数学结构将成为下一代数字发现的核心,从而实现更忠实的化学复杂性表示,并促进化学、数学和计算机科学之间更深入的整合。
1 引言
化学的特征在于其关注多个尺度上物质的组织、行为和转化。纵观其历史,化学家一直依赖高度的抽象来解释、组织和系统化其学科实践。1 从编码原子关系的分子模型,到包含集合和顺序关系的周期系统,2 抽象框架长期以来一直是推进化学知识必不可少的。
基于化学与数学抽象之间的这种历史相互作用,本视角文章引入了超图作为一种数学结构,特别相关于解决分子和反应层面的化学问题。在此过程中,它旨在拓宽化学与数学之间正在进行的对话,并指向化学理论、计算和实践的新方向。
2 高阶结构
Gerhardt,这位有远见的 19 世纪化学家,3–5 产生了涉及化学两个基础支柱的科学成果。通过他对物质的类型表示,他帮助奠定了后来成为分子结构理论的基础,4 这是一个概念框架,仍然是化学语言的核心,也是我们将化学知识编码用于计算分析的方式的核心。Gerhardt 还促进了化学反应的现代表示,即现在的标准形式 A + B → C + D。‡ 从当代数学视角来看,这些贡献突出了关系在化学中的基本作用,从原子到分子层面,即从物质到反应。
19 世纪下半叶进一步加强了化学与关系数学之间的联系。Sylvester,一位领先的 19 世纪数学家,认识到他同时代化学家的分子结构与数学家后来称为图的东西之间的联系。7,8 在这种联系中,原子对应于顶点,化学键对应于边(顶点对),这种对应关系 Sylvester 本人称之为“化学图”。8 这一见解在化学结构理论和数学图论之间建立了一座持久的桥梁,9,10 产生了大量研究,并导致了从结构预测到 QSAR(定量结构 - 活性关系)建模的应用。1,11–13
当化学家开始使用图来建模物质的反应性时,类似的想法出现了,最终在 20 世纪导致了对反应网络的研究,其中物质被表示为顶点,它们的反应性关系被表示为边。14–17 这一数学框架是多项关于代谢网络的研究以及跨越化学空间的巨大网络研究的基础。14,15,18
尽管取得了这些成功,基于图的模型面临着内在的局限性。正如下一节所讨论的,并非所有分子都可以简化为二元原子关系。芳香族化合物、多中心键、有机金属物种以及许多其他系统需要原子集合的相互作用,而不是简单的对。每当两个原子集合相互作用时——尤其是当这些集合中至少有一个包含多个原子时——严格意义上的图是不够的。
化学反应表现出类似的局限性:它们本质上是集合论实体。一个反应将一组反应物与一组产物联系起来,并且这些集合中的每一个经常包含不止一种物质。通过二元边来表示这样的变换不可避免地导致基本化学信息的丢失或扭曲。
在转到下一节之前,因此重要的是强调化学从根本上是由高阶关系塑造的。该学科远远超出了二元相互作用:分子结构和化学反应性都通常依赖于原子集合和物质集合的集体行为。高阶关系不是罕见的例外,而是分子结构和化学反应性的自然特征,认识它们对于开发真正反映化学现实的数学框架至关重要。
2.1 图、超图和分子结构
本节概述了化学图论的成就和约束,然后转向超图作为一种能够编码高阶原子关系的自然推广。
2.1.1 分子图。分子是一组以特定关系彼此站立的原子集合,图为这种关系结构提供了一个直接的模型。形式上,图 G = (V, E) 由一个顶点集 V 和一个边集 E 组成,其中 V 代表原子,E 代表化学键。例如,对于甲烷,V = {C, H¹, H², H³, H⁴} 且 E = {{C, H¹}, {C, H²}, {C, H³}, {C, H⁴}}(图 1a,为简单起见,H 原子未标记)。因为边是无序对,键 {C, H¹} 等价于 {H¹, C}。
分子图理论的一个关键优势,对于计算编码和应用至关重要,是图可以被代数化。一旦被编码为矩阵——通常是邻接矩阵或关联矩阵——图就变得适合线性代数运算。这使得能够推导出特征值、特征向量、谱、路径计数、循环检测以及许多其他具有化学解释的数学定义量。从这些表示中涌现出了分子描述符的广阔领域,现在数量已达数千个,形成了 QSAR 建模的骨干。
尽管取得了这些成功,一个根本性的限制仍然存在:并非所有分子都可以仅使用二元原子关系充分表示。这种不充分性在 19 世纪对于苯和其他芳香族系统已经很明显,并在 20 世纪中叶对于乙硼烷和二茂铁重新出现。在现代背景下,如受体 - 配体复合物,仅二元的表示甚至更加受限。
在所有这些情况中——芳香性、多中心键合、有机金属键合以及蛋白质-配体识别——本质特征是它们的集合论性质:苯涉及六个原子集体相互作用;乙硼烷中的桥键涉及三个原子;二茂铁中的每个环戊二烯基环作为一个五原子单元与 Fe 相互作用;蛋白质口袋与一组配体原子相互作用(图 1)。这些相互作用在不丢失信息的情况下无法简化为原子对。
认识到分子结构通常依赖于高阶原子关系,这是超图方法的核心。超图在 20 世纪 90 年代出现在化学文献中,11,28,31–33 最近被重新发现——既作为多原子相互作用的忠实数学模型,也作为强大的计算框架。11,28 本视角文章的目标之一是鼓励化学家、数学家和计算机科学家重新审视超图作为分子结构的自然表示。
2.1.2 分子超图。数学家们长期以来一直在研究能够编码超越成对交互的关系的结构。34,35 其中一种结构是超图,它通过允许其边——现在称为超边——包含任意数量的顶点来扩展图。超边中的顶点数量——其大小——可以从 1 到超图的所有 m 个顶点。这种灵活性与图的严格大小为 2 的边形成对比。
基于这些矩阵表示,超图谱理论已经开始涌现,涵盖了拉普拉斯算子、特征值、特征向量及相关不变量。值得注意的是,与化学的联系早在 20 世纪 90 年代就被认识到,当时提出了首批基于超图的分子描述符。这些发展与分子图论的轨迹并行,在分子图论中,代数描述符成为了 QSAR 研究的核心。
最近的机器学习工作进一步加强了超图公式化的理由。超图神经网络在预测分子性质和反应性方面,已显示出相对于基于图的模型——甚至相对于某些基于 3D 坐标的表示——的明显优势。这些方法利用了超图原生编码多原子相互作用的能力,而不是从成对数据中间接推断它们。
曾经将图论从数学奇闻转变为理论和计算化学核心工具的轨迹,现在似乎正在分子超图上展开。它们编码高阶原子相互作用的能力使其成为化学建模的自然延伸。随着超图数学和计算的快速发展,该框架为化学家、数学家和计算机科学家未来的合作提供了肥沃的领域。
然而,化学既包含物质也包含它们的转化。正如超图丰富了分子结构的建模一样,它们也为化学反应和反应网络提供了富有表现力的表示。这是下一节的重点。
2.2 图、超图和化学反应
自 Gerhardt 时代以来发展的化学反应代数表示,3 现在通常通过图论的视角来解释。图使得对反应模式、逆合成路径和化学网络的大规模分析成为可能。14–17 然而,与分子结构一样,图的二元约束对化学转化的忠实编码施加了限制。本节概述了基于图的反应模型的可能性和不足之处,并展示了高阶结构——特别是有向超图——如何提供适当的数学推广。
2.2.1 反应图。多年来,已经提出了几种数学框架来建模化学反应。14–18,27 有些描述了反应进程中浓度变化的动力学,而另一些则关注连接物质及其作为反应物和产物角色的关系结构。后者一直是图论建模的自然领域,它构成了研究大型化学系统中反应动力学的基础结构。18
最简单且最广泛使用的方法之一是反应物 - 产物模型。k 在这种表示中,物质 B 由 A 形成的转化被编码为 A → B。27 形式上,这种关系被表示为一条弧,或有向边,(A, B)。这种构造已在代谢、合成和一般化学反应网络的研究中被广泛采用。14–18
然而,该模型遭受了其二元性质固有的根本性限制。27,47–49 考虑反应 A + B → C + D。反应物 - 产物模型将这种转化表示为四条弧 A → C, A → D, B → C, B → D,产生图 G = (V, E),其中 V = {A, B, C, D} 且 E = {(A, C), (A, D), (B, C), (B, D)}(见图 2 中的反应 r1)。
正如文献 27 中所讨论的,从该图恢复反应会导致多种虚假的解释,所有这些解释都与图一致但与化学不一致。从 G 中,人们不仅可以推断出真实的反应 A + B → C + D,还可以推断出单分子反应 A → C, A → D, B → C 和 B → D,以及人为的双分子反应 A + B → C 和 A + B → D。这些反应的产生是因为该模型将每个真实反应分解为单个物质之间的成对关系,忽略了反应物共同作用这一基本事实。
在网络层面的分析中,后果变得更加成问题。在图 2 所示的网络中,图模型错误地预测即使 A 不存在,物质 D 和 G 仍然可达,这是由于存在诸如 B → D, B → C → G 的路径。然而,图中顶部反应所体现的基础化学清楚地表明,没有 A 这些产物都无法形成。问题的根源在于概念性的:化学反应关联的不是单个物质,而是物质集合。
形式上,反应将一组反应物映射到一组产物。反应物 - 产物模型仅忠实地表示重排反应,即两个集合的基数均为 1 的情况。但对化学文献的经验分析表明,化学家绝大多数报告的反应涉及一到三个反应物和一个或两个产物。51 这种集合大小的多样性无法在图的二元框架中编码。
对化学反应的数学忠实表示需要一个能够容纳任意大小集合之间关系的框架。这正是有向超图所提供的,如下小节所述。
2.2.2 反应超图。自然捕捉化学反应集合论结构的数学框架是有向超图模型——这是有向图的推广,如反应物 - 产物表示中所使用的那样。有向超图将反应视为任意大小集合之间的关系,而不是单个物质之间的关系。
最近的发展已将经典网络统计扩展到有向超图,包括聚类系数、谱测度、曲率、最短路径、可沟通性和随机模型。其中一些已经应用于大型生化网络。例如,聚类系数揭示代谢网络的聚类程度远低于电子邮件网络等人造系统。谱中心性同样被用于研究生化网络、城市交通系统和命题逻辑数据库。
热力学约束最近已被纳入有向超图反应网络中,以识别完全由能量有利反应组成的路径。尽管取得了这些进展,但仍需进一步工作来统一方法,识别冗余,并确定化学网络是否具有将其与其他有向超图区分开来的结构特征。
另一个活跃的研究途径涉及反应超图的随机模型,类似于经典网络理论中的随机图模型。一种 Erdős–Rényi 类型的模型已被提出用于化学超图,使得经验网络与合适的零模型之间的比较成为可能。然而,许多著名的随机图模型——包括 Watts–Strogatz 小世界模型和 Barabási–Albert 优先连接模型——仍有待推广到超图设置中。超图独有且基于图的研究中缺失的一个关键变量是超顶点大小。这个额外的自由度是本质性的,必须纳入反应网络的任何统计或生成模型中。
总之,有向超图为编码反应和反应网络提供了一个数学上富有表现力且化学上忠实的框架。它们最近的数学发展为化学、数学和计算机科学相互作用下的未来研究开辟了许多途径,为大型化学网络(包括那些跨越整个化学空间的网络)的结构和组织提供了新鲜的视角。下一节将讨论扩展到具有化学相关性的进一步超图结构。
2.3 化学应用的超图结构族
在本节中,我介绍了一族通过推广图的不同方面而获得的数学结构,并概述了它们在化学中的潜在——在某些情况下已经得到证实——应用。
2.3.1 高阶结构族。图编码顶点之间的二元关系,即单顶点集之间的关系。在图论中,边对应于顶点的无序对(图 3)。因此,顶点在边中的隶属关系 signifies 它与恰好另一个顶点的关系。如果放宽这种隶属关系的概念,使得一个顶点可以与任意数量的其他顶点相关联,所得到的结构就是超图:顶点子集的集合。此外,如果允许在这种任意大小的顶点集之间建立二元关系,就得到了二元超图(图 3)。‡ 通过限制二元超图中的每个超顶点只包含一个顶点,就可以恢复普通图。图 3 中的所有结构都采用抽象形式 G = ( V , E ) ,其中 V 表示基础顶点集,而 E 根据具体结构而变化。
除了图、超图和二元超图之外,一旦引入顺序关系,就会出现更丰富的结构。一个熟悉的例子是有向图,它是通过赋予每个双元素边一个方向而获得的,从而产生弧(图 3)。如果允许任意大小的集合同时保留内部顺序结构,就得到了有序超图。§§ 因此,有序超图构成了 V 上的偏序集(posets)71 的集合。此外,如果允许在这些偏序集对之间存在顺序关系,结果就是有向有序超图(图 3)。移除超顶点内部的顺序就得到有向超图,57,72 而移除方向但保留内部排序则导致有序二元超图。给后者添加方向就重构了有向有序超图。这些相互关系是高阶结构之间态射的例子,其中一些如图 3 所示。
尽管通常没有明确认识到这一点,但许多化学系统已经表现出这些高阶结构的定义特征。在本节的其余部分,我讨论了几个例子,并强调了探索这些结构的数学如何加深我们对化学物质和反应性的理解。
2.3.2 化学作用中的高阶结构族
正如前面几节所讨论的,图和有向图长期以来一直是化学建模的核心。图构成了分子结构的传统数学表示(图 1a),而有向图通过编码诱导效应、键极化和电子流(图 4a),以及氢键等非共价相互作用(图 4b),细化了这一描述。73 图和有向图也被广泛用于表示反应网络。有向图通过弧的方向区分反应物和产物,而无向图则对这种区分保持中立——当只关注反应网络的连通模式而不是物质的角色时,这很有用。
超图提供了一种自然的方式来简化和驾驭化学复杂性。化学空间包含数百万种已知物质;51 因此分类至关重要。50,79 化合物类或反应类对应于化学空间超图中的超边。碱金属、卤素、内分泌干扰物和金属有机框架(MOFs)都是超边的例子。同样,反应类——如酰胺形成、Diels-Alder 环加成、Buchwald-Hartwig 偶联——构成了另一族超边。这些集合经常相交,因为分子或反应通常属于多个类,从而产生具有非不相交超边的超图。
在分子尺度上,当使用原子等价类或多中心键合模体来定义超边时,超图自然出现。因此,任何分子都可以建模为一个超图,其超边编码一般的 m 中心-n 电子键合模式(图 1)。
有序超图同样普遍存在。按原子半径或电负性对化学元素进行排序,在周期系统的超图中产生有序超顶点。在这种设置中,超顶点对应于化学元素族。当同时使用几个参数来表征化学元素时,就会出现偏序集,反映了不存在全序的情况。2 毒性排序、配体 - 口袋亲和力、电化学序列或光谱化学序列都构成有序超图。在分子水平上,键可以按电负性差异或极化率排序(图 4c)。蛋白质口袋也适合使用有序超图建模,其中产物包含按其与特定配体的相互作用强度排序的区域(图 4c)。MOFs 接受类似的处理,其中空腔可以按其主客体亲和力排序。80,81
周期系统除了是化学的标志外,还是一个具有丰富数学结构的化学对象。2,82 在这里,相应的超图结构是有向有序超图(图 3),其中超顶点是赋予内部顺序的元素族(例如,按原子大小或电负性),而超顶点本身也是有序的,正如在族趋势中清楚认识到的那样,如碱金属比卤素更具电正性。化学有向有序超图的另一个案例是通过取代度对化学品进行排序而产生的结果。83,84 在这种情况下,超顶点是具有相同取代度的化学品。kk
有向有序超图也自然出现在催化剂选择中。假设催化剂被分类为基于 Pd 和基于 Ni 的族(超顶点),具有重叠成员。额外参数——成本、毒性、可用性——诱导内部偏序集结构。超顶点之间的有向有序关系使得能够选择最有前途的催化剂类,之后内部排序识别出最佳候选者。因此,探索该模型的数学性质可能会改进在现实化学和外部约束下关于合成规划的 AI 驱动研究。
相同的框架支持逆合成分析和自动驾驶实验室中的决策。85 物质基于几个标准(毒性、溶解度、成本)形成偏序集,反应形成超顶点,而超顶点之间的有向顺序识别出优选的合成路线。
有向有序超图还模拟 MOFs 内空腔的排序(图 4d)。空腔(超顶点)按其吸附能力或可及性排序,而它们的内部顺序反映了由次级构建单元产生的立体和电子因素。
回到图 4,另一个超图结构是有向超图,正如前面所示,它为建模化学反应提供了严格的框架。46,51 它们还提供分子水平的见解,例如通过编码原子集之间的有向相互作用,如金属配合物中的 σ-给予和 π-反给予或 O₂ 与过渡金属的侧向结合(图 4e)。76,77,86
反过来,二元超图捕捉原子集之间的相互作用,对于键 - 键耦合特别相关。因此,这些超图结构构成了适用于不同光谱学应用的合适分子模型。例如,揭示模态耦合的振动光谱学,如 IR 和 Raman——例如,酯中 C=O 和 C-O 伸缩之间的耦合(图 4f)——可以在二元超图中找到自然的解释框架,其中相互作用的键成为关注的中心。同样,通过 NMR 光谱检测的长程自旋 - 自旋耦合(图 4f)在二元超图中找到合适的模型。
当目标是研究全局连通性而不是反应物 - 产物区分时,化学反应网络也可以建模为二元超图。这个二元超图模型最近被用于开发化学空间的随机模型。46
最后,当原子或原子团由多个参数表征时——连通性、构象状态、振动特征、机理作用、立体化学、电子结构——它们形成偏序集。这些偏序集之间的相互作用在多种化学现象中处于核心地位:蛋白质折叠过程中构象子态之间的耦合;87 通过非谐耦合的振动偏序集相互作用;88 约束多步路径的机理偏序集;89 支配非对映异构体稳定性的立体化学偏序集;90 以及其相互作用产生共轭或芳香性的电子结构偏序集。91 在所有这些情况下,化学行为源于多个相互作用偏序集的相互影响,每个偏序集编码分子组织的不同方面。这些情况适合用有序二元超图建模(图 4)。
3 结论
化学系统在分子和反应层面的建模传统上依赖于图。尽管这些结构已被证明极其富有成果,但它们也表现出明显的局限性。图本质上是二元的,因此难以捕捉分子结构和化学反应特有的多中心、高阶和情境依赖的相互作用。相比之下,超图自然地编码任意大小集合之间的关系,因此为表示化学复杂性提供了丰富得多的数学语言。
除了展示某些超图结构在化学中的应用,即作为化学反应模型的分子超图和有向超图外,本文还介绍了一系列其他超图结构,从有序超图到有向有序超图和有序二元超图,这些结构细化了对分子和化学反应的描述。
尽管具有优势,但基于超图的模型必须谨慎使用。与图一样,这些高阶结构捕捉了化学系统的选定方面——特别是它们的关系或拓扑组织——但它们本身并不编码所有化学相关信息。超图显著丰富了多原子和多分子关系的表示,然而每当三维几何细节至关重要时——例如量化 MOFs 中的空腔大小、表征蛋白质口袋或区分分子构象——必须纳入额外的结构信息。这种需求反映了基于图的分子表示的众所周知的局限性:将拓扑结构嵌入度量空间需要用加权顶点和边来补充(超)图,并且至关重要的是,需要明确的坐标系。在这种设置中,超图作为强大的关系支架,但几何信息必须通过适当的度量或空间增强来提供。
在化学中使用超图时的另一个谨慎要素与超图文献的相对新颖性有关。超图理论仍然是一个新兴且快速发展的领域,其术语尚未达到图论所享有的标准化水平。因此,同一数学对象在不同子领域可能带有不同的名称,而不同的对象可能被相似的术语所指代。因此,阅读超图文献需要密切关注定义,而不是仅仅依赖术语。这种概念上的异质性是一个挑战,但也反映了该领域充满活力和不断扩展的本质。
从计算角度来看,情况同样微妙。几种超图统计量可以映射到二部图的统计量,这有时允许转移高效的图论算法。然而,这种约简并非普遍适用。47 事实上,超图分析中的许多核心任务仍然计算量很大。例如,在加权超图中计算最短路径是 NP 难的。47 超图计算复杂性的更多例子在文献 92–94 中讨论。这些挑战对化学有直接影响,在化学中算法效率至关重要。一个恰当的例子是确定分子片段是否出现在较大结构中——这一任务在图论中简化为子图匹配,但在超图中变得相当复杂。95,96 理解和解决这些复杂性对于超图在化学中的实际应用至关重要。
正如本视角文章通篇所示,超图的数学和计算研究是一个活跃且快速发展的领域。当与本文介绍的更丰富和更复杂的超图结构相结合时——这些结构远远超出了经典超图,延伸到所谓的"高阶关系框架族"——挑战被放大了。仍有大量的理论和算法工作要做。解决这些问题不仅是数学和计算机科学的一个有前景的方向,而且化学也将从中受益匪浅。
另一个前沿涉及机器学习。最近的研究已经表明,分子系统的超图表示优于传统的基于图的模型和包含完整三维信息的模型。28 这些进展源于将图神经网络扩展到超图神经网络,28 后者可以利用成对模型无法获得的高阶结构信息。很自然地要问,如果将本文介绍的新颖超图结构——有序超图、有向超图和其他丰富形式——纳入新的机器学习架构中会发生什么。这样的发展可能会从根本上扩展化学发现模型的表示和预测能力。
总之,超图及其数学扩展为建模化学系统的丰富性和复杂性提供了一个强大的框架。它们与现代计算方法的整合,包括算法进步和机器学习,开辟了一条通往新一代数字发现工具的道路。通过拥抱这些高阶结构,化学获得了一种更深刻、更具表现力的数学语言——一种能够捕捉传统成对模型无法企及的复杂性的语言。
原文链接:https://pubs.rsc.org/en/content/articlepdf/2026/dd/d5dd00533g
热门跟贴