A machine learning approach to predicting dynamicalobservables from network structure

从网络结构预测动力学可观测量的机器学习方法

https://royalsocietypublishing.org/rspa/article/481/2306/20240435/66122/A-machine-learning-approach-to-predicting

打开网易新闻 查看精彩图片

从结构特征预测给定动力学过程的结果,是网络科学中一个尚未解决的关键挑战。该目标受限于复杂系统中结构与动力学之间存在的非线性、关联性及反馈效应等困难。本研究提出一种基于机器学习算法的方法,为理解网络结构与动力学之间的关系迈出了重要一步:具体而言,该方法仅凭网络结构即可预测——(1)疾病从单一节点出发的传播规模;(2)由Kuramoto振子构成系统的同步程度。我们揭示了实现此类预测的关键拓扑特征,并对网络指标的重要性进行了排序,其准确度远超以往研究:对流行病传播而言,k-核(k-core)起决定性作用;而对同步性而言,介数中心性(betweenness centrality)与可达性(accessibility)是与振子状态最相关的度量。

对所有网络,我们发现随机森林均能以高精度预测疫情暴发规模或同步状态,表明网络结构在传播过程中起着根本性作用。本方法具有普适性,可应用于几乎所有在复杂网络上运行的动力学过程。此外,本研究是将机器学习方法用于揭示复杂网络系统中涌现动力学模式的重要一步。

关键词:复杂网络,机器学习,动力学过程

  1. 引言
    现代网络科学已成功表明:恰当地刻画系统组分间的相互作用模式,对理解其功能至关重要[1–5]。然而,探究支配系统结构与功能关系的规律仍是一项艰巨挑战。实现这一目标不仅要求我们评估特定结构模式对网络动力学的影响,更需在仅掌握不完整、且常含噪声的结构信息前提下,预测其动力学结果。这一问题绝非微不足道:从已知结构过渡到预判系统动力学响应,意味着必须厘清节点响应的非线性、由复杂连接模式引发的时空关联,以及交互所产生的反馈等多重困难。

此外,众所周知,网络性质对动力学系统的影响方式各异——换言之,某些性质对某一动力学过程的影响远大于其他性质。例如,在疾病传播情境中,度分布对系统临界特性(即是否存在趋近于零的传播阈值)起决定性作用,而关联性影响则相对次要[5, 6];类似结论亦适用于谣言传播[7, 8]与同步现象[4, 9]等其他动力学过程。识别出对系统动力学起关键作用的网络性质,不仅能提升动力学预测的准确性,还可为应对拓扑变化或实施控制干预、从而引导系统达成期望的全局状态,提供可操作的响应策略。其应用涵盖:在传染病动力学中识别关键传播者与核心传播节点[10],以及调控电网、电子电路和神经系统的同步水平[4]。

本文旨在应对上述两大挑战:
其一,我们提出一种方法论,可对两类典型动力学过程(疾病传播与同步)的多种宏观可观测量进行预测;
其二,我们明确了实现此类高精度预测所依赖的关键拓扑性质。具体而言,我们构建了一种通用方法,用于预测复杂网络中动力学过程的相关变量——即Kuramoto振子的同步程度,以及易感-感染-恢复(SIR)模型中的疫情暴发规模;同时评估了各类网络性质在预测这些动力学变量时的重要性。例如,我们验证了k-核与暴发规模具有最强关联性,印证了先前研究结论;但仅靠该指标仍不足以实现准确预测。我们指出:并无单一指标能有效识别主要传播者,而需多种指标组合。对于同步问题,介数中心性(betweenness centrality)与可达性(accessibility)与振子状态(即部分/全局相锁定或非锁定)关联最为密切;但各指标重要性排序随同步程度变化而变化。

本方法具普适性,可拓展应用于其他需从节点子集及其动力学出发预测随机动力学变量的场景(如[8, 11])。本文所提出的方法为借助现代机器学习技术,深入探索复杂系统的结构与动力学关系开辟了新路径。

  1. 机器学习模型构建

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

  1. 结果与讨论

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图2展示了模型(方程2.2)对以下六类网络预测的疫情暴发规模:(i) 美国航空运输网络(仅含主要机场,N=500个机场,2002年,平均度〈k〉=11.9条边/机场)[21];(ii) Hamsterster社交网络(N=1788名用户,平均度〈k〉=13.95条边/用户)[22];(iii) 政治博客网络(N=1222个博客,平均度〈k〉=27.4个超链接/博客)[23];(iv) Bitcoin Alpha网络(N=3775名用户,平均度〈k〉=7.5个连接/用户)[24];(v) 某大型欧洲研究机构的电子邮件数据(N=986名用户,平均度〈k〉=32.6个连接/用户)[25];以及(vi) Gnutella点对点文件共享网络(N=6299台计算机,平均度〈k〉=6.6个链接/计算机)[25]。对于所有网络,我们发现随机森林能以高精度预测每个节点的暴发规模,表明网络结构在传播过程中起着根本性作用。

打开网易新闻 查看精彩图片

我们还将随机森林方法与传统的多元线性回归模型进行了比较。如图3所示,对于不同的传播概率β值,随机森林在决定系数 (衡量自变量对因变量方差解释程度,取值范围0至1,值越高表示拟合越好)方面提供了更精确的结果。深度神经网络给出的结果与随机森林相似。

打开网易新闻 查看精彩图片

优化[26]。重要的是,随机森林算法还能量化各特征的重要性。本质上,该重要性是通过衡量特征在构建决策树时降低不确定性的有效性来计算的。随机森林提供的所有特征重要性值之和为1,代表了每个度量对预测估计量贡献的百分比。

图4展示了当疫情暴发规模的估计被分解为特征向量中所用各网络度量贡献函数时所得结果。我们可以看到,每项度量的重要性取决于感染概率β。此外,对于大多数网络,k-核是预测暴发规模最决定性的特征——这一结果与先前关于网络中关键传播者的分析一致[7]。同时,可达性(accessibility)在美国航空运输网络和Gnutella网络的传播能力预测中也发挥重要作用,这已在文献[10]中得到验证。然而,各度量的贡献(影响力)强烈依赖于网络类型。例如,在电子邮件网络中,度(degree)与k-核同样重要;但在Hamsterster和政治博客网络中,k-核则起决定性作用。

打开网易新闻 查看精彩图片

因此,不存在单一指标可识别此类主要传播者,而需综合多个指标共同作用。这种网络属性的影响还依赖于传播概率β。因此,我们的分析比以往研究(如[7,10])更具普适性,并显著提升了对最具影响力传播者的识别能力。本方法允许同时比较任意数量网络属性的影响——即当它们的作用被一并考虑并组合使用时,可使预测效果更优。

(b) 同步现象

Kuramoto模型(KM)是研究同步现象的一个典范模型[4]。在复杂网络中,KM由以下方程组描述:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

对于较小的耦合强度,可达性(accessibility)度量在预测中起关键作用;然而,随着 λ λ 增大,PageRank中心性在预测节点状态时扮演更重要的角色。事实上,PageRank与可达性是与振子状态最相关的两项度量。

  1. 结论

综上所述,我们已证明:仅通过少量节点提取的结构特征,即可有效估计复杂网络中的动力学结果。本文提出的方法具有高度普适性,可精准适用于两类截然不同的动力学过程——疾病传播与耦合振子同步。本研究成果对网络上动力学过程的分析具有重要意义,并为仅凭结构信息预测系统动力学行为开辟了新路径。

本工作对复杂网络动力学研究具有重要启示,且具备多方面拓展潜力:例如,可将该方法应用于合作演化[29]、谣言传播或其他流行病模型[30]的研究;在时序网络[31]中,可用于预测未来连接关系及动力学过程的演化;在自适应动态网络[32]中,可预测底层动力学过程如何驱动网络结构演变;还可进一步探究网络中多种动力学过程共存且相互作用的情形[33,34]——如谣言对疫情传播的影响,或合作行为对观点演化的作用;最后,本文方法亦可拓展至高阶结构网络[35,36]研究,从而揭示单纯复形(simplicial complexes)等高阶拓扑对动力学演化的影响。

总之,借助机器学习研究复杂网络中的动力学过程,有助于深入理解结构与动力学之间的内在关联,从而通过调控网络结构实现对动力学过程的有效引导与控制。本研究具有一般性,可广泛应用于各类动力学过程与复杂网络,包括时序网络、多层网络、自适应网络以及具高阶结构的网络。

https://royalsocietypublishing.org/rspa/article/481/2306/20240435/66122/A-machine-learning-approach-to-predicting