Generalized Poisson Dynamic Network Models
广义泊松动态网络模型
https://arxiv.org/pdf/2604.05838
摘要:
计数加权时序网络通常在边权重上表现出离散程度不均的现象,仅通过在条件均值中引入潜因子来刻画观测异质性无法对此作出完全解释。因此,我们提出了一类利用广义泊松分布的新型动态网络模型,以同时捕捉欠离散与过离散现象。我们考虑了三种不同的动态设定:潜因子动态、自回归动态与潜位置动态,并研究了这些随机网络的部分理论性质,揭示了离散参数对随机网络连通性的影响。在阐述参数识别策略后,我们提出了一套贝叶斯推断程序及相应的后验抽样算法。数值算例验证了所设计算法的有效性,并给出了在忽略离散程度不均时的模型误设偏差估计。随后,我们将新模型应用于已有文献中考察过的两个相关动态数据集:一组共享单车动态网络与一组动态媒体网络。研究结果凸显了显式建模过离散现象对于实现准确的样本内拟合与提升样本外表现的重要性。
关键词:过离散;集中不等式;贝叶斯推断;潜空间;可识别性。
1 引言
时序网络已在生物学(Pastor-Satorras 等 2015)、神经科学(Betzel & Bassett 2017, Váša & Mišić 2022)、经济学(Jackson & Watts 2002, Friel 等 2016)以及社会科学(Barberá 2015, Casarin 等 2025)等众多学科中引起了广泛关注(Holme & Saramäki 2012)。时序网络的显著特征在于节点之间的连接并非静态的,而是随时间发生变化。近年来,越来越多的研究开始聚焦于计数加权时序网络,即每条边的权重代表一个计数的动态网络(Sewell & Chen 2016)。实例包括在线媒体交互网络(Casarin 等 2025)、电子邮件通信网络(Yin 等 2017)、交通网络(He 等 2025)以及大脑连接网络(Zhang 等 2019)。已有充分证据表明,计数加权网络数据通常表现出过离散(例如见 Zheng 等 2006, Corsini & Viroli 2022)与欠离散(Lord & Mannering 2010, Lux 2020)特征。然而,许多建模方法往往忽略了这一特征,从而导致估计偏差和误导性推断。
本文的贡献是多方面的。首先,我们基于广义泊松(Generalized Poisson, GP)分布族提出了一种适用于整数权重网络的灵活模型,并推导了GP网络模型的理论性质,包括期望节点强度与节点中心性。其次,我们为广义泊松网络模型引入了三种动态设定。第三,我们提供了一个贝叶斯推断框架,以及一种高效的后验近似过程。所提出的近似过程通过广泛的模拟研究进行了评估,随后应用于两个实证案例。第一个应用聚焦于纽约市的共享单车数据(Citibike 2019),第二个应用考察了媒体交互网络的演化(Casarin 等 2025)。对这些数据的分析可在众多领域和社会层面产生重要影响。
关于权重分布,我们假设其服从GP分布。该分布族由Consul & Jain(1973a,b)引入,能够同时捕捉过离散与欠离散、超额峰态,并将泊松分布作为其特例。关于该分布的介绍,可参阅Consul & Famoye(2006, 第9章)及Famoye & Lee(2020)。GP分布在文献中已有深入研究,并广泛应用于健康与流行病学(Zamani 等 2016)、体育统计(Shahtahmassebi & Moyeed 2016),以及经济、金融与保险领域(Wang & Famoye 1997, Ambagaspitiya & Balakrishnan 1994, Famoye & Consul 1995, Famoye 等 2004, Lin 2004, Finner 等 2015)。
GP已成功应用于计数时间序列分析(Zhu 2012, Shahtahmassebi & Moyeed 2014, Chen & Lee 2016, Carallo 等 2024),并自然地出现在源自分支过程的随机图理论中(例如见 Aldous & Pitman 1998, Aldous 2004, Bertoin 2012)。与其他允许过离散和欠离散的分布族不同,GP在推导相关随机网络性质时保持了良好的解析可处理性。其他常用的计数数据模型,如负二项分布、泊松-伽马分布和泊松-对数正态分布,存在一定局限性:它们仅允许过离散,且在处理低样本均值和小样本时表现不佳。康威-麦克斯韦-泊松分布同样具有吸引力,因为它将泊松分布作为特例,属于指数族,并允许共轭分布(Boatwright 等 2006, Shmueli 等 2005)。然而,其矩不具备解析可处理性,这阻碍了其在网络模型性质解析研究中的应用。
关于模型的动态设定,我们提出了三种不同的公式,以不同方式捕捉时间依赖性。第一种设定引入了一个同时影响所有边的共同动态潜因子(例如 Bräuning & Koopman 2020)。第二种设定更为简约,并引入了网络强度的滞后度量。在此设定中,过去的全局网络特征影响当前的连接强度,从而在网络中产生自回归动态(例如 Tsikerdekis 等 2021, Jiang 等 2023)。最后,第三种设定假设了一个具有时变潜节点坐标的潜空间(Latent Space, LS)模型(Hoff 等 2002),这些坐标驱动了连接动态(Sewell & Chen 2016, Rastelli 等 2016, Artico & Wit 2023, Casarin 等 2025)。我们基于集中不等式(Vershynin 2018)推导了模型的一些理论性质(如节点中心性),这些不等式展示了离散参数如何影响随机网络的连通性。
我们采用贝叶斯推断框架,因为它通过数据增广原理和完全数据似然函数(Robert 2007),为处理非线性和潜变量模型提供了更大的灵活性,并能有效容纳预测中的不确定性(McCabe 等 2011)。我们提供了潜变量可识别性的充分条件,以及用于后验分布的高效马尔可夫链蒙特卡洛(MCMC)采样器(Robert & Casella 2013)。
Citibike(Citibike 2019)和媒体网络数据集(Schmidt 等 2018)提供了时序网络中离散程度不均与边持续性的两个实例。这两个应用表明,GP网络模型比泊松模型拟合效果更好,并能捕捉所考虑网络的显著全局与局部特征。
本文结构如下。第2节介绍了Citibike和媒体网络数据集,并阐明了网络权重中的离散特征。第3节介绍了所提出的广义泊松网络模型,提供了一些模型性质以及贝叶斯推断过程。第4节展示了模拟研究的结果。第5节说明了该模型在两个网络数据集上的性能。最后,第5节进行总结。(注:原文此处“Section 5 concludes”疑为排版笔误,按学术惯例应为“第6节”)
2 动态网络中的过离散现象
我们考虑两个与众多领域相关且对社会具有影响的数据集:Citibike数据集(Citibike 2019)和媒体网络数据集(Schmidt 等 2018)。虽然如前者这样的共享单车数据在交通(Noland 等 2016)、地理学(An 等 2019)、城市规划(Yu 等 2018)以及可持续性研究(Chen 等 2022)中受到关注,但如后者这样的媒体网络则与媒体与传播研究(Xu 2022)、政治科学(Eady 等 2025)以及计算社会科学(Del Vicario 等 2017, Cinelli 等 2021)密切相关。这两个数据集最近都引起了网络统计建模文献的关注(例如,参见 He 等 2025, Casarin 等 2025)。
Citibike数据集包含了纽约市任意两个Citibike站点之间的骑行信息,并可用于构建计数加权的对称时序网络,其中节点代表纽约市的社区,边代表社区之间共享单车连接的数量。媒体网络数据集则包含了法国、德国、意大利和西班牙的国家及地方新闻机构在Facebook上的活动信息,并可用于构建时序网络,其中节点代表新闻机构的页面,边权重表示在给定时间间隔内对一对新闻机构页面发表评论的唯一用户数量。
图1左面板报告了Citibike数据集与意大利媒体网络数据集在两个子时段内每条边的对数均值与对数方差的比较。相对于45度参考线,我们观察到一定的异质性:少数边的权重表现出欠离散,而大多数则表现出过离散。此外,有证据表明边的对数离散度与滞后1阶自相关之间存在关系(右面板)。这种行为在不同子时段内具有一致性。初步结果表明,有必要采用一种能够容纳不等离散性与动态特征的边缘条件分布。我们在补充材料(第C节)中报告了进一步的结果,这些结果不仅支持了Citibike和意大利媒体网络数据集的证据,也支持了法国、德国和西班牙媒体网络的证据。
3 GP动态网络模型
本节对GP(广义泊松分布)进行了定义,并推导了GP网络的一些性质。文中引入了GP模型类,并给出了相应的推断方法。本节相关结果的证明均置于补充材料(A节)中。
3.1 广义泊松网络
以下命题陈述了 GP 变量的次指数性质,并为矩生成函数的对数提供了一个有用的界。
过离散参数不仅对于每个时间点的随机图模型的性质至关重要,而且对于推断网络动态性质也至关重要。如下几节所示,先验地假设等离散( θ = 0 )可能会产生显著的设定错误偏差。
3.2 动态设定
控制趋势的平滑度(较小的值意味着基线密度变化缓慢,而较大的值允许更急剧的转变)。此类模型需要谨慎的推断过程,且计算成本不可忽略。这种设定与时间序列分析中常用的状态空间模型有关(例如,Xing 等 2010, Mazzarisi 等 2020, Bräuning & Koopman 2020, Buccheri & Mazzarisi 2024)。
3.3 先验分布与模型性质
3.4 参数可识别性
4 后验近似
我们推导了吉布斯(Gibbs)采样后验近似中所使用的全条件分布,并进行了模拟实验以评估我们算法的效率和有效性。此外,我们通过数值模拟证明,当将泊松模型应用于具有不等离散(unequal dispersion)的数据时,会出现显著的模型设定错误偏差(misspecification bias)和预测误差。
4.1 吉布斯采样器
可以增加一个额外的步骤,通过 MCMC 采样方案提供强度后验点预测和网络分布预测,具体遵循 Carallo 等人 (2024) 和 Chen & Lee (2016) 的方法。
我们在 C++ 中实现了 MCMC 算法,并利用 Rcpp 包 (Eddelbuettel 2013) 以便与 R 环境轻松集成。对于 GP 分布的随机数生成器和似然函数,我们改编了 VGAM 包 (Yee 2015) 中开发的代码。
4.2 近似效率与设定错误偏差
生成的,这些设定包含了动态潜因子、自回归动态和时变潜坐标。在所有设计中,MCMC 算法(5,000 次迭代,2,000 次预烧期,每 5 次抽样稀释一次)显示出良好的混合性和收敛性,这一点已通过图形诊断、有效样本量和 Geweke 检验得到证实。后验分布准确地恢复了真实的结构和离散参数,仅在最复杂的潜坐标设定中存在轻微偏差。总体而言,结果表明所提出的方法能够可靠地恢复潜在的数据生成参数。关于模拟实验的完整细节,请参见补充材料中的 B 节。
在泊松(上方面板)和 GP 设定(下方面板)下的后验分布(浅蓝色)以及一些特征参数的真实值。由设定错误的泊松模型引起的估计偏差清晰显现(上方面板与下方面板对比)。
5 应用
5.1 Citibike 数据集
在第一个应用中,我们考虑了 Citibike 数据集(Citibike 2019),该数据集包含了纽约市 Citibike 共享单车服务任意两个站点之间的骑行信息。该数据集的一部分——2019 年的一个工作日——此前已在 He 等人(2025)中进行了研究,作者在那里提出了一种半参数动态泊松潜空间(LS)网络模型。在本应用中,我们以月度频率考虑了 2019 年全年的共享单车活动。我们将任意两个站点之间的骑行计数聚合到邻里制表区(Neighborhood-Tabulation-Area, NTA)级别。因此,我们获得了一个包含 61 个节点的计数加权对称网络,这些节点代表 61 个 NTA 区域,边代表共享单车服务。
图4左上方面板显示了与61个纽约市社区(NTA)各自相关的 α i参数的后验均值。我们观察到,知名且具有旅游吸引力的NTA(例如位于曼哈顿岛的默里山-基普斯湾、东村和联合广场)表现出较高的 α i 值,这与将这些参数解释为节点中心性的结论是一致的。右上方面板展示了平均期望强度随时间变化的后验预测(PP)结果。该模型准确捕捉到了网络的年度季节性特征。春季和夏季的骑行活动量较高,而秋季和冬季的活动量则有所下降。
在下方面板中,我们展示了 2019 年 4 月在泊松(Poisson)和广义泊松(GP)设定下维度 d = 2 的潜空间估计比较。进一步的估计结果报告在补充材料(C 节)中。我们观察到,潜空间表示使得恢复节点的相对地理位置成为可能(与左方面板比较)。位于曼哈顿岛(Manhattan Island)的站点聚集在一起,位于布朗克斯(Bronx)和皇后区(Queens)的站点也是如此。在泊松设定下,潜坐标更加分散,因为泊松模型难以捕捉过离散,而潜坐标较高的后验方差部分缓解了这种设定错误。这一结果与第 4 节(另见图 3)讨论的关于潜坐标的设定错误偏差是一致的。
5.2 媒体网络数据集
作为第二个应用,我们考虑了时变媒体网络数据集(Schmidt 等 2018, Casarin 等 2025)。该数据集使得构建时序网络成为可能,其中节点代表新闻机构,每条边的权重是在所考虑的时间窗口内与一对新闻机构互动的独立评论者(unique commenters)的数量。在本应用中,我们考虑了按月聚合的媒体网络,总计 24 个网络,时间跨度为 2015 年和 2016 年。
由于 GP 潜空间 (LS) 模型在 DIC 指标上表现最佳,我们将报告并评论该设定下的估计结果。为了说明起见,我们在正文中展示了法国的结果(见图 5)。左面板展示了新闻机构的空间表示(位于其总部所在地),其中点的大小和颜色与 α i 成比例。正如预期的那样,我们发现通常位于这四个国家最突出城市的国家级新闻机构在网络中更具中心性,而地方级新闻机构在地理层面上倾向于更边缘化。我们还观察到最中心新闻机构在地理分布上的差异。通过跨国比较(见补充材料中的图 C.3-C.4),法国和西班牙更为集中,突出的新闻机构位于各自的首都城市;而德国和意大利则表现出更异质性的中心新闻机构地理分布。这可能是由于这四个国家在单中心发展与多中心发展方面众所周知的历史原因所致。关于这四个不同媒体环境的完整描述,参见 Tezis (2008) 和 Newman 等 (2015)。
图 5 右上方面板展示了 2016 年 1 月新闻机构的潜空间表示。存在两种形式的聚类。首先,具有相似编辑方针的国家级新闻机构在潜空间中距离较近。其次,地理位置上较近的新闻机构倾向于聚类。这种效应在地方级新闻机构中更强。在数据集中的其他国家也发现了类似的证据(见补充材料中的图 C.5-C.6 的上图)。
关于坐标的动态变化,有证据表明各国存在异质的趋势行为(见补充材料中图 C.5-C.6 下方面板中的潜因子估计)。对于法国和德国,均有上升趋势的证据。在意大利,该因子在样本初期表现出显著的上升趋势,于 2015 年 7 月达到顶峰,随后逐渐下降,并在 2016 年 3 月左右达到最低点。此后,潜因子再次增加,表明整体连通性在增强。西班牙的时变潜因子相对更稳定,其峰值出现在 2015 年 7 月、2015 年 12 月、2016 年 2 月和 3 月,以及 2016 年 10 月。总体而言,该趋势行为证实了 Casarin 等 (2025) 获得的结果,后者拟合了一个具有大量隐藏状态的泊松马尔可夫转换 LS 模型。
我们通过样本外预测练习来结束我们的分析。由于 LS 模型在边权重插补方面显示出强大的能力,我们在每个国家的最后一个邻接矩阵中随机注入 3 个缺失值 (NA)。然后,我们测试了估计的 LS 模型在泊松和 GP 设定下插补缺失值的能力。表 3 报告了在两种似然假设下按国家分类的预测指标,这些指标是 10 次模拟的平均值。在处理点对点预测 (MAE, MSE, RMSE) 时,我们注意到结果是混合的(GP 在法国和德国优于泊松,而在意大利和西班牙则相反)。在处理分布预测时,我们注意到 GP 模型始终显示出更令人满意的覆盖率(> 90.0%)。至于尾部概率,GP 模型似乎校准得更好(尾部概率的均值和方差分别接近 1/2 和 1/12),代价是在所有情况下区间宽度更高。总之,泊松模型尽管提供了具有竞争力的点对点预测,但也过于自信(overconfident),而 GP 在不确定性量化方面明显胜出。
6 结论
本文提出了针对计数加权时序网络的新型模型类别。广义泊松(GP)分布能够捕捉边权重的欠离散与过离散特征,而滞后的网络特征或潜变量则驱动了边权重的动态变化。文中推导了潜变量可识别性的充分条件,并构建了一个贝叶斯推断框架,配套提出了高效的后验抽样算法。数值分析结果表明,若忽略权重的过离散特征,将导致显著的模型误设偏差及后验预测误差。共享单车与媒体时序网络的实证应用证明,GP 潜空间模型不仅能有效适应不等离散特征,还能同时捕捉季节性、趋势及空间效应等其他网络属性。
原文链接:https://arxiv.org/pdf/2604.05838
热门跟贴