差异型近似贝叶斯计算的后验集中性:基于 Rademacher 复杂度的分析
CONCENTRATION OF DISCREPANCY-BASED APPROXIMATE BAYESIAN COMPUTATION VIA RADEMACHER COMPLEXITY
https://www.researchgate.net/publication/388992222_Concentration_of_discrepancy-based_approximate_Bayesian_computation_via_Rademacher_complexity
近年来,人们对近似贝叶斯计算(ABC)中无需摘要统计量(summary-free)的解决方案日益关注,这类方法不再使用摘要统计量之间的距离,而是采用观测数据与在所提议参数值下生成的合成样本之间的经验分布差异(discrepancies)来替代。这些策略的成功激发了对由此产生的后验分布极限性质的理论研究。然而,目前仍缺乏一个满足以下三点要求的理论框架:(i)具有统一性,而非仅针对特定差异度量;(ii)无需将分析局限于满足特定正则性条件的数据生成过程和统计模型,而是便于推导出一致成立的极限性质;(iii)基于可验证的假设,提供更明确的集中性界(concentration bounds),以阐明哪些因素决定了ABC后验的极限行为。
我们通过引入Rademacher复杂度(Rademacher complexity)的概念,构建了一个全新的理论框架,用以分析基于差异度量的ABC后验的极限性质,该框架甚至适用于非独立同分布(non-i.i.d.)和模型误设(misspecified)的情形。这一框架提供了一套统一的理论,其论证具有构造性,并能得出更具信息量的渐近结果和一致的集中性界,即使在现有研究尚未覆盖的设定下亦然。
上述关键进展是通过将无摘要ABC后验的渐近性质与所选差异度量在积分概率半度量(Integral Probability Semimetrics, IPS)族中对应的Rademacher复杂度的行为联系起来而实现的。IPS类不仅推广了基于摘要的距离,还涵盖了实践中广泛使用的Wasserstein距离和最大均值差异(Maximum Mean Discrepancy, MMD)等度量。正如在针对流行IPS差异度量的专门理论分析以及说明性模拟中所阐明的那样,这一新视角深化了我们对无摘要ABC的理解。
- 引言
上述实现方式的显著例子包括:采用最大均值差异(Maximum Mean Discrepancy, MMD)的ABC版本(Park, Jitkrittum and Sejdinovic (2016))、Kullback–Leibler(KL)散度(Jiang, Wu and Wong (2018))、Wasserstein距离(Bernton et al. (2019))、能量统计量(energy statistic)(Nguyen et al. (2020))、Hellinger距离与Cramér–von Mises距离(Frazier (2020)),以及γ-散度(γ-divergence)(Fujisawa et al. (2021));另见Gutmann et al. (2018)、Forbes et al. (2021) 与 Wang, Kaji and Rockova (2022),其中提供了更多无摘要ABC策略的实例。通过避免预先选择摘要统计量,所有这些方法都减少了基于摘要的ABC所可能导致的信息损失,从而在模拟研究和示例性应用中展现出更优的性能。
这些富有前景的经验结果激发了对由此产生的ABC后验分布理论性质的活跃研究,主要聚焦于在不同渐近机制下(关于容差阈值与样本量)的极限行为(Jiang, Wu and Wong (2018);Bernton et al. (2019);Nguyen et al. (2020);Frazier (2020);Fujisawa et al. (2021))。在这些机制中,特别值得关注的是以下两种情形:一是ABC阈值固定不变;二是当观测样本量 n n 与合成样本量 m m 同时趋于无穷时,ABC阈值逐渐收缩至零。
现有相关研究路线的成果却为若干种无摘要ABC方法提供了理论支撑。然而,当前理论往往仅针对所分析的具体差异度量而定制,且通常依赖于难以验证的存在性假设与集中性不等式——这些假设或不等式要么隐含、要么显式地施加于数据生成过程与统计模型之上,并要求其满足特定的正则性条件,因而所得结论缺乏普遍适用性(uniform validity)。例如,Bernton et al. (2019) 与 Nguyen et al. (2020) 的研究即产生了涉及控制函数序列的集中性界,但这些控制函数并未被明确给出。因此,尽管渐近收敛性与集中性仍可被证明,但支配这些渐近性质的核心因素仍未被揭示,从而限制了当前理论的方法论影响力,并阻碍了在更具挑战性设定下推导新颖、信息丰富的结果。
本文旨在弥补上述空白,通过引入一个创新性的理论框架来系统分析基于差异度量的ABC后验的极限性质。该框架采用统一视角,并适用于不同渐近机制,其核心工具是Rademacher复杂度(Rademacher complexity)(例如,Wainwright (2019),第4章),应用于积分概率半度量(Integral Probability Semimetrics, IPS)这一广泛类别(例如,Müller (1997),Sriperumbudur et al. (2012))。IPS类自然推广了摘要统计量间的距离,并包含实践中广泛应用的MMD与Wasserstein距离等。如第2–3节及附录C(Legramanti, Durante and Alquier (2025))所阐明,该视角在ABC领域内属首创,使我们得以推导出适用于多种差异度量、可能误设且非独立同分布(non-i.i.d.)情境下的统一、信息丰富且具一致性的集中性界。此外,该框架依赖于更具构造性的论证,无需对真实数据生成过程 μ ∗ 及所设统计模型施加额外的正则性条件(实践中 μ ∗往往未知,故验证此类条件通常不可行)。
关键在于,本文提出的理论框架甚至可在文献中尚未探讨的设定下得出富有信息量的结果。具体而言,在这些设定中,我们推导出关于极限接受概率的新颖上下界,从而明确指出:当标准理论分析中采用固定ABC阈值所建立的、对经验分布间差异的控制,未必能直接转化为对真实分布间差异的同等控制;相反,它仅能给出一个上界——等于ABC阈值与Rademacher复杂度的倍数之和,而后者正是衡量所选IPS类函数族“丰富程度”(richness)的指标(见第3.1节)。
上述结果厘清了ABC后验极限行为与所选差异度量的学习性质之间根本性的关联——此关联通过Rademacher复杂度加以量化。此外,所推导的界进一步表明:恢复具有相同阈值控制的极限伪后验(pseudo posterior)的一个充分条件是:所选差异度量对应的Rademacher复杂度在大样本极限下趋于零。如第3.2节所证,该条件亦使得我们能在更具挑战性的渐近设定(即当阈值随 m m 与 n n 同时发散而趋于零时)下,构造性地推导出新颖、信息丰富且一致的集中性界。这一能力得益于以下两点:(i)对主流ABC差异度量(如MMD等)的Rademacher复杂度存在有意义的上界;(ii)具备构造性条件以推导这些界(Sriperumbudur et al. (2012))。此类结果利用了统计学习理论中的基本联系,例如Vapnik–Chervonenkis(VC)维数与一致Glivenko–Cantelli类的概念(例如,Wainwright (2019),第4章),从而在统一视角下深化了对基于差异度量的ABC后验集中速率的理解,并进一步实现:(i)量化集中速率;(ii)直接将Rademacher复杂度理论的最新进展转化为ABC理论的新成果。第4节通过聚焦MMD与常规有界核(routinely implemented bounded kernels)予以例示;同时澄清:即使在缺乏一致消失Rademacher复杂度的保证时(例如,在无界数据空间下使用Wasserstein距离的情形),仍可推导出集中性结果,但需以牺牲对数据生成过程 μ ∗ 与所设模型的正则性条件为代价(该部分延伸见附录C(Legramanti, Durante and Alquier (2025)),其中我们将第3节理论拓展至非独立同分布情形)。
第5节的模拟研究证实,第3–4节所推导的理论结果在实践中具有实证支持,包括模型误设与数据污染等场景;理论与模拟结果(详见附录C(Legramanti, Durante and Alquier (2025))中关于非独立同分布数据生成过程的分析)均表明:当统计模型与/或数据生成过程不满足特定正则性条件,或无法验证相关假设时,那些具备一致消失Rademacher复杂度保证的差异度量,仍能提供稳健且合理的抉择依据。这在应用中十分常见,因实际中数据生成过程通常是未知的。
如第6节所述,本文所建立的无摘要ABC与Rademacher复杂度之间的未被探索的桥梁,还可进一步拓展,以衍生更一般的理论。例如,结合本文视角与近期关于IPS与 f f-散度的统一处理(Agrawal and Horel (2021), Birrell et al. (2022)),有望为ABC中其他重要差异度量(如Kullback–Leibler散度(Jiang, Wu and Wong (2018))与Hellinger距离(Frazier (2020)))推导出类似清晰且普适的结果。更广泛而言,本文贡献亦可延伸至ABC之外的领域,尤其在基于差异度量的伪后验的广义贝叶斯推断中(例如,Bissiri, Holmes and Walker (2016);Chérief-Abdellatif and Alquier (2020);Matsubara et al. (2022);Frazier, Knoblauch and Drovandi (2024))。相关证明及补充结果可见于附录材料(Legramanti, Durante and Alquier (2025))。
2 积分概率半度量与Rademacher复杂度
常见的例子包括基于最大均值差异(MMD)、KL散度(KL divergence)、Wasserstein距离、能量统计量(energy statistic)、Hellinger距离与Cramér–von Mises距离,以及 γ -散度( γ -divergence)等的ABC方法;其极限性质已在 Park, Jitkrittum and Sejdinovic (2016)、Jiang, Wu and Wong (2018)、Bernton et al. (2019)、Nguyen et al. (2020)、Frazier (2020) 与 Fujisawa et al. (2021) 等文献中,针对不同渐近机制并依赖于特定存在性假设的情形下进行了研究,以简化证明过程。
作为构建统一且具构造性的理论框架的第一步,我们需强调:尽管上述多数研究分别处理各类差异度量,但其中若干选择实际上共享一个共同源头。例如,MMD、Wasserstein距离与能量统计量均属于积分概率半度量(Integral Probability Semimetrics, IPS)类(见 Definition 2.1 中 Müller (1997) 的定义)。该类亦包含基于摘要统计量的距离。
例2.2–2.4 表明,实践中常规采用的差异度量——无论用于无摘要还是基于摘要的ABC(参见,例如,Park, Jitkrittum and Sejdinovic (2016);Bernton et al. (2019);Nguyen et al. (2020);Drovandi and Frazier (2022))——实际上均属于积分概率半度量(IPS),且各自对应一个已知的特征函数族 F F,该族唯一地标识出每一种差异度量。
例2.2(Wasserstein-1距离)
从而将经典基于摘要的ABC纳入MMD框架。因此,诸如高斯核等依赖于无限维特征空间的常用核,可被视作基于摘要的ABC在极限情形下的推广版本。
尽管例2.2–2.4刻画了ABC中最为常用的IPS差异度量,仍需强调:其他若干有趣的半度量亦属于IPS类(例如,Sriperumbudur et al. (2012),Birrell et al. (2022))。其中两个相关例子是全变差距离(total variation, TV)与Kolmogorov–Smirnov距离,二者在补充材料(Legramanti, Durante and Alquier (2025))中有详细讨论。
3 基于差异度量的ABC后验的渐近性质
条件(I)是我们对数据生成过程所作的唯一假设,例如在 Nguyen et al. (2020) 以及 Bernton et al. (2019) 的补充材料(Legramanti, Durante and Alquier (2025))中均有体现。尽管我们在附录C中推导的理论放宽了(I)以适用于非独立同分布情形,仍需强调:当前文献中所考虑的部分假设——即使在独立同分布设定下——也可能并不成立。因此,深入理解在假设(I)下ABC性质的适用范围及其潜在局限性,对于将现有存在性理论拓展至更复杂(可能非独立同分布)的情形至关重要。事实上,如第3.1节所示,某些差异度量即便在独立同分布设定下,其对应的ABC后验也可能定义不良(ill-defined),或缺乏强收敛保证。
定理3.1 将此直觉形式化,适用于整个IPS类下由差异度量诱导的ABC后验。
的收敛性,并依赖于非显式的控制函数序列。相比之下,定理3.3克服了这些问题,基于引理2.6中的单一集中不等式,构建了一个统一的理论框架。这不仅在技术细节上带来差异,更重要的是,它为分析基于差异度量的ABC后验的集中性质提供了一种新颖且影响广泛的视角。
3.3 假设的合理性
上述联系表明,假设(III)与(IV)可谓差异度量型ABC后验一致收敛性与集中性性质的核心所在。此外,尽管式(5)本质上与(III)–(IV)相关,但一致Glivenko–Cantelli性质仅给出一个依概率收敛的结果;而借助引理2.6中更精确的集中不等式,通过Rademacher复杂度的概念可对此结果加以细化。结合第3.1节与3.2节的理论成果,这不仅使我们能够断言特定ABC后验的收敛性与集中性,还能进一步阐明支配这些极限性质的关键因素,并可能推导出相应的收敛速率。
如例3.5–3.7所阐明,对于例2.2–2.4中所述的关键IPS差异度量,假设(III)–(IV)通常可通过已知的Rademacher复杂度上界予以验证;同时,还可利用Rademacher复杂度与统计学习理论中其他被深入研究的量(例如多项式判别能力(polynomial discrimination)与VC维数)之间的联系进行分析。特别地,Wainwright (2019) 第4.3章概述了若干通过此类概念对Rademacher复杂度进行上限估计的实用技术。
另需指出,对于IPS类中的另外两种差异度量——即全变差距离(total variation distance)与Kolmogorov–Smirnov距离——其假设(III)–(IV)的有效性在补充材料(Legramanti, Durante and Alquier (2025))的附录A中有详细讨论。尽管这两种差异度量颇具理论趣味,但在ABC的实际应用中,其使用频率远低于Wasserstein距离、MMD以及基于摘要统计量的距离。
例3.6(MMD)
MMD的性质本质上依赖于所选核函数 k ( ⋅ , ⋅ ) 。这一点可由以下两个不等式清晰体现:
例3.5–3.7表明,对于第2节中所列举的IPS类关键实例,假设(III)与(IV)可在实践中切实验证:要么在无需额外条件的情形下成立,要么仅需对分析所涉数据的支持集(support of the data)施加适当约束即可直接检验。从实际应用角度看,这一特性构成重要优势——它减轻了对所设模型及未知数据生成过程施加复杂正则性条件的需求。需注意,例3.5中关于Wasserstein距离的有界性条件,恰好对应于Bernton et al. (2019) 中假设1与2所隐含的条件(亦见Weed and Bach (2019)),而我们的Rademacher复杂度视角进一步深化了这些结果:例如,它阐明了Wasserstein-ABC的收敛性与集中性可由一个已知且可计算的复杂度测度统一调控,并在整个概率测度空间 P ( Y )
上一致成立。
4. 基于MMD与Wasserstein-1距离的ABC后验的渐近性质
第4.1节与4.2节将第3节推导的一般理论专门应用于IPS类中两类尤为重要的距离:MMD(包含基于摘要的距离作为特例)与Wasserstein-1距离。回顾例3.5–3.7可知,这些差异度量均被第3节的一般结果所覆盖——前提是核函数或样本空间 Y Y 有界。为求完备性,我们进一步将此类集中性结果拓展至(III)与(IV)不成立的情形;具体见命题4.3与4.4。
。。。。。。。。。。
原文链接:https://www.researchgate.net/publication/388992222_Concentration_of_discrepancy-based_approximate_Bayesian_computation_via_Rademacher_complexity
热门跟贴