有限样本下的分治策略：有效且高效的可能性推理|估计量|分治策略|拟合|新论文|有限样本|统计量|贝叶斯|高斯

Divide-and-conquer with finite sample sizes:valid and efficient possibilistic inference

有限样本下的分治策略：有效且高效的可能性推理

https://arxiv.org/pdf/2503.22812

摘要
分治（Divide-and-conquer）方法利用大样本近似，在每个数据块既小到足以实现高效计算、又大到足以支持近似有效推断的前提下，提供频率学派的保证。然而，当总体样本量较小或中等时，很可能不存在同时满足这两个条件的数据划分方式，从而导致所得推断缺乏有效性保证。我们提出一种新方法，该方法基于推理模型（inferential model）框架，具有贝叶斯意义上的完全条件性，并在频率学派意义上可证明有效。核心洞见在于：现有分治方法两次使用了高斯性假设——第一次用于构造估计量，第二次用于近似其抽样分布。我们的方案保留第一个高斯性假设，采用高斯工作似然，但用一个“验证”（validification）步骤替代第二个假设，该步骤利用由所设定模型确定的各数据块汇总统计量的抽样分布。这一后一步骤是一种概率到可能性的变换，是本方法可靠性保证的关键，使其在分治文献中拥有独一无二的普适性。除具备有限样本下的有效性保证外，所提方法在渐近意义上也与其他文献中的分治解法一样高效。我们的计算策略借助最先进的黑盒似然模拟器（likelihood emulator）。通过模拟研究展示了该方法的性能，并以2023年澳大利亚山火季期间昆士兰州玛丽伯勒（Maryborough）PM2.5中位数的分析为例，突显了其灵活性。

关键词：模拟器（emulator）、g-and-k 分布、推理模型（inferential model）、相对似然（relative likelihood）、有效性（validity）。

1 引言

分治（Divide-and-conquer）技术已成为大数据分析中的强大工具，适用于数据集样本量极大、即使被划分到多个中央处理器（CPU）上，各子集仍足够大且信息丰富，从而能产生近似有效的推断。然而，更具挑战性但同样常见的场景是：仅估计本身在计算上就已十分繁重，导致无法对整个数据集进行分析，而样本总量又不足以保证（近似）有效的推断。本文针对后一种情形，为计算上困难的优化问题开发了一种分治方法，该方法基于 Martin 与 Liu（2013, 2015）以及 Martin（2019）提出的推理模型（Inferential Models, IMs）框架。

IM 框架具有两个核心特征：

贝叶斯意义上的完全条件性：即它为关于未知参数的所有断言分配依赖于数据的信念度；
频率学派意义上的可靠性（或有效性）：即对关于未知量的错误断言赋予高信念度的概率很低。

具体细节见第 2.2 节，但有效性的一个重要推论是：由 IM 输出导出的推断程序（如置信区域和假设检验）可在任意指定水平上被严格校准，且不依赖于样本量。

广义而言，分治框架将一个因计算成本过高而难以整体分析的样本量为 n n 的数据集，划分为 B B 个大致等大的块，并在分布式计算系统中并行处理。几乎所有现有的分治方法（参见第 2.1 节综述）都假设每个块内的样本量足够大，并利用各块中估计函数和/或估计量的渐近高斯性来构造一个合并估计量，并近似其分布。该合并估计量（下文称为“大-n 估计量”）通常采取加权平均的形式，权重由各块估计量的渐近方差之逆给出。然而，当每个块内的样本量并不特别大时，“大-n 估计量”的渐近分布就无法得到恰当校准。在实践中，这常常导致第一类错误率膨胀，并过度倾向于错误地得出所关注效应在统计上显著非零的结论。我们在第 5 节进一步展示了使用未恰当校准推断所带来的有害后果。

一个激励性例子是 g-and-k 分布族（Haynes 等，1997；Rayner 与 MacGillivray，2002），其由如下分位数函数定义：

其中，μ ∈ ℝ 是位置参数，σ > 0 是尺度参数，g ∈ ℝ 衡量偏度，k > -1/2 衡量峰度，zᵤ = Φ⁻¹(u) 是第 u 个标准高斯分位数，c 是一个对应于“整体对称性”值的常数。若 g < 0，则分布向左偏斜；同理，g > 0 表示向右偏斜。g-and-k 族能够捕捉一大类分布形态。当 k < 0 时，该族还可表示比高斯分布更短的尾部。由于其灵活性，该分布族已被用于建模复杂的金融和气候数据等。在这些模型中寻找最大似然估计量是困难的，因为每次对数似然评估都需要求解每个观测值 yᵢ (i=1, ..., n) 的逆问题 yᵢ = Q(uᵢ)。因此，优化不仅计算昂贵，而且数值上具有挑战性。此外，当 n 不太大时（例如，n = 200），需要进行计算上代价高昂的似然评估以确保推断的有效性。由于该分布易于抽样，它常被用来说明近似贝叶斯计算的应用。

（例如，Fearnhead 和 Prangle 2012），但这种方法可能缓慢且难以调参，并且没有频率学派校准保证。我们通过在 IM 框架内采用分治策略，减轻了计算负担并保证了有效推断。

本文的主要贡献是开发了一种分治式 IM 框架，该框架除了提供类似贝叶斯的完全条件化不确定性量化外，在有限样本下也具有频率学派有效性，并在大样本下等价于渐近有效的全数据 IM。换句话说，与仅关注渐近有效性的现有方法相比，我们所提出的 IM 在不损失（渐近）统计效率的前提下，获得了重要的统计有效性保证——可谓鱼与熊掌兼得。此外，我们还开发了一种基于黑盒似然模拟器的新计算高效工具，用于评估我们所提出的有效分治式 IM，并结合其他更基础的策略来加速 IM 计算。

第 2 节概述了分治框架和 IMs。第 3 节通过考察两种极端版本的分治式 IM 解法奠定了基础：一种是“最优”的，但实际操作中难以实现；另一种则极其简单，但仅具渐近有效性。在此经验基础上，第 4 节描述了我们的新方法，该方法在分治推断中实现了有限样本有效性和渐近效率，相较于拥有处理完整数据所需计算资源的“神谕”解法。第 5 节通过多个数值示例展示了我们所提方案的性能，包括对 2023 年澳大利亚山火季期间昆士兰州玛丽伯勒 PM₂.₅ 中位数的分析。所有用于复现结果的代码均可在 https://github.com/ehector/IMdac 获取。

2 背景与符号

2.1 分治方法

用于分析大规模分布式数据的分治方法直接源于 Glass (1976) 的元分析。分治框架的主要任务是在 B 个独立的数据块上获得统一的推断，该过程需同时兼顾计算效率和统计效率。每个数据块的大小必须足够小以便快速分析，但又要足够大以确保估计近似有效，这导致了计算效率与统计效率之间存在根本性的张力。通常，会使用来自各数据块的数据摘要来降低通信和计算成本，因此分治方法的主要挑战和关注点在于开发出在统计和计算上都高效的规则，用以合并这些摘要。

为明确记号，设 Zⁿ = (Z₁, ..., Zₙ) 由 n 个独立观测值组成，其联合分布 PΘ 依赖于一个取值于参数空间 Θ ⊆ ℝᵖ 的不确定真实参数 Θ；为简洁起见，省略了 PΘ 对 n 的依赖。单个观测值 Zᵢ 可能代表观测研究中的预测变量与响应变量对 (Xᵢ, Yᵢ)，或如在设计实验中那样，预测变量为固定常数。无论如何，完整数据 Zⁿ 会被随机划分为 B 个大小分别为 n₁, ..., nʙ 的数据块，我们记这些数据块为 Z⁽ᵇ⁾，其中 b = 1, ..., B。

分治方法已应用于多个领域，包括核岭回归（Zhang 等，2015）、高维稀疏回归（Lee 等，2017；Lin 和 Lu，2019）、变量筛选（Diao 等，2024）和经验似然（Zhou 等，2023b），到建模矩阵（Mackey 等，2015；Nezakati 和 Pircalabelu，2023）、高维相关数据（Hector 和 Song，2020, 2021, 2022）及空间场（Hector 和 Reich，2024；Hector 等，2025；Lee 和 Park，2023）。参见 Chen 等（2021b）、Hector 等（2024）、Zhou 等（2023a）获取最新综述。我们所关注的分治方法被称为“一次性”（one-shot），因为每个数据块仅被分析一次（因此我们省略了关于一步更新和代理似然的文献）。大多数一次性方法依赖于（加权）平均，其中合并后的估计量是各研究估计量的（加权）平均值（例如，Hector 等，2023；Lin 和 Xi，2011；Shi 等，2018）。

与我们的工作相关的是，受 Fisher 的置信推断（Fisher 1935, 1956）和 Efron (1993) 的置信分布启发，Liu 等 (2014, 2015)；Michael 等 (2019)；Singh 等 (2005)；Tang 等 (2020)；Xie 等 (2011)；Yang 等 (2016) 提出了使用频率学派置信分布来组合跨研究推断的方法。在这一系列工作中，置信分布是一个样本依赖的函数，它编码了某个参数的所有置信水平。相比之下，通过 IM 框架（下文第 2.2 节介绍）获得的可能性轮廓，其主要关注点在于控制置信分布在某个点零假设下的行为。然而，必须谨慎行事，因为将熟悉的概率微积分——即积分——应用于置信分布以进行更广泛的不确定性量化会带来风险（例如，Fraser 2011, 2013），特别是会导致虚假置信度（Balch 等，2019）。

2.2 推理模型

如第1节简要所述，推理模型（IM）框架提供了对统计模型中未知参数的不确定性进行数据驱动量化的功能。这种不确定性量化旨在同时满足贝叶斯意义上的完全条件性和频率学派意义上的可证明可靠性。同时实现贝叶斯和频率学派目标，需要超越教科书中的概率论与统计理论。IM 的特定新颖之处在于，其不确定性量化是用“不精确概率理论”的语言表述的，更具体地说，是用“可能性理论”（例如，Dubois 2006；Dubois 和 Prade 1988）表述的。虽然可能性理论对读者而言可能比较陌生，但很容易解释，我们接下来就进行说明。

用一句话概括，可能性理论就是将概率论中的积分替换为优化的概率论。从一个函数 π: Θ → [0,1] 开始，该函数具有性质 supθ∈Θ π(θ) = 1。这个函数被称为“可能性轮廓”（possibility contour），或简称“轮廓”。该“上确界等于一”的条件，与概率密度函数熟悉的“积分为一”的归一化条件相对应。然后，轮廓 π 通过优化确定一个可能性测度 Π：

这是所谓的概率到可能性变换（例如，Hose 和 Hanss，2020, 2021）在相对似然上的一个应用版本。如果似然函数的计算和最大似然估计量的求解在计算上代价高昂，那么上述定义的 IM 轮廓在实践中可能难以实现。本文的主要贡献之一便是一套解析且高效的计算策略，用于在此类情形下近似形如式 (2) 的可能性推理模型（possibilistic IM）轮廓；详见第 3 节。

尽管本文所考虑的情形均假设数据服从参数模型，但排序–验证（ranking–validification）构造也可应用于无分布假设（distribution-free）的问题；参见，例如，Cella 与 Martin（2022）、Martin（2023，第6节）以及 Cella（2024）。此外，尽管在参数问题中相对似然是一种自然的排序选择，但它并非唯一选项；事实上，式 (1) 中的验证步骤可使用任何合适的排序函数 R R 来执行。这种灵活性在第 4 节尤为重要，我们在该节中引入了一种用于分治推断的新型强有效推理模型（IM）。

3 通向分治式 IM

3.1 终极方案

第 2.2 节所述的 IM 方法使用完整的数据集 zⁿ 来进行有效且高效的可能性推断。前述的排序与验证步骤需要两样东西：相对似然（其隐含依赖于最大似然估计量）及其分布。在评估似然函数计算成本高昂的情形下，获取最大似然估计量并在足够密集的候选参数值网格上计算相对似然变得不可行。如果相对似然可以被计算出来，当其分布有闭式表达时，验证步骤可解析地执行；否则，仍需昂贵的计算来经验性地评估其分布。

分治分析旨在通过结合基于分块数据 z⁽ᵇ⁾ (b = 1, ..., B) 的更廉价、块特定的推断，绕过对完整数据 zⁿ 进行同时且可能昂贵的计算。要在分治框架内评估式 (2) 中的轮廓，一个初步想法可能是尝试仅使用来自 z⁽ᵇ⁾ 的摘要统计量 s_b 来重构这个全数据轮廓。当相对似然 R(zⁿ, θ) 仅通过 sⁿ（即各块摘要统计量的聚合）依赖于数据 zⁿ 时，这是可以实现的。以下，我们给出两个满足此条件的例子，旨在建立关于 IM 构造和当前问题复杂性的直观理解。即使在这些计算几乎免费的简单案例中，从分块数据重构全数据 IM 解法也相当具有挑战性，因此需要一种不同的方法。我们在第 4 节提出的解决方案即使在似然函数计算成本极高时也能表现得非常好；参见第 5 节中的示例。

3.2 一种大样本分治式推理模型（IM）

全数据的最大似然估计量和相对似然通常无法仅通过摘要统计量来表达；高斯情形是一个例外。因此，经典的分治推断方法通常假设各数据块的最大似然估计量服从高斯分布，并模仿上文例1中的推导过程，从而得到（例如，Hector 等，2024；Hedges，1983）：

这是一个有趣的观察结果，但 “亚高斯性” 的条件过于严格，不能满足我们的需求。因此，我们继续探索。下一节将在此基础上提出一种新的 “分而治之” IM，它不仅精确有效，而且渐近高效。

4 实用的分治式 IM

4.1 通过高斯工作似然进行排序

上文我们考察了基于简单模仿高斯情形下计算的大样本分治式 IM。这消除了与合并各数据块特定信息相关的所有固有挑战，因为在高斯情形下最优组合规则是已知的。我们还证明了这种大样本分治式 IM 在渐近意义上会与全数据 IM 融合。由于全数据 IM 既是有效的又是高效的，上述融合意味着大样本分治式 IM 在渐近意义上也是有效且高效的。但统计推断的核心原则是有限样本有效性——即统计学家的希波克拉底誓言——因此，对我们而言，渐近有效性是不够的。在此，我们提供一种折中策略，它保留了使大样本分治式 IM 变得优良的部分特性，同时舍弃了使其显得幼稚的部分。这使得我们能够在仅比大样本分治式 IM 略微增加复杂度的情况下，实现所需的有限样本有效性。

关键观察是，大样本分治式 IM 在两个步骤中两次使用了高斯性假设：一次是在排序步骤中，通过选择相对似然；另一次是在验证步骤中。也就是说，公式 (6) 中提出的可以表示为

我们的建议是在排序步骤中仅使用高斯假设，即通过选择公式 (8) 中的高斯工作相对似然，然后在验证步骤中改用假设的统计模型而不是高斯近似来进行验证：

4.2 有效性与效率

正如“验证”（validification）这一术语所暗示的，当我们使用所设定的模型（而非某种高斯近似）来执行验证步骤时，所得的推理模型（IM）具有精确的有效性，而不仅仅是渐近有效性；参见定理 2。这意味着我们的方法实现了上文所述的“统计学家的希波克拉底誓言”。

IM 有效性的直接推论是，常规的统计程序（即假设检验和置信集）能够控制频率学派的错误率。这一点尤为突出，因为据我们所知，目前尚无其他分治方法能在如此普遍的设定下实现这种精确的错误率控制。

4.4 边缘轮廓的轮廓似然

5 数值示例
5.1 莱维α-稳定分布

α-稳定分布（Lévy，1925）常用于金融、经济和物理学领域。如果一个分布族在卷积运算下封闭，则称该分布族为α-稳定分布。这些分布由其特征函数定义。

我们考虑设置 n = 200，B = 4，nb ≡ 50。我们取 α = 1.5 为固定值，数据点由参数 μ = 0、c = 0.5 和 β = 0 的α-稳定分布生成，并使用 Chambers 等人（1976）提出的并在附录 D.1 中总结的算法。令 Θ = (μ, c, β) 为位置、尺度和偏斜参数的真实值。附录 D.2 说明了基于完整最大似然估计量的大样本推断缺乏有效性保证，这促使我们评估第 2.2 节中描述的计算上不可行的有效轮廓，并随后评估有效的分治推断。

我们训练一个模拟器，以学习大小为 nb = 50 的数据与参数值 Θ 之间的映射关系，其中 Θ 的训练分布分别为 μ ∈ [−20, 20]、c ∈ [0, 10] 和 β ∈ [−1, 1] 上的连续均匀分布。该模拟器基于两个串联的可逆神经网络，在 DeepSets 框架内使用 BayesFlow 软件（Radev 等，2020，2023）联合训练，从而对观测值的排列保持不变性。第一个网络从 50 维数据输入中学习一个十维摘要统计量，而第二个网络（由六个耦合层组成）则从摘要统计量中学习参数。模拟器使用 Radev 等人（2023）的在线算法进行训练，该算法在训练过程中实时从模型采样以提高泛化能力。模拟器训练完成后，我们通过从模拟器抽取 1,000 个样本，计算 θ̂z(b) 和 Jz(b) 分别作为均值和逆方差。我们使用公式 (13) 计算 πsₙ∨,q，其中 θ† = θ̃sₙ，M = 3,000 个蒙特卡洛样本，q ∈ {1, 2, 3}。

图 3 绘制了一个重复实验中大样本 n 和有效分治 IM 的轮廓，图 4 绘制了基于 1,000 次重复实验的 πsₙ∨,q 的经验分布函数的大样本 n 和有效分治可能性轮廓。大样本 n 的 IM 是无效的，因为其经验分布函数远高于对角线。

作为对推论 1 的经验检验，我们生成 1,000 个大样本 n 和有效分治轮廓 πsₙ∞ 和 πsₙ∨ 的重复实验。对于每个重复实验，我们使用 {θq ∈ Tq : πsₙ∞,q(θq) > α} 和 {θq ∈ Tq : πsₙ∨,q(θq) > α} 在水平 α ∈ {0.1, 0.2, ..., 0.9} 下计算 Θ 的 100(1 − α)% 边际置信区间。表 2a 报告的 100(1 − α)% 水平的经验覆盖概率是包含真实值 Θ 的 1,000 个计算区间的比例。经验覆盖概率

跟踪有效分治轮廓在蒙特卡洛标准误差范围内的名义水平，但大样本 n 轮廓在所有名义水平下都显著低估了 Θ 的真实值。图 3 表明，表 2b 确认：大样本 n 置信区间过窄；来自有效分治轮廓的置信区间的平均长度大于来自大样本 n 轮廓的置信区间。

5.2 g-和-k 分布

我们回到第 1 节中介绍的 g-和-k 分布。令 Θ = (μ, σ, g, k) 为位置、尺度、偏斜和峰度参数的真实值。正如现有文献中常见的那样（参见，例如，Drovandi 和 Pettitt 2011；Rayner 和 MacGillivray 2002），我们设定 c = 0.8。我们考虑设置 n = 200，B = 4，nb ≡ 50。结果 yj 使用 R 包 gk（Prangle 2017）从参数 μ = 3、σ = 1、g = 2 和 k = 0.5 的 g-和-k 分布中生成。附录 D.3 表明，在此情况下，基于完整最大似然估计量的大样本推断似乎是有效的，尽管并无保证。为了确保有效性，需要进行计算上不可行的似然比验证。我们训练一个模拟器，以学习样本大小 nb = 50 的数据与参数值 Θ 之间的映射关系，其中 Θ 的训练分布分别为 μ ∈ [−20, 20]、σ ∈ [−20, 20]、g ∈ [−5, 5] 和 k ∈ [−1/2, 5] 上的连续均匀分布。模拟器以及 θ̂z(b) 和 Jz(b) 的计算如第 5.2 节所述。我们使用公式 (13) 计算 πsₙ∨,q，其中 θ† = θ̃sₙ，M = 3,000 个蒙特卡洛样本，q ∈ {1, 2, 3, 4}。

图 5 绘制了一个重复实验中大样本 n 和有效分治 IM 的轮廓，图 6 绘制了基于 1,000 次重复实验的 πsₙ∨,q 的经验分布函数的大样本 n 和有效分治可能性轮廓。大样本 n 的 IM 是无效的，因为其经验分布函数远高于对角线。

作为对推论 1 的经验检验，我们生成 1,000 个大样本 n 和有效分治轮廓 πsₙ∞ 和 πsₙ∨ 的重复实验。在水平 100(1−α)%（α ∈ {0.1, 0.2, ..., 0.9}）下，Θ 的边际经验覆盖概率如表 3a 所示，它跟踪了有效分治轮廓在蒙特卡洛标准误差范围内的名义水平，但大样本 n 轮廓在所有名义水平下都显著低估了 Θ 的真实值。图 5 表明，表 3b 确认：大样本 n 置信区间再次过窄。这突显了使用我们的有效分治轮廓而非大样本 n 轮廓的重要性：如果在 Θ 未知的真实世界场景中部署，使用基于大样本 n 轮廓的 90% 置信区间将无意中使 I 类错误率增加至三倍！换句话说，错误发现的数量可能高达三倍。

5.3 PM2.5 数据分析

PM₂.₅ 指直径为 2.5 微米或更小的颗粒物，因其尺寸微小，可被吸入血液并引发严重的健康问题。野火是 PM₂.₅ 的重要来源，其普遍性预计会随着气候变化而持续增加（Chen 等，2021a）。暴露于高浓度的 PM₂.₅ 与出生体重（Birtill 等，2024）以及澳大利亚急诊科入院率（Ranse 等，2022）存在关联。2023 年 8 月至 12 月的澳大利亚丛林火灾季登上国际头条新闻（Sheehan 等，2023），烧毁了约 8400 万公顷土地（Fisher，2024），其中包括昆士兰州的多起火灾。鉴于暴露于高浓度 PM₂.₅ 对健康的危险后果，我们以季节为函数，对澳大利亚昆士兰州玛丽伯勒市每日 PM₂.₅ 中位数的分布进行建模，以便更好地理解当地居民的暴露窗口。数据由 2023 年 1 月 1 日至 12 月 31 日在玛丽伯勒站点测得的每小时平均 PM₂.₅（单位：微克/立方米）的日中位数组成。该数据在知识共享署名 4.0 许可下公开提供，并可在昆士兰州政府开放数据门户（Queensland Government，2024）下载。

图 7 绘制了 n = 365 个日中位数的直方图和散点图。令 (yⱼ)ⱼ₌₁³⁶⁵ 表示全年每日 PM₂.₅ 的中位数，其中 yⱼ 假设服从参数为位置 μ、尺度 σⱼ、偏斜 g 和峰度 k（c = 0.8）的 g-和-k 分布。为了拟合时间趋势，我们使用五次 B 样条展开来建模尺度参数，结点位于 365/3、365/2 和 2 × 365/3：

所提出的有效分治 IM 框架的一个独特特点是，可以在 365 个每日尺度参数上进行有限样本的有效推断。图 8a 绘制了每日尺度的大样本估计值 θ̃sₙ,₂, ..., θ̃sₙ,₃₆₆，其 90% 边际置信区间是使用 {θq ∈ Tq : πsₙ∨,q(θq) > 0.1} 构建的。点估计值似乎模仿了图 7 散点图中每日中位数 PM₂.₅ 观测值的模式。图 8b 中绘制的观测值与拟合分位数（通过使用 g-和-k 分布的拟合分布函数的概率积分变换获得）对比图表明，我们的模型拟合良好。图 9 绘制了位置、偏斜和峰度参数的大样本和有效分治可能性轮廓。位置、偏斜和峰度的 90% 置信区间分别为 (5.198, 5.218)、(0.6534, 0.6811) 和 (0.1762, 0.1955)，表明存在正偏斜和重右尾，这与图 7 中的直方图一致。

图 10 绘制了每日尺度参数 σ₁, ..., σ₃₆₅ 的大样本和有效分解可能性轮廓。如图 8a 所示，12 月和 1 月（夏季）各日的尺度似乎表现出更大的变异性，而 6 月和 7 月（冬季）则相对较小。与第 5.2 节一样，大样本可能性轮廓在推断中校准不当。相比之下，有效的分治轮廓更宽，因为它恰当地考虑了观测样本中的信息量。模型的不确定性在 1 月、2 月和 3 月最大，这从图 8a 中更宽的 90% 置信区间可以看出。尺度的最大值对应于冬季月份（6 月和 7 月）和初夏（11 月和 12 月），这意味着玛丽伯勒居民在这些月份暴露于 PM₂.₅ 的风险最高。

6 结论

第 3.2 节中提出的大样本分治可能性轮廓在 IM（信念函数推断机）构建的排序（ranking）和有效化（validification）两个步骤中均利用了（近似的）高斯性。在定理 1 中，我们证明了该构造在渐近意义下是有效且有效的（即与基于全数据似然的最优 IM 一致），但这对我们而言并不充分，因为我们所关注的是中等样本量（moderate n n）的情形。

相比之下，有效分治 IM 在排序步骤中使用高斯相对似然，但其关键区别在于：有效化步骤是基于摘要统计量的真实抽样分布进行的。顾名思义，这确保了有效分治 IM 即使在有限样本设置下也具有有效性。我们在定理 3 中进一步证明，该有效分治 IM 同时也是渐近有效的，这意味着相较于全数据 IM 和大样本分治 IM，我们在不损失渐近效率的前提下，获得了重要的可靠性保证。

本文的核心关注点在于构建一个有效且高效的分治 IM，其由可能性轮廓所刻画。随后，我们将该轮廓以一种微妙而或许出人意料的贝叶斯风格加以运用。一种提议的用途是可视化地展示数据对不确定参数 Θ（或其相关特征）所传达的信息，例如图 3 所示——这为频率学派提供了一种与贝叶斯后验密度相对应的可视化工具。另一种用途是程序性的：通过公式 (10) 直接读取置信集，类似于贝叶斯学派从后验密度中读取最高后验密度可信集。关键区别在于，有效 IM 的水平集自动校准为频率意义上的置信集。

除了上述贝叶斯–频率学派之间的联系外，我们还多次强调：IM 的输出不仅是一个用于提取置信集的工具，更可用于对 Θ 进行完全条件化、依赖于数据、类概率式的不确定性量化，其作用可与贝叶斯后验分布相媲美。事实上，人们可以通过计算与 Θ 相关假设的上/下概率来进行形式化推断；更一般地，还可计算 Θ 的函数的上/下期望，从而对相关行动进行正式的决策理论评估。重要的是，IM 的有效性意味着：所有这类贝叶斯风格的不确定性量化——而不仅仅是置信集——都在频率意义上是可靠且经过校准的。

这在似然函数不存在、且训练模拟器计算成本高昂的情形下可能特别有用。一个缺点是，由此产生的有效分治 IM 将失去其渐近有效性（定理 3）。尽管该方法因与大样本分治估计量的联系而具有良好的动机，但未来工作的一个有趣方向是探索替代高斯相对似然的方法，用于组合块特定估计量。

本文中或许未得到充分关注的一个局限性是：当参数 Θ 的维度较大时，计算联合可能性轮廓存在困难。这一点在第 5.3 节对中位数 PM₂.₅ 的分析中尤为突出——我们计算的是尺度参数 σⱼ 的边际每日置信区域，而非所有尺度参数 σ₁, ..., σ₃₆₅ 的联合置信集。主要挑战仍在于计算：由于需要在 θ 值网格上评估可能性轮廓 πsₙ∨（使用公式 (11)），而网格维度会随参数维度急剧增长。近期关于可能性轮廓的概率近似研究（Martin，2025）可能为高维情形提供一些新的解决方向。

原文链接： https://arxiv.org/pdf/2503.22812