通过校准自举实现有限样本有效推断|有限样本|算法|自助法|高维

Finite Sample Valid Inference via Calibrated Bootstrap

通过校准自举实现有限样本有效推断

https://arxiv.org/pdf/2408.16763

摘要
尽管自助法（bootstrap method）被广泛用作不确定性量化的一般方法，但在实际应用中却面临诸多困难，引发了对其有效性的担忧。本文提出了一种新的基于重采样的方法，称为校准自助法（calibrated bootstrap），旨在从大小为 n n 的样本中生成有限样本有效（finite sample-valid）的参数推断。其核心思想是对一种 m m-out-of- n n重采样方案进行校准，其中校准参数 m m 根据参数估计中损失函数累积分布函数所导出的推断枢轴量（inferential pivotal quantities）来确定。

本文通过带或不带 L1 惩罚的线性回归模型，在高维设定和真实数据应用场景下对所提方法进行了说明，并与现有方法进行了比较。最后，文章就若干值得进一步研究的开放性问题提出了评论。

关键词：贝叶斯自助法；L1 惩罚；枢轴量；轮廓似然；随机逼近。

1 引言
自助法旨在通过对观测数据进行重采样，来估计所关注统计量的抽样分布。自 Efron（1979）的开创性论文（另见 Efron, 2003）以来，由于其简洁性和高效性（参见如 Efron 和 Tibshirani, 1993），自助法已成为统计推断与预测领域不可或缺的工具。它也激发了其他相关领域的研究，包括其贝叶斯对应方法（参见 Rubin, 1981；Efron, 1982；Newton 和 Raftery, 1994；Efron, 2012；Newton 等, 2021 及其中参考文献）。

然而，在缺乏理论保证的情形下，实践者可能会误用自助法（Shao 和 Tu, 2012）。在具体应用中必须谨慎（Martin, 2015）。首先，自助法的理论基础主要围绕其渐近有效性展开。具体而言，研究者主要致力于证明：当样本量趋于无穷时，自助法能一致地估计目标统计量的抽样分布（参见如 Bickel 和 Freedman, 1981；Singh, 1981；Wellner 和 Zhan, 1996；van der Vaart 和 Wellner, 1996；Kosorok, 2008；Efron 和 Tibshirani, 1993 及其中参考文献）。其次，已有研究表明，即使在基于大样本理论设计的应用场景中，自助法仍可能失效（参见如 Bickel 和 Freedman, 1983；Abrevaya 和 Huang, 2005；Chernozhukov 等, 2023 及其中参考文献）。例如，在高维线性回归设定中（当 n → ∞ 而 p / n → c > 0 ，其中 p p 为预测变量个数），自助法被证明无法一致估计回归系数的真实抽样分布；数值实验也表明，现有自助法对回归系数向量 β β 的推断效果极差（El Karoui 和 Purdom, 2018）。

为克服标准自助法（即采用 n n-out-of- n n 有放回重采样）在某些情形下的局限性，研究者探索了替代性的重采样方法。这些替代方法同样需具备渐近有效性的理论支撑，包括有放回和无放回的 m m-out-of- n n 重采样——后者亦称子集抽样（subset sampling）（Politis 和 Romano, 1994；Bickel 和 Sakov, 2008；Bickel 等, 2012），其思想可追溯至 Bretagnolle（1983）。然而，据我们所知，目前关于基于重采样的有限样本有效推断方法的理论支持仍存在显著空白。

为获得理想的有限样本性能，重采样方案可能需要根据具体模型和观测数据进行自适应调整。本文旨在探索适用于有限样本情形、具有自适应性且计算可行的重采样方法，以实现对模型参数的有效频率学派推断（valid frequentist inference）。也就是说，对于给定模型，该推断方法应能控制第一类错误率。例如，所构造的参数 95% 置信区间应在至少（并接近）95% 的情况下覆盖真实参数值。为此，我们沿着近期统计推断基础理论的发展脉络（Fisher, 1973；Shafer, 1976；Dempster, 2008；Singh 等, 2007；Xie 和 Singh, 2013；Hannig, 2009；Hannig 等, 2016；Martin 和 Liu, 2013, 2015；Martin, 2015；Cella 和 Martin, 2022），开发具有坚实理论依据的计算方法，并尽可能沿用人们熟悉的枢轴量方法（pivotal method）的基本思想。

理论上合理的有限样本有效推断方法在现有文献中已有深入研究。然而，能够实际应用于求解此类问题的计算工具通常缺失，尤其在高维场景下往往不可行（Martin, 2015）。本文的主要目标是提出一种计算高效、基于重采样的数值策略，以逼近理想的理论解。从哲学角度看，通过重采样进行推断至少是微妙的，因为重采样带来的变异性与推断中的不确定性评估是两个不同的概念。本文的关键思想在于：将重采样所产生的变异性与推断所需的不确定性相匹配。

2 有效推断的基础：概述

2.1 参数推断的广义关联方法

为了在构建置信区域的背景下表述清晰，我们正式定义了面向置信度的推断过程的有效性（validity），该定义与自助法文献中用于考虑大样本基础上有效性的定义一致。

2.2 T-置信分布

3 校准自助法

在本节中，我们提出一种计算上可行的方法，通过自适应重采样程序实现有效的参数推断。该方法称为校准自助法（Calibrated Bootstrap, CB），包含两个步骤：重采样近似（Resampling Approximation, RA）和分布重采样（Distributional Resampling, DR）。RA 步骤针对一组预设的置信系数，搜索能够最佳逼近参数 θ ∈ Θ精确置信区域的重采样方案。DR 步骤则从 RA 步骤获得的自助估计样本中选取部分样本，用于构建感兴趣未知参数的置信分布。这两个步骤被总结为两个算法，并在第 3.1 节和第 3.4 节中详细讨论。

3.1 重采样近似

3.2 简单示例下的 RA 方法

3.3 线性回归示例下的 RA 方法

为说明所提出的方法，此处我们展示一项在高维设定下关于线性回归的研究。算法 1 的其他应用将在第 4 节中进一步说明。

例 2（高维线性回归）. 考虑线性回归模型：

3.5 边际参数推断

4 L1惩罚线性回归的应用

回顾例 2 中所述的线性回归模型（16）。此处考虑 β β 的 L1 惩罚估计量，即广为人知且被广泛使用的 Lasso 估计量（Tibshirani, 1996），可表示为

其中 λ > 0
为调优参数。Lasso 估计量在 p > n 的情形下尤其有用，因为它可以通过将部分系数收缩至零来实现变量选择。由于引入了正则化项，相较于普通最小二乘（OLS）估计量，Lasso 估计量通常更稳健，预测能力更强。

尽管 Lasso 在真实数据分析场景中被广泛应用（例如全基因组关联研究 GWAS，Uffelmann 等, 2021；Zeng 等, 2015），但由于加入了惩罚项，设计一种有效且高效的推断程序通常被认为较为困难。基于重采样的方法，如自助法和置换检验（Arbet 等, 2017），是模型推断中最常用的方法。然而，先前的理论研究表明，即使在渐近情形下，Lasso 的自助法推断程序的有效性也难以确立（Fu 和 Knight, 2000；Chatterjee 和 Lahiri, 2010, 2011）。

所提出的 CB 方法的一个显著优势在于，它能够为像 Lasso 这类数学上难以推导有效推断的统计方法提供有效的频率学派推断程序。我们首先将在第 4.1 节通过模拟研究展示所提方法的效率，然后在第 4.2 节通过一个真实数据示例将我们的方法与其他方法进行比较。

4.1 模拟研究

4.2 真实数据示例

Lasso 得到一个包含七个变量的模型：性别、BMI、MAP、S1、S3、S5 和 S6。对于这些选定的变量，我们将我们提出的 CB 方法所获得的置信区间与标准自助法所得结果进行比较。我们还纳入了 Lee 等人（2016）提出的一种近期方法——我们称之为“精确 POSI”——该方法专为 Lasso 的后选择推断设计，能够在给定所选模型的条件下，为 Lasso 所选预测变量构造有效的置信区间。三种方法构建的 95% 置信区间如图 5 所示。对于这三种方法，我们的方法确保在包含全部 10 个预测变量的完整模型下，覆盖率至少达到 95%，而精确 POSI 仅保证在包含七个选定预测变量的模型下条件覆盖率达到这一水平。

标准自助法不能保证 95% 的覆盖率。我们的 CB 方法所得置信区间长度与其他方法相当，但相较于精确 POSI 在 S6 上的区间明显更短。结果还表明，所有方法在 S6 不显著这一点上达成了一致。

5 结论性评述

本文提出了一种重采样近似方法，该方法能够基于似然函数实现有效的有限样本联合推断，并基于轮廓似然实现边际推断。该方法可轻松推广至使用一般损失函数进行点估计的情形。通过校准重采样与精炼步骤，所提方法避免了传统自助法的局限性，并被证明能够获得有效的推断结果。据我们所知，这是首次将重采样方法用于适应有限样本情形下的有效推断。

尽管所提出的方法相较于传统自助法涉及更高的计算成本，但其在计算上仍是可行的。此外，该方法可方便地在现代计算机集群上并行化执行，从而进一步提升其计算可行性与效率。

我们在发展基于重采样的有限样本有效推断方法时的核心思想是：寻找一种重采样方案，使得针对预设置信水平所得置信区域具有有效性保证。在所提出的 CB 方法中，我们构建了一种随机逼近算法，以寻找自适应的 m m-out-of- n n 重采样方案。未来的研究与应用中，可以考虑其他重采样方案以及生成自助估计样本的替代方式。例如，可考虑从自适应的 Dirichlet( δ 1 δ1) 分布中抽取权重，构造加权最大似然估计量，其中 δ δ 代表校准参数。该方法预计在观测样本量较小时尤为有用。

然而值得注意的是，对单个参数获得精确的边际推断可能是一项复杂任务，尚需进一步研究。这凸显了在复杂模型中开展有限样本有效推断所面临的普遍挑战。本文采用 Martin（2015, 2023b）提出的思想来“边缘化”干扰参数，所提出的方法已被证明在理论上有效且经验上高效。这一思路指明了一个富有潜力的方向，鼓励人们就边际推断这一难题——对所有现有学派而言均具挑战性——展开更具创造性的思考。

本文的主要焦点在于开发促进高效参数推断的计算方法。Cella 和 Martin（2022）则在非参数背景下，为风险最小化器的近似推断构建了一个推断模型（IM）框架。鉴于许多现代机器学习应用需要基于未知模型或损失函数进行推断，一个引人兴趣的未来方向是：探索本文所得洞见是否能有效适配于 Cella 和 Martin（2022）所提出的框架，以实现高效的推断。

原文链接：https://arxiv.org/pdf/2408.16763