统计有效超参数选择：从调优到保证|可靠性|神经网络|算法|统计量|自适应

Statistically Valid Hyperparameter Selection: From Tuning to Guarantees

统计有效超参数选择：从调优到保证

https://arxiv.org/pdf/2606.25601

摘要

超参数选择是现代人工智能系统部署中的关键步骤，因为需要调整诸如推理时参数、实现级设置以及驱动决策规则的阈值等自由度。尽管具有重要的实际意义，超参数选择通常采用网格搜索或贝叶斯优化等尽力而为的经验方法来执行，这些方法无法在可靠性或安全性方面提供形式化的统计保证。

本专著提出了一种用于可靠超参数选择的统一统计框架，该框架以“先学习后测试”（LTT）范式为核心，将问题表述为在候选超参数集上进行多重假设检验。该框架能够选择经证明满足特定应用可靠性要求（如平均风险界、分位数风险或信息论约束）的超参数，并对误差概率实现明确的有限样本控制。支撑该框架的统计工具，即p值、e值和集中不等式，在专门附录中从第一性原理出发进行了构建。

从核心LTT方法出发，本专著沿四个方向逐步拓展了该框架。首先，它将LTT从平均风险拓展至一般可靠性泛函，包括分位数风险控制和信息瓶颈约束。其次，它针对必须同时满足多项可靠性约束的多目标场景，开发了帕累托检验与基于可靠性图的帕累托检验。第三，它通过利用e过程和任意时刻有效推断的自适应与序贯方法，放宽了批量校准假设，从而降低标注预算。第四，它考虑了真实标签有限的场景，将基于打赌的检验与预测驱动推断（PPI）相结合，以实现从自评估数据中进行可靠的超参数选择。

贯穿全文，该框架通过图像分类、无线数据包调度以及大型语言模型（LLM）提示工程等实际应用进行了演示，并辅以经验对比，展示了启发式调优与具有统计保证的选择之间的差距。

第1章可靠的超参数选择

1.1 现代人工智能系统中的超参数选择

1.1.1 范围

超参数决定了人工智能模型的构建、训练和部署方式。与从训练数据中自动估计的模型参数不同，超参数必须利用额外的信息源来指定，这些信息源包括先验知识以及校准或验证数据。广义而言，超参数在不同层面上控制着机器学习系统的运行：

模型层，超参数包括架构选择，例如 token 间处理的类型（如自注意力机制与状态空间模型），以及网络的深度和宽度。
学习层，超参数包括学习率、正则化系数、批量大小，以及混合专家架构中的训练时温度。
推理层，超参数决定模型输出如何转化为行动或决策，例如通过置信度阈值、拒绝规则，或解码参数（如语言头的温度）。
部署层，超参数编码诸如模型激活值和权重的精度等方面。

在传统的机器学习流水线中，优化基于模型或基于学习的超参数通常需要使用交叉验证等方法运行多轮训练（参见，例如，(Simeone, 2022)）。然而，对于现代大型 AI 模型，这是不可行的，因为即使单次全量训练也构成了重大的计算投入 (Kaplan et al., 2020; Hoffmann et al., 2022)。

针对模型层或训练层超参数的实际解决方案包括通过优化资源分配策略（如连续减半法 (Jamieson and Talwalkar, 2016) 和 Hyperband (Li et al., 2018)）在多个超参数配置下进行部分重训练。对于极大型模型，通常转而依赖缩放定律，将较低规模下的最优选择转化为较高规模下的有效选择 (Kaplan et al., 2020; Hoffmann et al., 2022)。

与模型层和训练层超参数不同，推理和部署层超参数可以通过预训练模型的后训练策略进行优化。此类后训练方法支持对不同超参数性能的数据驱动评估，即使对于大型 AI 模型也是如此。在本专著中，我们针对推理和部署层超参数，从而聚焦于后训练超参数选择方法。

1.1.2 示例

应用和使用案例的示例包括以下内容：

在大型语言模型中，解码超参数（如温度、核采样阈值和安全过滤器）直接影响回复的多样性、事实性和拒绝行为 (Bommasani, 2021; Holtzman et al., 2019)（参见图 1.2 的示例）。
在推荐和排名系统中，正则化强度和探索参数会影响稳定性、长期用户参与度和反馈循环 (Covington et al., 2016)。

在计算机视觉流水线中，置信度阈值决定预测是被接受还是推迟，从而塑造了检测和分割任务中的查准率-查全率（precision-recall）权衡 (He et al., 2017)。
在支持学习的通信和控制系统中，超参数调节吞吐量、延迟、可靠性和能耗之间的性能权衡 (Shlezinger et al., 2021; Simeone et al., 2025)。
在真值在环（ground-truth in-the-loop）系统 (Geifman and El-Yaniv, 2017; Raghu et al., 2019) 中，置信度阈值和安全裕度控制着模型何时被允许自主行动或升级至回退策略 (Amodei et al., 2016)。

1.2 尽力而为调优方法的局限性

超参数选择传统上被视为一个经验性能优化问题。给定一个校准（或验证）数据集和预定义的评估协议，目标是在计算约束下识别出在该数据集上实现较强平均经验性能的超参数配置。

这种以优化为中心的视角催生了丰富且成熟的关于超参数优化（HPO）的文献。在本节的其余部分，我们首先简要回顾HPO方法，然后讨论促使本专著开发以可靠性为导向的框架的差距和局限性。

1.2.1 以优化为中心的超参数选择

HPO中的主导范式将问题构建为黑盒优化问题。超参数被视为决策变量，训练和评估流水线定义了一个随机目标函数，任务是高效地搜索超参数空间，以最大化预期的经验性能。

早期方法依赖于穷举或随机探索策略，如网格搜索和随机搜索，由于其简单性和鲁棒性，这些方法至今仍被广泛使用（Bergstra and Bengio, 2012）。后续工作引入了基于模型的策略，最著名的是贝叶斯优化，它构建验证性能的代理模型，并使用采集函数来平衡探索和利用（Snoek et al., 2012; Shahriari et al., 2016）。

为了解决评估超参数配置的高计算成本，特别是在现代深度学习中，提出了多保真度和老虎机风格（bandit-style）的方法。诸如连续减半法和Hyperband等方法自适应地分配计算资源，提前终止表现不佳的配置，同时为有希望的候选者投入更多资源（Jamieson and Talwalkar, 2016; Li et al., 2018）。相关思想出现在基于种群的训练和进化策略中，它们在训练期间维护和演化配置种群（Jaderberg et al., 2017）。

最近，基于梯度的HPO方法被开发出来，利用隐式微分和超梯度通过训练过程直接优化连续超参数（Franceschi et al., 2018）。当训练动态是可微且计算上易于处理时，这些方法特别有效。

1.2.2 缺乏可靠性与选择后保证

从本专著的视角来看，上述回顾的方法最好被理解为尽力而为的调优过程。尽管它们在提高平均性能和降低计算成本方面非常有效，但其设计初衷并非为了在部署后对所选超参数的可靠性提供明确的保证。事实上，尽管这些方法在算法上具有多样性，但它们共享一个共同的目标，即优化经验性能。因此，标准的基于优化的HPO方法并未正式考虑与经验风险估计相关的不确定性。正如 (Franceschi et al., 2025) 所强调的，HPO的主要目标是样本效率、计算可扩展性和渐近性能。关于选择后有效性、选择性误差控制或对所选配置的有限样本保证等问题，在很大程度上超出了以优化为中心的框架的范围。

1.3 问题定义

非正式地说，一个可靠的超参数选择是指根据用户定义的阈值，其表现足够好，且违反关键要求的概率很低。因此，可靠性是关于部署系统在未来行为的一种陈述，这种未来行为面临着源于数据变异性和环境随机性的不确定性。本节详述的这一视角，与近期关于从以性能为中心的 AI 系统评估转向以可靠性和安全性为中心的评估的呼吁相一致 (Amodei et al., 2016)。

1.3.1 超参数选择域

1.3.2 可靠性要求

为了确定超参数何时是可接受或可靠的，我们首先指定一个特定于应用的损失度量，例如预测误差、约束违反率或系统级成本。如果所选的损失统计量（例如其期望值或尾部概率）低于用户定义的阈值 α α，则该超参数被声明为可靠的。

1.4 符号与缩写汇总

表 1.1 汇总了本专著中使用的符号，而表 1.2 列出了文中出现的主要缩写。

1.5 专著的范围与组织结构

如前所述，本专著的其余部分将开发1.3 节概述的统计上有效的超参数选择框架，并沿四个方向逐步扩大其范围：更一般的风险概念、多个同时优化的目标、自适应和顺序评估预算，以及在有限标注数据下的认证。

第 2 章介绍了核心方法论，即 (Angelopoulos et al., 2025) 提出的“先学习后测试”（LTT）框架，该框架将可靠的超参数选择表述为一个多重假设检验（MHT）问题。每个候选超参数都关联着一个零假设，即其真实风险超过了目标水平，并且通过任何控制全局误差准则（如族错误率 (FWER) 或错误发现率 (FDR)）的 MHT 过程，都会产生一个有限样本认证的集合。本章开发了支撑性的统计工具，即 p 值和 e 值，并展示了集中不等式和基于打赌的检验论证如何将经验风险估计转化为有效的检验统计量。

第 3 章在两个典型应用上展示了 LTT 框架：Fashion-MNIST 上的图像分类 (Xiao et al., 2017) 和基于学习的无线调度器的数据包调度 (Sant Ana and Marchenko, 2020; Valcarce, 2020)。在这两种情况下，传统的经验超参数优化被证明会以大大超过用户指定的中断概率的比率违反规定的可靠性约束，而 LTT 则如理论保证的那样控制了违规率。

第 4 章将 LTT 从平均风险扩展到更一般的可靠性泛函。本章提出了一种统一的基于反演的方案，用于从单侧置信界构建有效的 p 值，并将其实例化为两个重要的非平均标准：分位数风险控制，它产生了 (Farzaneh et al., 2024) 的分位数 LTT (QLTT) 过程并提供针对尾部事件的防护；以及信息论相关性约束，它产生了 (Farzaneh and Simeone, 2025b) 针对信息瓶颈问题的 IB-LTT 过程。

第 5 章解决了必须同时强制执行多个可靠性约束而尽力优化次要目标的场景。本章开发了帕累托检验（PT）(Laufer-Goldshtein et al., 2023)，它将假设检验限制在经验帕累托前沿，并沿所得排序应用固定序列检验；以及基于可靠性图的帕累托检验（RG-PT）(Farzaneh and Simeone, 2025a)，它通过有向无环图编码先验结构知识，并通过 (Ramdas et al., 2019) 的 DAGGER 算法认证超参数。

第 6 章放宽了前几章的批量校准假设，允许校准数据顺序到达，且获取决策依赖于迄今为止积累的证据。基于 e 过程和 Ville 不等式，本章开发了自适应 LTT (aLTT) (Zecchin et al., 2024)，它将基于打赌的检验与 ϵ ϵ-贪婪获取相结合，以比批量 LTT 显著更少的评估次数识别可靠的超参数，同时在每一个（可能是数据依赖的）停止时间保持 FWER 和 FDR 保证。

第 7 章考虑了真实标签昂贵但廉价的自评估标签可用的场景，例如在 LLM 作为裁判的流水线中 (Gu et al., 2024)。结合第 6 章的基于打赌的检验工具与预测驱动推断 (Angelopoulos et al., 2023b)，本章描述了 (Einbinder et al., 2025) 的 R-AutoEval 方法和 (Park et al., 2025) 的自适应 R-AutoEval+ 方法，后者自适应地重新加权一组依赖因子，并在样本复杂度上经证明匹配全真实测试和全自评估测试中较好的那个。

第 8 章总结了本专著并概述了开放的研究方向。

附录 A汇集了关于统计证据的背景材料。它提供了关于 p 值和 e 值的自包含论述，包括它们的定义、从集中界和随机化检验中的构建，以及区分它们的关键组合性和任意时刻有效性属性。

附录 B汇集了补充第 2 章的关于 p 值和 e 值构建的技术细节：涵盖有界、次高斯和次指数损失的统一矩生成函数视角；基于 Hoeffding 的 p 值的超均匀性证明；以及改进的有限样本构建，包括精确二项和方差敏感的 Bernstein p 值。

附录 C汇集了额外的多重检验过程：Holm、Hochberg、Šidák 和 Westfall–Young FWER 过程，以及 e-BH 过程的 FDR 保证证明。

第2章通过多重假设检验进行超参数选择

本章组织结构如下。2.1 节介绍了风险控制目标和经验风险估计。2.2 节回顾了多重假设检验（MHT）框架和族错误率（FWER）。2.3 节展示了如何将 MHT 与超参数认证联系起来，并证明了主要的认证集保证。2.4 节引入 p 值作为检验统计量，并推导了针对有界损失的基于 Hoeffding 的 p 值。2.5 节引入 e 值作为一种替代的证据度量，并描述了其关键属性。2.6 节通过 BH 和 e-BH 过程开发错误发现率（FDR）控制，这是比 FWER 控制保守性更低的替代方案。2.7 节总结了本章。关于从矩生成函数界构建 p 值和 e 值的技术材料收集在附录 B 中。

2.1 风险控制

贯穿本专著，正如 1.3 节所讨论的，我们固定一个有限的候选集

该集合可能产生于任何上游超参数搜索或模型设计过程。每个超参数 λ ∈ Λ 决定了预训练模型的运作方式。

为一个有界损失函数，它编码了一种与部署相关的（负向导向的）性能概念。注意，任何有界性能度量都可以通过重缩放被约束在标准化区间内。此外，正如 (Angelopoulos et al., 2025) 中所讨论的，无界损失可以通过渐近或截断构造来处理。我们将超参数 λ λ 的风险定义为

其中期望是针对未知的测试时数据分布 P P 计算的。

2.2 多重假设检验

遵循 (Angelopoulos et al., 2025)，我们将风险控制目标视为一个多重假设检验（MHT）问题，以此来解决该问题。为了解释 MHT，请考虑如图 2.1 所示的在线零售商应用的标准 A/B 测试方法。该在线零售商希望探索相对于当前网站配置的可能修改。例如，它可能会试验新的主页布局、不同的产品图片尺寸、备选的行动号召（call-to-action）按钮颜色、修订后的价格显示格式以及个性化推荐横幅。

对于每一个提议的修改，零售商都会制定一个基准主张，称为零假设（null hypothesis），其声称相对于当前配置，该修改并未提高转化率。随后，零售商收集用户交互数据，并评估观察到的改进是否足够显著，从而能够反驳这一基准主张。当数据提供针对零假设的充分统计证据时，零售商便宣布一项“发现”（discovery），这意味着判定该修改产生了实质性的改进。

2.3 通过多重假设检验进行风险控制

2.4 P 值

正如附录 B 中进一步讨论的那样，基于更强大的集中不等式（例如针对 0-1 损失的精确二项尾部，或者基于对损失方差的了解或估计的经验伯恩斯坦界）的更精细的 p 值，可以在识别真实可靠超参数的能力方面显著提高检验性能。

2.4.2 单假设检验的 P 值

2.4.3 多重假设检验中的 P 值

与 Bonferroni 校正不同，固定序列检验（FST）并不将水平 δ δ 分配给这 K K 个假设。因此，当排序将真正可靠的超参数置于序列的前列时，该过程的功效可以显著提高。然而，其性能关键取决于预定义排序的质量：如果不可靠的超参数出现在序列前端，该过程可能会过早停止，从而无法识别出现在序列后端的可靠配置。

2.5.2 构建

存在几种构建有效 e 值的有原则的方法。我们总结了与超参数选择最相关的方法。

将 P 值校准为 E 值：任何 p 值都可以利用 e-校准器（e-calibrator）转换为 e 值。由于与 p 值相比，e 值具有额外的性质，这种转换通常产生的统计量在检测真实零假设方面的功效低于原始 p 值。换言之，为了从 e 值的特殊性质中获益（见 2.5.4 节）所付出的代价是功效的降低。

2.5.3 单假设检验的 E 值

2.5.4 性质

E 值拥有使其区别于 P 值的结构性质，这使得它们在自适应和选择后（post-selection）场景中特别具有吸引力。我们强调两个关键特征：事后水平选择（post-hoc level selection）(Grünwald et al., 2020) 和凸组合下的稳定性 (Vovk and Wang, 2021)。促使这些性质产生的 P 值的相应局限性，以及底层的证明，在附录 A 中进行了回顾。

2.6 错误发现率控制

虽然 FWER 控制通过要求 (2.10) 以高概率防止任何错误认证，但当候选超参数数量 K K 很大时，它可能过于保守。在这种情况下，只要错误认证仅占认证集的一小部分，容忍一定数量的错误认证可能是可以接受的。这促使了对错误发现率（false discovery rate, FDR）的控制。

2.6.1 定义