可能性推理模型：综述|似然|后验|定理|统计量|贝叶斯|高维

可能性推理模型：综述

Possibilistic inferential models: a review

https://arxiv.org/pdf/2507.09007

摘要
推断模型（Inferential Model, IM）是一种用于构建可证明可靠的、数据驱动的不确定性量化与关于相关未知量推断的模型。IM 与 Fisher 的置信推断（fiducial argument）具有相似目标，但二者存在根本区别：前者不要求不确定性量化必须是概率性的，从而提供了更大的灵活性，并允许对其可靠性进行严格证明。近年来的重要进展部分得益于与不精确概率（imprecise probability）文献——尤其是可能性理论（possibility theory）——所建立的新联系。本文所研究的这类可能性型 IM 构造简单，具有极强的类频率学派（frequentist-like）可靠性，并能提供完全条件化的、类似贝叶斯的（不精确）概率推理。本文回顾了这些关键的最新进展，阐述了相关的新理论、新方法和计算工具。此外，本文还提出了一种对基本可能性型 IM 的推广，揭示了其与现代统计学和机器学习中若干思想（如自助法（bootstrap）和保形预测（conformal prediction））之间新颖且出人意料的联系。

关键词与短语：贝叶斯；置信分布；置信推断（fiducial）；频率学派；不精确概率；可能性理论；有效性（validity）。

1 引言
推断模型（IM）是一种用于数据驱动的不确定性量化与关于相关未知量的归纳推断的模型。这些未知量可能是所设定统计模型中的参数或其函数，但也可能涉及其他情形（参见第6节）。更具体地说，IM 提供了一种数学上严谨的、完全条件化的、类似贝叶斯的不确定性量化——无需先验分布或贝叶斯定理——并且在类频率学派的意义上可证明其可靠性，即其输出在重复抽样下自然校准。至少在高层次上，这让人联想到 Fisher 的置信推断所试图实现的目标，因此有必要在一开始就阐明 IM 的创新之处：在缺乏真实先验信息的情况下，概率性不确定性量化存在可靠性上的根本限制；IM 框架并非通过放宽“可靠性”要求来规避这些限制，而是通过放宽“概率性”要求，转而在一个更灵活（但仍数学严谨）的框架中工作——该框架不要求对每个关于未知量的命题都赋予单一或精确的概率值。后续章节将深入探讨这些细节。目前只需指出，正是这种在统计推断背景下对不精确概率理论中的概念与工具的新颖运用，促使 Cui 和 Hannig（2024）将 IM 描述为“2010 年代最具原创性的统计创新之一”。

自专著《推断模型：不确定性推理》（Martin and Liu, 2015b）出版至今已约十年，此后在基础理论、方法论和计算等各方面均取得了诸多令人振奋的进展。近期这些进展的一个重要推动力在于人们认识到：尽管 IM 偏离了经典概率论，使人进入陌生领域，但这一新领域并非无人涉足——整个不精确概率理论研究社群及其丰富的文献，蕴含着大量重要的洞见、理解以及数学与计算工具。这些努力也激发了其他方向的发展（例如 Caprio 等，2025；Williams，2023；Xie 和 Wang，2022），并为重新理解贝叶斯推断、置信推断、自助法、保形预测等提供了新机遇。本文旨在回顾这些最新进展（它们与上述专著中的内容相关但又有所不同），并呈现一些新的见解、方法和结果。希望本综述能使这些激动人心的进展更易于理解，并吸引新一代研究者关注这些基础性突破与开放问题。

为实现这一目标，本文其余部分安排如下：第2节通过回顾概率性不确定性量化的现状并指出其缺陷，为后续内容铺垫背景。特别是，第2.4节从一个新视角阐释了“虚假置信定理”（False Confidence Theorem，Balch 等，2019），该定理表明：在本文所考虑的无信息先验情形下，任何依赖数据的后验概率分布——无论是采用任意先验的贝叶斯方法，还是（广义）置信推断等——都倾向于对某些错误假设赋予高概率或高置信度。这一结论具有双重含义：概率性不确定性量化存在固有的不可靠性；要纠正这一点，必须借助不精确概率领域中更灵活的工具进行不确定性量化。

第3节深入探讨可能性型 IM 的构造细节。此处强调“可能性型”（possibilistic），是因为这一新视角（与 Martin 和 Liu（2015b）中提出的类似）高度依赖于可能性理论的解释、演算、计算工具和数学结构。随后介绍了 IM 的关键性质，包括有限样本有效性（finite-sample validity），该性质确保其不精确概率输出得到恰当校准，特别是由此导出的检验和置信集具有频率学派的错误率保证。文中还讨论了效率问题，包括一个新提出的可能性型 Bernstein–von Mises 定理，该定理保证 IM 的输出在渐近意义下呈可能性高斯分布，并具有经典意义上的效率。但 IM 并非纯粹的频率学派方法——它同时也提供完全条件化的不确定性量化；第3.4节综述了以往工作中较少关注的相关类贝叶斯性质。IM 的计算并非易事，第3.5节简要回顾了一项令人振奋的新进展，该进展通过基于抽样的蒙特卡洛方法，有效实现了对 IM 非概率性输出的计算。

第4节阐明：IM 提供的远不止是频率学派与贝叶斯学派的“统一”——IM 框架实际上填补了这两种范式各自的漏洞！第5节处理消除冗余参数（nuisance parameters）这一重要实际问题，并由此引出第6节所呈现的一些新进展，这些进展使 IM 能够实现更高层次的不确定性量化，超越传统统计模型框架。该节还探讨了该思想在风险最小化推断和（保形）预测中的应用。第7节对全文进行简要总结，提及本综述未涵盖的一些相关主题，并提出若干供未来研究的开放问题。附录提供了部分支撑性技术细节和额外示例。

有人或许会认为此类基础性研究不切实际，但我持不同看法。多年来，我们一直听闻统计学作为一门学科有“错过数据科学这班船”的风险；参见 He 等人（2025）近期的报告。统计学家普遍认同统计学是数据科学的重要组成部分，那我们为何如此担忧？船长从不担心错过船，大副和二副亦然；只有辅助船员和乘客才会忧虑赶不上船。这种对错过数据科学之船的恐惧，暴露了我们社群内心深处的不安全感。这种不安全感显然并非源于统计学家从事的应用项目不够多，或证明的一致性定理不够多。相反，它必定源于某种更深层、更令人尴尬的缺陷，例如：“一门对科学和批判性思维至关重要的学科，为何会有两种方法论、两种逻辑、两种经常对同一问题给出截然不同答案的路径？”（Fraser, 2011b）。只要这些根本性问题尚未解答，我们的学科就无法对其贡献充满信心。唯有通过解决这些根本问题来为学科确立方向，才能证明我们拥有独特的专业能力，从而让我们确信：这艘船不可能——因而也绝不会——抛下我们。

2 背景与动机

2.1 问题设定与记号

设 Z 表示可观测数据，取值于样本空间 ℤ。通常情况下，Z 包含分量 Z₁, ..., Zₙ，其中 Zᵢ = (Xᵢ, Yᵢ) 可能是一对独立或相关的变量等。当涉及样本容量为 n 的大样本性质时（例如），我会写作 Zⁿ = (Z₁, ..., Zₙ)。在全文中，z（或 zⁿ）表示可观测数据 Z（或 Zⁿ）的一个特定实现。

接下来，假设一个统计模型 {Pθ : θ ∈ Θ} 被施加于数据，该模型由支撑在 ℤ（或其子集）上的概率分布组成，用于量化可观测数据 Z 中的变异性或偶然性不确定性；我将在第6节及后续内容中放宽这一参数模型限制。概率分布 Pθ 具有对应的密度/质量函数 pθ(z)，若 Z = z 是观测到的数据，则 θ ↦ Lz(θ) := pθ(z) 即为似然函数。

最后，设 Θ 表示未知的真实参数值，即满足陈述“Z ∼ PΘ”为真的那个值；这一点之后也会被放宽。与我对 z 和 Z 的记法类似，请注意：我用 θ 表示一般的参数值，而用 Θ 表示待推断的未知真实值。重要的是，此处我将假设关于 Θ 的先验信息是空缺的（vacuous），即对于问题“Θ 属于集合 A 的先验概率是多少？”我的回答是“介于 0 和 1 之间”，对所有 A ∉ {∅, Θ} —— 完全无知。尽管在统计学文献中，无知状态是最常被假定的，但这并非因为完全无知在现实中是合理的——事实上，在应用中几乎不可能对感兴趣的数量“一无所知”。关于允许非空缺、不完整先验信息的近期进展，请参见第7节的简要讨论。

归根结底，由于关于 Θ 的先验信息是空缺的，我们所能依赖的只有为 Z 所设定的模型（其中包含似然函数等）以及一个特定的观测实现 z。正如 Hacking（1976）所言：“统计学家希望获得衡量数据对假设支持程度的数值度量”，在我看来，这正是指概率性不确定性量化（见第 2.2 节）。因此，尽管先验信息完全空缺，使得严格的贝叶斯推断无法实现，我们的目标仍然是为关于未知量 Θ 的假设赋予依赖于数据的概率（或类似的东西）。

为此，我将追随 Fisher——“量化不确定性的世界大师”（Pearl, 2018）——以及 Jeffreys、Dempster、Berger、Walley 等其他先驱者的思路。

2.2 概率性不确定性量化

目前，“概率性不确定性量化”指的是为关于未知量 Θ 的假设赋予依赖于数据的概率，记作 Qz(·)。关键在于，由子集 H ⊆ Θ 所确定的假设 “Θ ∈ H” 要么为真，要么不为真；若该假设被赋予较大的 Qz(H)，自然会被解释为数据 z 支持该假设为真。（此后，当我提到“假设 H”时，即指假设 “Θ ∈ H”。）因此，这些概率的大小可广泛用于评估数据支持或不支持哪些假设。当然，这些概率也可用于其他目的（例如可信集/置信集、预测和决策），但正是这种基本功能——即广泛评估数据在何处提供支持——将概率性不确定性量化与其他方法区分开来。在下文第 2.3 节中，我将简要概述现有概率性不确定性量化方法中最常见的两种。

必须注意区分两类概率性不确定性量化：一类针对本文所考虑的不可观测且未知的 Θ；另一类则针对可观测但未知的量，例如未来的数据点。在后一种情形中，所用的概率模型可直接通过观测进行检验：如果模型声称某个预先指定事件的发生概率（实质上）为零，而该事件却发生了，那么该模型必定是错误的。这就是 Cournot 原理，参见 Vovk（1993）、Shafer（2007）以及 Shafer 和 Vovk（2019，第 10 章）。然而在前一种情形中，真实的 Θ 通常永远不会被揭示，因此关于 Θ 的概率性不确定性量化无法直接通过现实进行检验。但它可以间接地接受可靠性审查：“即使在推断中并未直接采用基于经验频率的概率观，如果一种……表达不确定知识的程序在重复使用时会系统性地得出误导性结论，那也是不可接受的。”（Reid and Cox, 2015）

在当前语境下，所指的“程序”是一个从数据 z 映射到 Θ 上的概率分布 Qz 的映射 z ↦ Qz；当假设为假（即 H ∉ Θ）时，若 Qz(H) 作为 Z ∼ PΘ 的函数倾向于变大，则该程序会系统性地得出误导性结论。因此，在高层次上，概率性不确定性量化是可靠的，当且仅当对于错误假设 H，Qz(H) 较大的“客观”PΘ-概率本身很小。用符号表示（但仍仅为粗略表达），如果我定义函数

那么，z ↦ Qz 具有右侧表达式对所有 H ⊂ Θ 均为较小值的性质显然是可取的。重要的是，该函数的一个更精确定义的版本（参见第 2.4 节）可以被评估并用于衡量给定概率性不确定性量化程序 Π 的可靠性。这些考虑隐含地表明了 Cournot 原理的作用——尽管是从与上述不同的角度出发。事实上，由于具有很小 PΘ-概率的事件实际上不会发生，如果上述表达式的右侧在前述意义上很小，则 Qz 不会对错误假设赋予高概率，从而不会产生“系统性的误导性结论”。

2.3 现有方法

默认先验贝叶斯方法（Default-prior Bayes）在缺乏真实信息时，使用相等概率作为默认选择的想法由来已久。它最早出现在贝叶斯（Bayes, 1763）的原始工作中，随后被拉普拉斯（Laplace, 1812）及其同时代学者采纳，最终被称为“不充分理由原则”（principle of insufficient reason）（例如，Stigler, 1986，第127–129页）。凯恩斯（Keynes, 1921，第4章）后来将其更名为“无差别原则”（principle of indifference），并描述如下：

“无差别原则断言……若没有正面理由为若干选项分配不等的概率，则必须为它们分配相等的概率。”（Keynes, 1921，第45页）

一方面，上述原则至少在初步考虑时似乎普遍可接受，并已被广泛应用于各种场景，且以多种方式得到推广（例如，Jaynes, 2003）。另一方面，包括凯恩斯和费舍尔（Fisher）在内的许多作者对该原则提出了严厉批评。

杰弗里斯（Jeffreys）以不同视角回应了费舍尔的批评。他并未试图对“无知”给出概率性描述——这是一项不可能完成的任务（见第2.4节）——而是聚焦于构建在其他方面具有合理性的默认先验：

“……找到一种方式来表达某个参数的大小是未知的，而其所有可能取值都不需要特别关注。”（Jeffreys, 1998，第117页）

他的努力催生了如今被广泛使用的杰弗里斯先验（Jeffreys priors, Jeffreys, 1946），后续研究证明这些先验所导出的后验分布在大样本下具有优良性质（例如，Datta and Ghosh, 1995；Welch and Peers, 1963）。目前，杰弗里斯方法已在多个方向上得到实质性推广（例如，Berger et al., 2024）。然而，尽管取得这些进展，学界对于哪种（如果有的话）默认先验是“正确”的，仍未达成普遍共识，显然这一根本问题仍未解决；参见第23页引用的埃夫隆（Efron）的评论。

置信推断及其类似方法（Fiducial and the like）费舍尔（Fisher, 1930, 1933, 1935a,b）提出了一种新颖的、非贝叶斯的概率性不确定性量化方法——萨维奇（Savage, 1961）曾将其著名地描述为“试图在不打破贝叶斯鸡蛋的情况下做出贝叶斯煎蛋卷”。此处我不展开细节，读者可参阅 Zabell（1992）和 Savage（1976）以深入了解费舍尔的思想，以及 Xie 和 Singh（2013）、Hannig 等人（2016）、Schweder 和 Hjort（2016）对类置信推断的现代观点。

粗略而言，费舍尔的置信推断（fiducial argument）将基于模型、依赖参数的概率分配给关于可观测数据的事件，然后将这些事件重新解释为（依赖数据的）关于未知参数的断言，并将原先分配给这些事件的概率“翻转”为在给定观测数据下关于未知参数的主观概率。费舍尔选用的形容词“fiducial”（意为“基于信念或信任”）清楚地表明，他意识到自己的论证并非数学上严谨。费舍尔心中必定设想了某种原则，可为其置信概率中的“信念/信任”提供正当性，但据我所知，他从未明确陈述过此类原则。邓普斯特（Dempster, 1963, 1964）将其描述为一种“继续视为”（continue to regard）的操作；Hannig 及其合作者（例如 Hannig et al., 2016；Murph et al., 2024）则称之为“切换原则”（switching principle），即在其中随机性与固定性角色发生互换。无论如何，置信推断融合了数学推理与原则应用，因此与默认先验贝叶斯方法并无本质区别。

由于费舍尔的声望及其所提方案的神秘性，置信推断获得了大量关注——也遭受了严厉审视。林德利（Lindley, 1958）、邓普斯特（1963, 1964）以及 Buehler 和 Fedderson（1963）对费舍尔的构想给予了致命打击。尽管这些批评极具洞察力，但它们主要只是证实了置信推断在数学上并不严谨。费舍尔所提供的解决方案缺乏数学严谨性，并不意味着该问题本身不切实际、无关紧要或不可解。因此，置信推断对统计学家而言仍如同“圣杯”一般：

“费舍尔试图在两种极端之间开辟一条道路：一边是无条件的行为主义方法（否认任何‘推断’尝试），另一边是科学中的主观主义。他的尝试基于重要的关切，而他个人未能找到令人满意的解决方案，仅仅意味着问题尚未解决，而非问题不存在。”（Zabell, 1992，第382页）

2.4 概率论是否适合这项任务？

在统计学文献中，不确定性量化必须使用概率论来构建这一观点几乎被当作理所当然。但值得追问的是：概率性不确定性量化能否实现第 2.2 节所述的可靠性目标？剧透警告——这个问题的答案是“否”。

简而言之，概率性不确定性量化无法达到第 2.2 节引入的可靠性概念。对于任何表示在给定 Z = z 下关于未知量 Θ 的概率性不确定性的映射 z ↦ Qz，总存在一些错误假设 H（即 H ∉ Θ），使得 Qz(H) 随着 Z ∼ PΘ 变化而趋于变大。如果将较大的 Πz(H) 解释为对 H 真实性的“置信度”，那么当 H 为假而 Qz(H) 却很大时，这些不理想的情形可被描述为“虚假置信”的实例；结果表明，所有形式的概率性不确定性量化——无论是贝叶斯、置信推断等——都会受到此问题影响。也就是说，无论为了建立置信度需要多大的概率值，总存在某些错误假设，其后验概率会以任意高的频率赋予高度置信，从而带来“系统性误导性结论”的风险。以下的“虚假置信定理”对此进行了精确表述。

定理1（Balch 等，2019）。设 z ↦ Qz 决定一个关于 Θ 上勒贝格测度绝对连续的数据依赖型概率分布。定义与 z ↦ Qz 相关的虚假置信率如下：

换句话说，无论需要多高的置信水平 1−α 来确立某个假设的真实性，总存在某些假设 H，其虚假置信率 FCRQ(α, H) 可以任意地大。由于这一现象对任何概率性不确定性量化方法都成立，因此不能将其归咎于先验分布选择不当或费舍尔置信推断背后的理论问题等。这是概率论在处理数据驱动的未知量不确定性量化时所固有的缺陷。

必须立即澄清的一个批评是：高虚假置信率仅出现在“平凡”假设上，例如 H 是一个勒贝格测度为零的集合的补集。诚然，这类“平凡”假设确实会受虚假置信影响——但这种影响是“同样平凡”的，因为对所有 z 都有 Qz(H) ≡ 1；然而，虚假置信也频繁出现在许多看似无害的假设上，而不仅限于这些平凡情况；下文将给出一个具体例子。在继续之前，有必要指出：问题设定中没有任何内容暗示应忽略“小集合补集”类型的假设；毕竟，“小假设”可能是真的，而“大假设”也可能是假的，因此假设大小不应影响不确定性量化的可靠性。费舍尔关于误将似然函数解释为概率的著名警告在此处具有相关性：

“[似然函数]本身并非概率，也不服从概率法则；它不涉及微分元素 dθ₁dθ₂dθ₃…；但它仍能提供一种理性依据，用于偏好某些 θ 值（或 θ 值组合）而非其他值。”（Fisher, 1930, 第552页）

他显然在论证：仅凭似然函数即可用于评估观测数据与某一假设 H（即关于 Θ 的“一组取值”）之间的相容性。如果似然函数不含微分元素，则相容性并非通过在 H 上积分来评估，因此 H 的大小与这些相容性考量无关。

为了快速演示虚假置信现象，考虑一个简单的线性回归模型，其中 Z = (Z₁, …, Zₙ)，且 Zi = (Xi, Yi)，满足

(Yi | xi, θ) ∼ind Pθ,i := N(β₀ + β₁xi, σ²), θ = (β₀, β₁, σ²).

按照惯例，我将把 xi 视为给定的固定常数；在以下模拟中，我从 Unif(−2, 2) 中独立抽取这些值。标准的贝叶斯默认先验对应共轭正态-逆伽马先验，因此相应的后验推断相当直接。为观察虚假置信如何潜入，假设我们关注如下假设：

H = {(β₀, β₁, σ²) : −β₀/β₁ > −1},

这相当于一个假设：回归函数的根大于 −1。假设真实参数 Θ 为 (0.3, 0.1, 1)，则上述假设实际上是错误的。图1 展示了基于 1000 个样本量 n=25 的数据集、该贝叶斯后验分布所对应的虚假置信率 α ↦ FCR(α, H)（的下界）的图像。请注意，即使这个下界在整个 α 取值范围内也非常高。贝叶斯后验倾向于赋予错误假设相对较高的概率，正是这种趋势带来了系统性误导结论的风险。

以概率论形式化统计不确定性量化的风险并非新问题。例如，Fraser（2013）写道：

因此，Xie 和 Singh（2013）建议我们忽略对置信集或等价形式的限制，允许自由构造参数分布。诚然，这类分布更易于思考，在很大程度上符合费舍尔最初的提议，也更接近贝叶斯方法的自由度，但它们确实忽略了固有的风险……

这些风险主要涉及在执行边缘化（marginalization）时所导致的不可靠性（例如，Balch 等，2019；Dawid 等，1973；Fraser, 2011a）。Schweder 和 Hjort（2013）警告称：“我们认为不应追求联合[置信分布]，因为它们可能轻易使统计学家迷失方向”，他们担心用户会难以抗拒进行熟悉的概率性边缘化操作，从而带来不可靠性的风险。虚假置信或更广义上的不可靠性风险的根本原因仍是一个开放问题。当前的一个猜想是：当假设涉及模型参数的非线性函数时（Martin, 2024），虚假置信更容易发生——例如上文中的 H 是关于比率的假设；Fraser（2011a）和 Fraser 等人（2016）的分析也给出了类似的重要结论。有关可能性型 IM 边缘化的更多细节见下文第5节。

2.5 若非概率论，那又该是什么？

在统计推断背景下，概率性不确定性量化所涉及的不可靠性问题具有普遍性，并非特定于某一种概率性不确定性量化方法。因此，要解决这些问题，就必须超越概率性不确定性量化，转向其他替代方案。这种“其他方案”应当具有类似概率的性质，以确保不确定性量化仍有意义，但它不能满足可加性（additivity）。Choquet（1954）提出的容度（capacities）是非可加的集函数，我将在下文展示：一种特殊类型的数据依赖型容度能够实现普通概率所无法达到的理想可靠性性质。

粗略地说，不精确概率（imprecise probabilities）是具有额外性质的归一化容度，使其成为量化不确定性的合适模型。统计学家可能熟悉的例子包括：由 Dempster（1966, 1967, 1968）首创、后由 Shafer（1976）形式化的信任函数（belief functions），它们属于无限单调容度；在稳健性研究中出现的 2-单调容度（例如 Berger 1984；Huber 1973, 1981；Wasserman 1990b；Wasserman 和 Kadane 1990）；以及 Walley（1991）提出的广义贝叶斯框架下的下预估（lower previsions）。以下内容无需涉及这些特定形式的不精确概率的具体细节。此处我希望聚焦于“不精确性”（imprecision）本身及其作用。

在教科书中，普通或精确的概率理论通常置于一个机会实验（chance experiment）的背景下——例如掷一枚均匀六面骰子——其中实验的具体设定都明确说明，但结果无法被确切预测。此时，概率用于量化人们对于该实验不可预测的结果是否满足某一特定属性的不确定性。这种类型的不确定性称为偶然性不确定性（aleatory uncertainty）。但如果实验的具体设定并未全部明确呢？如果骰子的配置存在模糊性——例如，“也许一半的面标着‘3’”，“也许它不对称地偏向‘6’”等等——那么显然不存在单一的概率值能准确捕捉关于结果的不确定性。这种模糊性是认知不确定性（epistemic uncertainty）的一个例子，而普通概率理论无法容纳此类不确定性。在对骰子完全无知的极端情况下，应用无差别原则并假设每个面概率相等是不可接受的：当一个人对骰子一无所知，而另一个人确信骰子是公平的时，这两种截然不同的情形如何能得出相同的评估结果？问题不在于公平性假设本身，而在于相信单个概率值能够同时捕捉偶然性和认知不确定性。不精确概率旨在直接应对认知不确定性，即规格模糊性（specification-ambiguity）。因此，不精确性并非源于评估不当造成的不足；而是为了诚实地努力完整捕捉所有不确定性。

更具体地说，一个不精确概率对应一对下概率和上概率，为本文目的起见，记作 (P̲, P̄)。这对元素之间的关系将在后文阐明（另见第3.2节），但通常二者都不是概率测度。对 (P̲, P̄) 最简单的解释就是一组精确概率的上下界。为便于具体理解，在上述骰子例子中，设表示所有可能用于实验的骰子集合；这个集合捕捉了认知不确定性。每个骰子 D ∈ 都有一个关联的概率 PD，用于量化掷骰子 D 的结果所具有的偶然性不确定性。为了同时捕捉认知不确定性，可以使用

现在应当清楚的是，(P̲, P̄) 是相互关联的——它们都与集合 {PD : D ∈ } 相关联。在极端情况下，当人们对即将掷出的骰子一无所知时，集合包含所有可能的骰子，因此对于所有 A ∉ {∅, ᶜ}，有 P̲(A) = 0 且 P̄(A) = 1。更一般地，现在可以明确：不精确概率比普通或精确概率更具细微差别，而这种额外复杂性的动机在于恰当地处理偶然性不确定性和认知不确定性。

这一点与当前关于 Θ 的不确定性量化目标相关，因为在先验无知（a priori ignorance）的情况下，认知不确定性占主导地位。从这一角度看，认为数据足以提供信息，从而将完全无知的不精确先验映射为既完全精确又可靠的后验，这种想法是完全不现实的。不精确性是必要的。事实上，Walley（1991）提出的广义贝叶斯规则在应用于完全空缺的先验时，仍会返回一个空缺的后验，这意味着当人们事先一无所知时，不可能以贝叶斯方式学习；另见 Kyburg（1987）、Walley（2002），以及最近的 Gong 和 Meng（2021）。非贝叶斯学习方法虽不受此类批评影响，但这种优势显然需要付出高昂代价——即必须彻底放弃概率论，转而采用没有自然固定数据不确定性解释的程序；参见第6页 Zabell 的引言。

然而，我的主张是：许多这些非贝叶斯学习策略实际上对应于不精确概率型、或更具体地说，可能性型（possibilistic）不确定性量化，只是尚未有人意识到这一点。尽管在 Fisher（1973）的工作发展之时，不精确概率理论尚不存在，但其中某些段落暗示 Fisher 可能已预见到某种不精确或近似的概率理论：

“[p 值] 比任何关于该命题的精确概率陈述更为原始或基本，且无法证明其合理性”（同上，第46页）
“然而，显然没有任何精确的概率陈述可以基于[置信限]”（同上，第74页）

推测起来，非贝叶斯主义者并非反对固定数据不确定性量化的解释，他们只是不知道如何在不走贝叶斯路径的前提下为其提供正当理由，而这可能危及可靠性。下文所述的发展展示了如何获得既可靠又高效的可能性型不确定性量化。

3 可能性推断模型

3.1 视角

推断模型（IM）是一个从数据 z 映射到一对下概率与上概率 (Π̲z, Π̄z) 的映射，该概率对定义在参数空间 Θ 上，用于量化关于未知量 Θ 的不确定性，即一种用于不确定性量化与推断的模型。这包括前文讨论过的概率型方法，将其视为特例。但 Martin 和 Liu（2013, 2015b）关注的是可证明可靠的 IM，这需要特别谨慎和考量，因此我将追随他们的思路，不再过多关注这一广义定义。

Martin 和 Liu 最初的构造包含三个步骤。第一步是通过一个数据生成过程或关联关系（例如 Z = a(Θ, U)），表达所设定的模型，其中 Z 是可观测数据，Θ 是未知参数，U 是一个具有已知分布的不可观测辅助变量。同样的关联关系也用于 Fisher 的置信推断以及 Dempster（1967）、Fraser（1968）和 Hannig 等人（2016）提出的推广中。IM 方法的不同之处在于，其关注点集中在未观测值 u 上，因为观测数据 z 与未知参数 Θ 之间的关系 z = a(Θ, u) 必须成立。第二步是 Martin 和 Liu 构造 IM 所独有的一步：在此处引入“不精确性”，他们使用一个合适的随机集的分布来量化关于未观测值 u 的不确定性。由于 U 的分布是已知的，因此很容易确保这种关于未观测值 u 的不确定性量化是可靠的。然后第三步通过关系式 z = a(Θ, u)，将 u 的随机集映射为给定 Z = z 条件下 Θ 对应的随机集，而前一步所提供的可靠性会立即转移到后者。于是，在给定 Z = z 条件下关于 Θ 的不确定性量化，就基于后者的随机集分布——再次地，它可以被表示为一个信任函数（belief function）。

这种通用方法非常强大，能够提供可证明可靠的、无需先验的不精确概率推断，这可以说是 Fisher 在置信推断中追求的目标。但通用 IM 方法也存在一些局限性。首先，它要求指定一个关联关系 “Z = a(Θ, U)”，而该关系并非由模型 {Pθ : θ ∈ Θ} 唯一确定。其次，为了使推断有效，需要非平凡的努力来操纵该关联关系并降低辅助变量的维度（Martin and Liu, 2015a,c）。第三，对于未观测值 u 的随机集，一个合理且“最优”的选择始终难以获得。单独来看，这些都不是严重的障碍，但综合起来，它们构成了阻碍 IM 应用于实际场景（至少对非专家而言）的壁垒。Martin（2015, 2018）提出了一种不同的、广义化的 IM 方法，专门避免了上述限制，而我将在本文中重点关注围绕该版本 IM 构造的近期发展。

关于基于随机集的构造，有一个技术要点需要说明，以为后续内容提供背景。Martin 和 Liu（2015b）中的定理 4.3 指出，用于量化关于未观测值 u 不确定性的唯一可接受的随机集是嵌套的，即对于任意两个随机集的实现，其中一个必然是另一个的子集。虽然一般而言，随机集的分布可用信任函数描述，但嵌套随机集的分布对应于一种特殊类型的信任函数，即一致信任函数（consonant belief function）；参见 Shafer（1976, 1987）。一致信任函数对应于可能性测度（possibility measures）（例如 Dubois 2006; Dubois and Prade 1988），并且它们类似于统计学家熟悉的一类概率分布。由于上述定理意味着高效的 IM 必须采取 Θ 上的可能性测度形式，我将专注于可能性型 IM；另见 Liu and Martin（2024）。对可能性理论基础不熟悉的读者，请查阅附录 A，以了解与下文统计发展相关的背景知识。

3.2 构造

我将始终假设，对于几乎所有 z，分母是有限的。相对似然可以直接赋予一个不精确概率（事实上是可能性型）解释，且这一点已被广泛研究（例如，Denceux 2006, 2014；Shafer 1982；Wasserman 1990a）。但基于原始相对似然的可能性型不确定性量化，也存在与上文讨论的概率性不确定性量化类似的问题——显然无法控制虚假置信率。

然而，相对似然扮演着一个重要角色，即根据参数值与观测数据 Z = z 的相容性对其进行排序，这正是 Fisher 所设想的角色。可以说，上述相对似然函数 θ ↦ R(z, θ) 是“最优”的此类排序函数，因为它是极小充分统计量，即它对所设定模型和观测数据的信息利用最为高效。但这并非唯一可能考虑的排序函数；参见下文第6节。

可能性型 IM 构造的第二步是“验证化”（validifying）（Martin 2022a）相对似然（或其他排序函数）。这相当于应用一种“概率到可能性转换”（probability-to-possibility transform）的版本（例如，Dubois 等，2004；Hose 2022），并返回可能性型 IM 的轮廓函数：

请注意，这种基于优化的公式不涉及任何微分元素，因此，H 的大小对 Πz(H) 完全没有影响；参见第 7 页的 Fisher 引文。相应的必要性测度，或称下概率，通过共轭定义：Πz(H) = 1 − Πz(Hc)。图 2 展示了 πz 及其对应的 Πz 的一个示例。附录 B 给出了这一新的可能性 IM 构造与原始随机集基础的 IM 构造之间关系的解释。

以下将提供更多细节，但关键点在于：在给定 Z = z 的条件下，映射 H ↦ {Πz(H), Π̲z(H)} 可靠地量化了关于 Θ 的不确定性。例如，当 Πz(H) 较小时，H 是不可信的，因为数据对“Θ ∈ H”为真的支持甚少或没有；类似地，当 Π̲z(H) 较大时，H 不仅是合理的，而且是可信的，因为数据对“Θ ∈ H”为真提供了强有力的支持。

3.3 基于抽样的可靠性性质

3.3.1 有效性

可能性 IM 的核心可靠性性质是强有效性。

定理 2。可能性 IM 在如下意义上是强有效的：

这对应于 p 值的熟知结果，是基础数学统计课程中所教授的概率积分变换的直接推论。虽然这些结果以及部分（但非全部）下文结果在 p 值的语境中可能较为熟悉，但重要的是要记住：p 值通常仅用于孤立的显著性检验，而非作为构建广泛、数学上严谨的可靠不确定性量化框架的基础模块。此外，此处的结果之所以与熟悉的 p 值考量相一致，仅仅是因为我假设了空洞的先验信息；更一般的情形已在 Martin (2022b) 中涵盖，并在下文第 7 节中简要讨论。

强有效性具有若干重要推论。首先，(4) 式立即意味着可能性轮廓的上 α 水平集是一个 100(1−α)% 置信区域。请注意，贝叶斯和可信区间通常只能在样本量趋于无穷时渐近地达到置信集的地位。图 2 给出了上水平集 Cα(z) 的示意图，其中 α = 0.1。

那么，正如对(6)式的解释那样：IM 将较大的下概率赋予一个错误假设，这是一个小概率事件。

一个自然的问题是：为何相同的 α 会同时出现在上述两个表达式的大括号内外。原因在于，数值概率的解释是与语境无关的。也就是说，尽管“小”和“大”概率的具体含义可能因人而异，但像“概率为0.1”这样的陈述，对于某个特定个体而言，无论主题是明天的天气还是关于未知参数 Θ 的数据驱动不确定性量化，其含义都是相同的。因此，相同的 α——代表某人所解释为“小”的任意值——既出现在(6)式概率陈述的内部，也出现在其外部。

在(6)式意义上的有效性，对于假设检验程序的构建以及对虚假置信率（FCR）的控制具有若干重要推论。就后者而言，虽然除了拒绝学习（即对所有 z 设定 Πz ≡ 0）外，没有任何方法能彻底消除虚假置信，但重要的是要通过置信度阈值 α 来控制 FCR。贝叶斯和可信区间型的不确定性量化方法无法控制 FCR，但可能性 IM 却能做到。

推论 2。可能性 IM 在 (6) 式的意义上是有效的。因此：

检验“若 Πz(H) ≤ α 则拒绝 H”将第一类错误概率控制在水平 α。
若 FCRΠ(α, H) 是与可能性 IM 的下概率 z ↦ Πz 相关联的虚假置信率（类似于 (1) 式），则对所有 H ⊂ Θ，均有 FCRΠ(α, H) ≤ α。

最后，尽管在例如 Martin 和 Liu (2013, 2015b) 中，有效性与强有效性或多或少被视为等价的性质，但重要的是要强调：强有效性（4）确实比有效性（6）更强。这一点最初在 Cella 和 Martin (2023) 中得以确立，其中证明了（4）中的强有效性与（6）的一个“关于假设一致”的版本是等价的。换言之，这种“关于假设一致”的有效性意味着：IM 将较小的上概率赋予任意真实假设（即使该假设是由对手选择或依赖于数据的）是一个小概率事件。这揭示了 IM 的不确定性量化远不止于显著性检验。

推论 3。可能性 IM 满足一种“关于假设一致”的有效性性质：

sup{Πz(H) ≤ α 对于某个满足 H ∋ θ 的 H} ≤ α，α ∈ [0,1]。 θ∈Θ

3.3.2 效率

有效性并非唯一与可靠性相关的概念。事实上，实现有效性极为容易——只需对所有 z 和所有（非平凡的）H 设定 Πz(H) ≡ 0 且 Π̲z(H) ≡ 1 即可。当然，问题在于，这种选择的结果恰好与空洞先验一致；从数据中未学到任何信息。因此目标是在保留可靠性的前提下，尽可能充分利用可用数据。我此前已提及并将继续称这一互补的可靠性概念为“效率”。此处的问题具有基础性，与 19 世纪 Legendre 和 Gauss 关于最小二乘法、更一般地关于观测值组合（例如 Stigler 1986）以及 20 世纪后关于充分统计量、Fisher 信息、Cramér-Rao 下界等概念所发展的基本概念相关。

谨慎整合来自不同来源的信息对于高效推断至关重要。在早期 IM 发展中，Martin 和 Liu (2015a) 通过手动方式处理这一整合，即适当操作连接数据 Z、参数 Θ 和辅助变量 U 的关联关系。他们“重新发现”了经典降维技术，如充分性和基于辅助统计量的条件化方法；他们还发展了一些新的见解，超出了本综述的范围。虽然他们的手动方法提供了更大的灵活性，从而具有更高的效率潜力，但往往难以实施。当前的构造方法采用相对似然排序，自动以某种“最优”方式结合观测值（至少在某些情况下），无需任何人工干预。下文将回顾来自 Martin 和 Williams (2025) 的结果，表明上述有效的可能性 IM 在熟悉的意义上是渐近有效的。因此，IM 的精确有效性（及不精确性）在效率方面没有任何代价。

以下总结的是著名 Bernstein–von Mises 定理的可能性理论版本，该定理出现在贝叶斯和（广义）可信文献中，它确保输出渐近服从高斯分布，其协方差矩阵与 Cramér-Rao 下界一致。Bernstein–von Mises 定理对贝叶斯和可信方法很重要，因为它保证了可信集是渐近置信集。对于可能性 IM，根据上述推论 1，轮廓水平集自动成为置信集，因此下面的定理 3 严格关注 IM 的效率。

为了理解这一点，我需要引入高斯可能性测度的概念。令 gm,v 表示 d 维高斯概率密度函数，由均值向量 m ∈ ℝd 和协方差矩阵 v ∈ ℝ+d×d 参数化。将相应的高斯可能性测度定义为 Nd(m,v) 的外层可能性近似（例如 Dubois 和 Prade 1990）；参见附录 A。等价地，高斯可能性测度只是高斯分布的概率到可能性变换，而相应的可能性轮廓是

其中 Fd 是卡方分布（自由度为 d）的分布函数。由于我们关注的是大样本近似，将一般的 Z 替换为一个由独立同分布分量组成的向量 Zn = (Z1, ..., Zn)，并将 IM 的可能性轮廓记作 πZn。那么，以下定理表明，在与例如 Le Cam (1970) 中相当的正则条件下，πZn 与一个合适的高斯可能性轮廓——其方差与 Cramér-Rao 下界一致——以概率收敛于 1 的方式趋于一致。

读者当然会意识到，高斯可能性测度中的协方差矩阵与 Cramér–Rao 下界中出现的协方差矩阵一致。正是在这个意义上，IM 的输出是渐近有效的。

3.4 条件性与固定数据性质

虽然从抽样角度考察 IM 输出的性质是自然且重要的，但（不精确）概率式不确定性量化的一个常被忽视的优势在于，它提供了一种完全条件化、基于固定数据的解释。这一视角在默认先验贝叶斯方法、（广义）拟信度方法、IM 等文献中很少被讨论。

著名且颇具挑衅性的是，de Finetti（1990，第 x 页）在其概率论专著开篇即宣称：“概率并不存在。”他的意思是，概率在任何非主观的意义上都不存在；概率是一种心理建构，取决于个体主观的评估与判断。他进一步指出，尽管个体拥有内在的信念，但要准确地引出这些置信度是不现实的。因此，de Finetti 关注的是个体的实际行为而非其内心想法，并建议将概率与代理人愿意为一张彩票支付（或接受）的价格联系起来——该彩票在某个不确定事件发生（或某个假设为真）时支付 1 美元，否则支付 0 美元。

那么，一个代理人的定价系统应满足哪些数学性质呢？

Ramsey（1926）、de Finetti（1990）和 Savage（1972）提出的“荷兰赌定理”指出：如果我的定价系统不满足（有限可加）概率的性质，那么我就会成为一个“必然输家”——即另一个代理人总能找到一组有限的赌局，这些赌局对我来说都是可接受的，但无论结果如何（或无论哪个假设为真），它们合起来都会导致我亏损。无论这种打赌情境是真实的还是人为构造的，使用一种可能遭受必然损失的系统来量化不确定性都被视为非理性的。这为“概率主义”（probabilism）提供了有力的论据。

然而，有一个重要条件很容易被忽视，即这些定理假设：对于每一个赌局，代理人都愿意以所报价格同时买入和卖出对应的 1 美元彩票。这种假设在信息完全对称的情形下是合理的。但例如，如果存在一组不同的骰子可供投掷，而我并不知道具体使用的是哪一个，那么我在为“骰子掷出‘6’”这一赌局设定买入价和卖出价时，就应分别基于所有可能骰子中掷出“6”的下概率和上概率。若考虑到这种不对称性，则荷兰赌定理可以被推广：只要代理人的系统由满足某些非常温和条件（见下文）的不精确概率所表达的可接受买入/卖出价格界限构成，他就能避免成为必然输家（例如，参见 Walley 1991，第 2 章）。直观上，基于不精确概率的下注比基于普通/精确概率的下注更为谨慎，因此，如果后者能避免必然损失，前者自然也能。

回到本文的统计推断语境，尽管各种（不精确）概率式不确定性量化方法都不需要主观先验分布，但它们在 de Finetti 的意义上都是主观的：数据分析师为给定 Z = z 所选择的 Θ 的任何分布，确实都是他/她自己的选择，无法在任何有意义的层面上被视为“客观”。于是人们可能会问：从 de Finetti 主观主义的角度来看，这些不同方法各自表现如何？

默认先验贝叶斯方法和（广义）拟信度方法返回的是普通概率，因此对于任意固定的 z，它们都能避免必然损失。对于 IM 方法，在固定 z 的情况下，我可以按如下方式利用 IM 的输出构建一个定价系统：

此处及后文，1(E) 表示事件 E 的指示函数。其基本思想如下：如果另一个代理人以低于 Πz(H) 的价格出售 $1(Θ ∈ H)，那么我会买下它；如果另一个代理人愿意以高于 Πz(H) 的价格购买 $1(Θ ∈ H)，那么我会卖给他/她；否则，该赌局“风险过高”，我既不买也不卖。由于上述可能性 IM 满足前述“非常温和的条件”，因此对于每个固定的 z，这种基于 IM 的定价系统同样能避免必然损失。

我强调“对于任意固定 z”，是因为存在更广泛的相容性概念，这些概念考虑的是在先验确定价格的基础上进行赌博，然后根据观测值 Z = z 更新价格，最后结算债务的情形。这涉及“（先验、数据）到后验”映射的性质，当先验信息非空洞时，这类考虑更为有趣；但这些情况超出了本文综述的范围，可参见 Martin (2022a,b)。

上文提到的“非常温和的条件”具体指哪些？类比于上述激励性例子中的骰子集合，定义与不精确概率 (Πz, Π̲z) 相容的一组精确概率分布，即：

其中 probs(Θ) 是指所有支撑在（Borel σ-代数上的）参数空间 Θ 上的概率测度的集合。这被称为与不精确概率对 (Πz, Π̲z) 相关联的“可信集”（credal set）（例如，Levi 1980，第 5 章）。各个元素 Qz 通常依赖于 z，因为上界 Πz 本身依赖于 z。同样，式 (7) 中的可信集也可用下概率 Π̲z 来定义，只需将不等式“≤”反过来即可。那么前述的“温和条件”即为：该可信集非空，也就是说，至少存在一个精确概率与给定的不精确概率相容。其基本思想是：如果存在某个概率 Qz，使得 (Πz, Π̲z) 定价系统比 Qz 更加谨慎，则前者的避免必然损失的安全性意味着后者也具备同样的安全性。对于一般性的可能性测度（特别是包括可能性 IM 在内），可信集非空对应于关于轮廓的一个非常简单的条件，即 supθ πz(θ) = 1（例如，Troffaes 和 de Cooman 2014，命题 7.14）。正如前面提到的，

根据构造，这一条件对可能性 IM 成立，因此不会出现必然损失。有关可能性 IM 的可信集的更多细节将在下文第 4 节中讨论。

3.5 计算

直到最近，计算 IM 轮廓 πz 只有朴素且相对低效的策略可用。具体而言，主流策略是通过以下方式近似 πz：

其中 Zm,θ 是从 Pθ 中抽取的独立数据副本，m = 1, ..., M。上述计算在少数几个 θ 值上是可行的，但所有实际相关的计算——例如，在式 (5) 中识别置信集——都需要在覆盖参数空间 Θ 相关部分的一个精细网格上进行评估，而这代价高昂。Hose 等人（2022）提出了对上述基本策略的一些改进。

一种非常简单的近似 IM 轮廓函数的策略基于第 3.3.2 节中介绍的新可能性 Bernstein–von Mises 定理。这归结为一个简单的 Wilks 式卡方近似：

其中 Fd 是卡方分布（自由度为 d）的分布函数。右侧实际上是一个闭式表达式，即使在中等或小样本量下也通常相当准确。但仅凭这一点并不能完全令人满意地解决计算问题。理想情况下，应该在式 (8) 中广泛有效但昂贵的策略与上述过于简单的近似之间找到一个折中方案。

在此背景下，Martin (2025b) 最近提出了一种新的高效 IM 计算策略。该方案用一种从 IM 输出直接导出的“后验分布”（而非通过贝叶斯定理）的蒙特卡洛抽样，替代了式 (8) 中大部分朴素的轮廓评估。这些发展的起点是与 IM 输出 Πz 相关联的可信集中所包含的概率分布的一对逐层更精确的刻画，记作 ℰ(Πz)。这一集合在上文第 3.4 节式 (7) 中已简要介绍过，但当时未提及 IM 的可能性形式所提供的简化。事实上，一个非经典的可信集刻画（例如 Couso 等人，2001）是

3.6 示例

正态分布示例。此处所考虑的特定例子——因其多个原因而著名——是对查尔斯·达尔文关于异花授粉与自花授粉植物高度差异数据的分析。这与 Fisher（1935c，第 3 章）中出现的例子相同。抛开实验背景不谈，数据 z 包含 n = 15 个植物高度的差值；单位为八分之一英寸。为简化起见，我将这些数据建模为独立同分布的 Pθ = N(Θ₁, Θ₂²)，即均值和标准差分别为未知参数 Θ₁ 和 Θ₂ 的正态随机变量。最大似然估计量分别为 θ̂z,1 = 20.93 和 θ̂z,2 = 36.46，相对似然函数为

请注意，当 Z 由来自 Pθ 的独立同分布样本组成时，R(Z, θ) 是一个枢轴量。尽管该分布没有名称或简单形式，但它易于模拟，因此验证步骤可通过蒙特卡洛方法轻松完成。图 4(a) 展示了达尔文数据的可能性轮廓 πz。作为对比，背景中以灰色显示的是基于 Jeffreys 先验的贝叶斯后验分布的样本。两者指向相同的方向，但只有可能性 IM 提供可靠的不确定性量化保证。

伽马分布示例。考虑 Hamada 等人 (2004) 中涉及 n = 20 台机器故障时间的系统可靠性应用。在 5% 显著性水平下，Kolmogorov–Smirnov 检验无法拒绝这些数据服从伽马分布的原假设，因此我将为 Θ = (Θ₁, Θ₂)（伽马模型的形状和尺度参数）构建一个可能性 IM。从伽马分布抽样以及计算相对似然函数都很容易，因此对 IM 轮廓的朴素近似（8）同样容易实现；但在 (θ₁, θ₂) 空间中足够精细的网格上执行这些“简单”计算却相当昂贵。一种更高效的替代方案是 Martin (2025b) 中讨论的策略（在第 3.5 节简要提及，并在附录 ?? 中更详细说明）。该近似下 πz 的轮廓图如图 4(b) 所示。作为对比，我还展示了大样本高斯近似（虚线）以及基于 Jeffreys 先验的贝叶斯后验分布样本（灰色点）。三种解决方案在 (θ₁, θ₂) 空间中大致指向包含 Θ 的同一区域，且形状相似。再次强调，只有实线曲线是由理论所支持的，该理论保证了不确定性量化的可靠性。

4 频率学派与贝叶斯学派的启示

Zabell（第 6 页）将拟信度论证描述为一种试图在危险的“斯库拉”（无条件、非概率性的频率学派视角）与“卡律布狄斯”（完全条件化、概率性的贝叶斯视角）之间安全航行的努力。大多数撰写拟信度相关主题的作者倾向于谨慎行事，将其提案描述为频率学派与贝叶斯学派极端观点的一种统一。但这种统一论点并未挑战现状；事实上，统一赋予每个人忽略分歧与不一致并继续按原样行事的许可。虽然现状可能令人舒适，但这显然对学科发展不利，因为我们仍担心“错过数据科学的航船”（第 1 节）。因此，我认为采取一种风险稍高的方法或许值得尝试。

4.1 对频率学派而言

频率学派放弃概率主义是有充分理由的。这些理由包括上文第 2.4 节提到的与可靠性相关的警告、Mayo（2018）中详述的基础性问题，以及关于概率主义缺乏灵活性的实际相关要点，例如：“统计问题不必作为一个连贯的整体来解决，这对贝叶斯学派来说是个难题，但对频率学派却是解放”（Wasserman 2008）。但因概率主义的缺陷而彻底放弃形式化的不确定性量化是极端的——如同倒洗澡水时把婴儿也一起倒掉。事实上，这种放弃既不必要又有害。

我先回应“不必要”这一主张。频率学派对他们经典问题有自己偏爱的解决方案，因此他们自然不愿意考虑提出不同解决方案的新框架。但上述基于似然的可能性 IM 通常恰好与经典解法完全一致（如有必要，模去适当的边缘化；参见第 5 节）。此外，基于似然的公式可以轻松推广（第 6 节），从而在可能性 IM 解决方案与主流频率学派解决方案之间提供更大的灵活性和更广泛的共识。更一般地，在附录 D 中正式陈述并证明的结果大致表明：对于任何关于全参数 Θ 的任一特征 Φ = f(Θ) 的检验或置信程序，只要其具有频率学派的误差率保证，就存在一个针对 Θ 的有效可能性 IM ——完整的不确定性量化！——它能产生一个针对 Φ 的检验/置信程序，其效果至少与给定程序一样好。这一结果推广了 Martin 和 Liu (2014) 以及 Martin (2021a) 中的类似结果，具有一个重要推论：没有任何真正的频率学派解决方案——包括教科书中的那些以及尚未被构想出来的那些——超出了可能性 IM 框架的范围。因此，频率学派实际上已经在使用可能性 IM，所以他们对所提议的不确定性量化新品牌不应有任何异议；但他们并未充分利用可能性 IM 所能提供的一切，这一点我将在下文讨论。

频率学派放弃形式化不确定性量化是有害的，这一点已被广泛记录；《美国统计学家》最近几期专门探讨了这一问题。那里所描述的困惑源于教科书强调 p 值和置信区间没有概率解释，同时又未提供替代解释。没有解释的情况下，至少有两种情况可能发生。一些研究者会自行构造自己的解释，但众多不同的解释只会造成混乱。其他研究者则干脆接受不存在有意义的解释，使统计分析变成一种盲目遵循的规程，即所谓的“统计显著性文化”（Ziliak 和 McCloskey 2008）。这种困惑和/或盲目的信任会导致统计工具的误用，也许更重要的是，促使研究人员专注于他们认为可用简单教科书规程就能回答的相对狭窄的科学问题。幸运的是，这种困惑是可以克服的，因为频率学派-IM 连接提供了一种简单且数学上严谨的 p 值和置信区间的解释。Fisher 正确地指出，p 值和置信区间不需要关于 Θ 的“精确概率陈述”，但这并不意味着无需任何陈述。借鉴 Shafer 对上概率作为合理性测度的描述，前述连接立即意味着：p 值可被解释为在给定数据 z 下 H₀ 的合理性；置信集可被解释为在给定数据 z 下所有个体上均充分合理的参数值集合。这正是实践中 p 值和置信集的使用方式，现在有了数学上的严格依据支持这种解释。这是我在我课程中（甚至入门级课程）所教授的 p 值和置信集的解释——无需涉及不精确概率等任何技术细节——并且深受学生欢迎。¹

4.2 对贝叶斯学派而言

与频率学派不同，贝叶斯学派致力于概率主义。当存在真实的先验信息时，这种承诺是合理的；但在缺乏先验信息的情况下，这种承诺就值得质疑。由于不存在能够忠实表达“无知”的先验概率分布，因此任何默认先验贝叶斯后验分布都无法在任何意义上被视为“正确”——正如 Fraser（2014）所言：“[贝叶斯定理] 无法从假设的概率中创造出真实的概率。”此外，即便是务实的贝叶斯主义者，即使不关心其后验分布是否“正确”，也必须接受“虚假置信定理”所揭示的可靠性缺失问题。基于这些（或许还有其他）原因，Efron（2013）写道：

“……统计推断中或许最重要的未解决问题，就是在缺乏先验信息的情况下使用贝叶斯定理。”

坚持概率主义实际上限制了不确定性量化的质量与可靠性。为强调这一点，国际不精确概率理论与应用学会（SIPTA）有一句座右铭：“不确定性远不止概率。”IM 框架公开承认概率主义的这一局限性，并指出：在缺乏先验信息时，虽然不存在单一“正确”或完全可靠的后验概率分布，但却存在一个可被合理视为可靠的后验概率集合，而该集合可由一个可能性测度来刻画。

可以理解的是，读者可能会对不精确概率感到不适，并出于简洁性偏好熟悉的概率式不确定性量化，尽管它存在缺陷。然而，构造概率的方法多种多样，若仅局限于“先验乘以似然”这类贝叶斯式构造，同样会限制不确定性量化的质量。Martin（2025c）提出的新思路是：用一个概率分布来近似 IM 的可能性输出。下文我将简要概述这一方法。

尽管内概率近似通常并非任何先验下的贝叶斯后验，但在某些情形下仍可建立直接的贝叶斯联系。特别地，对于所谓的不变统计模型（参见，例如 Eaton 1989；Schervish 1995，第 6 章），基于右哈尔先验（right Haar prior）的贝叶斯后验正是该可能性 IM 的一个内概率近似（例如，Martin 2023a, 2025c）。

综上所述，在缺乏先验信息时，概率主义的局限性以及上述可能性方法的优势，足以让我们放弃前者而采纳后者。但即使有人坚持概率主义，“似然乘以先验”这种贝叶斯式构造本身也存在局限：如果真存在一个神奇的默认先验能解决 Efron 提出的问题，那它早就被发现了。因此，我们应当预期，该问题的解决方案将来自一个完全不同的视角——在该视角下，后验分布并非通过贝叶斯定理得出。我认为，Qz⋆正是 Fisher 与 Savage 所设想的那种“不使用贝叶斯鸡蛋也能煎出的蛋饼”，它解决了 Efron 所称的“统计推断中最重要的未解问题”。

5 消除干扰参数

Basu（1977）曾写道：“从模型中消除干扰参数被普遍认为是统计学中的一个重大问题。”自 Basu 的时代以来，情况几乎未有改变，因此可以肯定地说，边缘推断问题仍未解决。例如，Gleser 和 Hwang（1987）以及 Dufour（1997）所指出的频率学派的不可能性结果，加之此前章节所讨论的贝叶斯推断普遍缺乏可靠性，均表明边缘推断是一个微妙的问题，需要审慎处理。本文所提出的全新可能性理论视角为此提供了一些新见解，我将在下文加以讨论。

在（不精确）概率推断中，一种普遍的操作是“扩展”（extension）：即利用不确定性量化框架自身的演算规则，将关于某一未知量的不确定性量化结果扩展至另一个相关未知量。Walley（1991，第 3.1 章）明确指出了这一点，尽管他所使用的一些术语在此尚未定义：

“[扩展] 是我们统计推断理论中的基本概念……事实上，自然扩展可被视为统计推理中的基本构造步骤；它使我们能够从旧的预估（previsions）中生成新的预估。”

简而言之：扩展正是推断——无论是统计推断还是其他形式推断——的核心所在。在可能性理论中，相关的演算规则是优化，因此扩展操作正是通过优化来实现的。根据 Zadeh（1975, 1978）提出的可能性扩展原理，其边缘化的基本规则是基于优化的：用本文的记号和术语来说，若 Θ 为未知参数，其不确定性由依赖于数据 z 的可能性 IM 通过轮廓函数 πz 进行量化，而 Φ = g(Θ) 是 Θ 的某个特征（函数），则相应基于扩展的关于 Φ 的边缘 IM 轮廓函数定义为

请注意，外层上确界是必需的，因为尽管相对剖面似然函数 RPR(Z, φ) 仅直接依赖于 φ，但其分布却依赖于模型参数（该参数不能完全由 φ 确定）。如前所述，不难证明，在这种基于剖面的可能性边缘 IM 构造下，强有效性得以保持。在排序步骤中引入优化相较于在后验证步骤中进行优化通常在效率方面更具优势，其理由较为微妙，我建议感兴趣的读者参阅 Martin (2022b)。剖面法往往比扩展法更高效，这一点在具体应用中易于观察；见下文。Martin 和 Williams (2025) 表明，虽然基于扩展和基于剖面的边缘 IM 构造均享有大样本可能性 Bernstein–von Mises 定理，但后者的极限高斯分布通常具有更小的方差，因此效率更高。

正态分布示例（续）。此处我将重新审视基于达尔文数据的正态分布例子，该例已在 Fisher (1935c, 第 3 章) 中分析过。这里假设我们关注的参数为 Φ = g(Θ) = Θ₁，即正态分布的均值。由于本研究涉及配对数据，均值 Φ 对应两个边际总体均值之间的差值。图 5(a) 展示了基于扩展（虚线）和基于剖面（实线）的边缘 IM 轮廓函数。后者——即基于剖面的轮廓 φ ↦ πzPR(φ)——恰好对应于使用双侧学生 t 统计量检验 H₀: Φ = φ 的 p 值，或等价地，对应于该学生 t 统计量抽样分布的概率到可能性变换。因此，当 φ = 0 时的取值正是常规 t 检验的 p 值，在本例中约为 0.495。注意，基于剖面的轮廓更为集中，例如，由 α = 0.05 的水平线确定的 95% 置信区间更窄，因此基于剖面的边缘 IM 效率更高。

伽马分布示例（续）。此处我重新回顾 Hamada 等人 (2004) 数据的先前分析。这里的重点是对伽马分布的均值 Φ = Θ₁Θ₂ 进行推断。可以执行两种类型的边缘化——基于扩展和基于剖面——两者均在图 5(b) 中展示。如上所述，基于扩展的轮廓（可从图 4(b) 所示的联合轮廓简单推导而来）结果更宽泛，且缺乏基于剖面解法的效率。图 5(b) 同时还展示了基于式 (8) 中“暴力计算”策略得到的“精确”基于剖面的边缘 IM 轮廓（灰色线）。我称其为“精确”，是因为它能逐点无偏地估计轮廓。在此处展示它的目的是为了凸显基于抽样的蒙特卡洛策略（Martin 2025b，第 3.5 节简要介绍）的准确性：图 5(b) 中的两条实线几乎无法区分。

尽管相对于基于扩展的边缘化而言，基于剖面的边缘化具有诸多优势，但仍需强调的是，基于剖面的边缘化并非普适方法，即存在某些情况下剖面法是次优的。正如预期，当存在多个干扰参数时，问题便会出现，例如著名的 Neyman 和 Scott (1948) 以及 Stein (1959) 的例子；参见 Martin (2023b, 第 3.6 节)。更具体地说，基于剖面的边缘 IM 总是有效的，但随着干扰参数数量增加，其效率会下降。原因是最大似然估计量在干扰参数数量发散时倾向于不一致；由于基于剖面的边缘 IM 轮廓的峰值位于最大似然估计量处，若该峰值偏离目标，则需要更宽的轮廓来覆盖相关范围。解决方法是用其他方法替代相对剖面似然排序，但目前这仅在个案基础上有所探讨（Martin 2023b）。值得再次提及的是，前述 IMs 始终有效——不同于贝叶斯和拟信度方法，它们在干扰参数问题中可能具有误导性——因此关键问题是如何恰当地对感兴趣参数值进行排序，以实现高效推断。

最后，理想的情形是相对剖面似然 RPR(Z, φ) 在 Pθ 下是一个枢轴量，其中 g(θ) = φ，因为此时参数的分布依赖关系被消除，外部计算上具挑战性的上确界也可省略。相对剖面似然在某些情形下是枢轴量，并在许多其他情形下近似如此——多亏 Wilks 定理——但并非总是如此。当该上确界不可忽略时，可能需要某些调整或近似。以下是将在第 6 节中使用的两种此类“技巧”，用于绕开式 (13) 中的优化：

一种简单、通用但通常不易实施的消除干扰参数的策略是条件化。一个熟悉的例子是 Fisher 的精确检验，其中 p 值是通过给定零假设下充分统计量的观测值所对应的条件分布获得的。根据定义，给定充分统计量的数据的条件分布不依赖于参数，因此干扰参数被消除。当前的目标不是获得用于检验假设的 p 值，但相关计算类似，因此可以采用相同的策略。
严格来说，式 (13) 外部的上确界并非必要。实际上，实践中难以实现的轮廓定义为

打开网易新闻查看精彩图片

打开网易新闻查看精彩图片

6 超越基于模型的推断

6.1 关键技术扩展

上述方案的一个明显局限是，其对相对似然的关注隐含地假设存在一个统计模型 {Pθ : θ ∈ Θ}。一个简单但重要的观察——该观察已在包括第 5 节在内的各种情境中被应用——是：验证过程并不要求排序必须基于相对似然。也就是说，尽管所设定模型的似然函数决定了相对于该模型的“最优”排序选择（参见 Martin 2022b，第 4.2 节），但仍可能存在其他因素建议采用不同的排序方式。例如，当数据来自多个来源时（如元分析或分治策略，Hector 等人 2025），或者以汇总统计量的形式出现时，可能无法在模型下计算相对似然。在其他情况下，问题可能仅仅是所设定的模型并未确定感兴趣参数的相对似然。下面我将简要描述这一技术扩展，然后将其应用于一些相关的现代问题。

放松“Θ 是某个预设统计模型中的真实参数”的假设，转而仅假设存在一个真实分布 P，且 Θ ∈ Θ 是函数 τ : probs(Z) → Θ 应用于 P 后所得的真实值。考虑一个排序函数 ρ : Z × Θ → ℝ，使得较大的 ρ(z, θ) 值意味着数据 z 与参数 θ 在某种有意义的方式上是相容的。下文将给出更详细的例子，但一个简单的案例是：ρ(z, θ)，其中 z = (z₁, ..., zₙ) 且 zᵢ = (xᵢ, yᵢ)，表示对应于某个具有参数 θ 的回归函数拟合的负残差平方和，即：

请注意，这种设定并未假设数据存在一个参数化模型，也未假设由 mθ 所施加的均值结构是“正确的”。指定 ρ 完成了 IM 构造中的排序步骤，而验证步骤则与第 5 节中所述完全相同。也就是说，这本质上是一个边缘推断问题，其中除了 P 的特征 τ(P) 之外的所有内容都被视为需按前述方法消除的干扰参数：

可以预期，Martin 和 Williams（2025）中为基于似然的可能性 IM 建立的 Bernstein–von Mises 定理可扩展至涵盖此处所描述的一些更一般的情形，但具体细节仍有待完善。

当然，挑战在于评估式 (14) 中的上确界，而这归结为对 ρ 进行战略性选择和/或应用第 5 节中的边缘化技巧。接下来将讨论这两种情况的有趣且实用的例子。

6.2 对风险最小化子的推断

设 Zⁿ = (Z₁, ..., Zₙ) 为具有分布 P 的独立同分布随机变量。考虑一个损失函数 (z, θ) ↦ ℓθ(z)，它衡量参数值 θ 与数据点 z 的（不）相容性，其中较大的值对应于因 θ 与 z 不相容而产生的损失。我们感兴趣的是风险的最小化子 Θ，即：

请注意，数据驱动的插值方法出现在两个地方：一个是在概率陈述的外部，这是显而易见的；另一个则更为微妙，出现在概率陈述内部——“真实”风险最小化子被经验风险最小化子所取代，因为现在相对于 P̂zⁿ 而言，后者才是“真实”的风险最小化子。明确地说，在上述表达式中，Zⁿ 是从 P̂zⁿ 中抽取的独立同分布样本，这等价于从观测值 zⁿ 中有放回抽样——因此与自助法（bootstrap）建立了联系（例如 Davison 和 Hinkley 1997；Efron 1979；Efron 和 Tibshirani 1993）。因此，此处提出的方案归结为构造一种基于自助法的边缘可能性 IM，用于风险最小化子。插值经验分布的代价是精确有效性不再成立，至少在一般情况下不成立。但 Cella 和 Martin (2022a) 证明了一个渐近有效性结果，并通过实证表明，这种有效性性质——通常仅在大样本下保证成立——即使在相当小的样本中也往往成立。

6.3 预测

为了展示 IM 公式的灵活性，我将考虑另一种类型的问题，即预测问题。假设 Zⁿ = (Z₁, ..., Zₙ) 由来自共同分布 P 的独立同分布观测值组成，目标是预测下一个观测值 Zₙ₊₁。此处的设定至少可沿两个方向推广：第一，只需 Z 过程是可交换的即可；第二，若 Zᵢ = (Xᵢ, Yᵢ)，则很容易容纳在给定 Xₙ₊₁ 和观测值 Zⁿ 的前提下预测 Yₙ₊₁ 的情形。出于表述简洁性的考虑，我聚焦于简单的独立同分布情况。预测问题可视为边缘推断的一个极端案例，其中整个分布 P 作为一个干扰参数需要被消除。目前统计学和机器学习文献中一种非常常见的方法是共形预测（conformal prediction）（例如 Shafer 和 Vovk 2008；Vovk 等人 2005）。Cella 和 Martin (2022b,c) 已经展示了共形预测与 IMs 之间存在紧密联系，而我下面所呈现的内容则提供了新的视角。

与上文类似，如果 zⁿ 是观测数据，那么首要目标是根据候选值 zₙ₊₁ 与 zⁿ 的相容性或一致性对其进行排序。这将通过一个排序函数 ρ : Zⁿ × Z → ℝ 来实现，其中较大的值表示更高的相容性/一致性。例如，假设 ẑzⁿ 是基于数据 zⁿ 对 Zₙ₊₁ 的点预测，它可以是任何东西，但在独立同分布情形下，一个合理的例子可能是 ẑzⁿ = n⁻¹ Σᵢ₌₁ⁿ zᵢ，即样本均值。那么排序函数将是

7 结论

本文综述了可能性推断模型（IMs）领域的一些最新进展。最重要的是，IMs 提供了类似贝叶斯的、完全条件化的不确定性量化，同时具备类似频率学派的校准性质；这些性质意味着，由 IM 输出导出的检验和置信程序能够控制频率学派的错误率。主流的统计推断方法均无法同时实现贝叶斯式和频率学派式的目标，而 IM 框架的独特之处在于其依赖于不精确概率，特别是可能性理论。

Fisher 曾暗示，显著性检验和置信区间“无需精确的概率陈述”，但他并未为此主张提供数学解释。通过明确阐明“不精确性”所扮演的角色，我现在能够纠正 Efron（1998）戏称为“Fisher 最大失误”的东西，即拟信度推断（fiducial inference）。我必须再次强调：接受不精确性并不会降低推断和不确定性量化的质量——可能性理论在数学和哲学上都是健全的，而这种不精确性恰恰能防止虚假置信，使我们保持诚实。此外，新提出的可能性 Bernstein–von Mises 定理确保了，至少在渐近意义上，可能性 IM 解是高效的。

本文及所引文献的大部分讨论聚焦于统计模型参数的不确定性量化，但第 6 节描述了将 IM 推广至这一相对狭窄情形之外的初步尝试，并与文献中的其他基础性思想建立了关键联系。

遗憾的是，本次综述未能涵盖所有近期进展。以下简要列出一些未被涵盖的主题：

首先，不确定性量化有许多用途，其中一个重要应用是决策。遵循 von Neumann–Morganstern 的纲领，贝叶斯框架从一个损失函数出发，该函数评估在给定参数值下某个行动的质量，然后寻求最小化期望损失的行动，即对后验分布下的参数值进行平均。拟信度框架也采取类似做法（例如 Taraldsen 和 Lindqvist 2013）。而基于 Choquet 积分的可能性 IM 则是一种新方法，通过上期望损失来评估行动质量，其对应的决策理论框架提供了贝叶斯和拟信度理论所不具备的某些可靠性保证（Martin 2021b, 2025a）。

其次，本综述聚焦于给定统计模型中特定参数的不确定性量化。但通常模型本身也是不确定的，这对应于一种极端形式的边缘推断——所有模型特定参数都成为干扰参数。Martin 和 Liu（2015b，第 10 章）以及 Martin（2019）已开展了此情境下 IM 的初步研究。然而，这些早期尝试缺少对模型复杂度的惩罚机制。贝叶斯方法通过先验分布实现这种复杂度惩罚，而拟信度方法则通过人工方式控制复杂度（例如 Han 和 Lee 2022；Hannig 和 Lee 2009；Lai 等 2015；Shi 等 2021；Su 等 2022；Wei 和 Lee 2023；Williams 和 Hannig 2019；Wu 等 2021）。我认为，对模型复杂度的惩罚源于一种（先验）信念，即真实模型相对简单。虽然用概率理论难以对这类模糊、不完整的信念进行数学化，但用不精确概率理论则很容易做到。因此，即将发表的工作将展示如何将“稀疏性”等模糊信念视为不完整的先验信息，将其表述为不精确概率，并纳入 IM 构造中，从而对模型本身实现可证明可靠的不确定性量化。

第三，本文假设先验信息为空。尽管这在统计文献中是标准设定，但研究者对其欲推断的量“一无所知”的情况实际上可能极为罕见。问题在于，同样罕见的是，已有信息足够完整到能合理指定一个用于贝叶斯分析的先验分布。上文讨论的模型复杂度惩罚就是一个很好的例子——人们可能相信“稀疏性”等结构假设，但对结构相关的具体参数却一无所知。如果仅有两个选择：要么夸大已知信息以构造一个精确先验，要么忽略已知信息并假设先验为空，那么后者是更安全的选择。但本文所倡导的这种更宽松的不确定性量化视角提供了一条替代路径：无论已有先验信息多么模糊或不完整，都可将其精确编码为一个不精确概率并纳入分析。这会诱导出一种特殊的正则化形式，在保持有效性的同时提升效率。这些细节正在 Martin（2022a,b, 2023b）的一系列工作论文中逐步完善。

有待解决的开放问题太多，无法在此一一列举，但以下几点似乎尤为有趣，涉及理论、方法、计算和应用：

哪些统计假设会受到虚假置信的影响？现有理论和实证均强烈支持“虚假置信由非线性引起”这一观点，即它是通过全模型参数的非线性函数进行概率边缘化所导致的后果。但这些假设的具体特征及其受影响的严重程度仍不清楚。
基于从训练数据中学得的模型所构建的 IM 如何？IM 文献通常假设模型形式已给定，这在某种程度上并不现实。机器学习中常见做法是利用部分训练数据学习数据生成过程的某些方面，然后在后续研究中使用这个部分训练好的模型进行推断和预测。在当前框架下，排序步骤和/或验证步骤均可依赖训练数据。那么，以这种方式构建的 IM 其可靠性如何？
如何扩展到高维情形？第 3.3.1 节所述的有效性结果对所有样本量和所有参数维数均成立；唯一假设模型“低维”的是关于效率的定理 3。因此，高维扩展问题归结为计算效率和统计效率。在高维问题中，如上所述，统计效率通过适当的正则化实现，相关工作正在进行中。从计算角度看，需要新思路来结合优化和蒙特卡洛积分领域的前沿策略，例如随机梯度下降。我并不认为需要全新的思想，一个好的起点可能是对不同现有思想的创新组合。公平地说，贝叶斯学派和频率学派已在高维问题上研究了相当长时间，但相关计算问题仍未真正“解决”——我们通常知道如何在高维问题中尝试优化和抽样，但通常无法证明这些尝试确实有效。
因果推断、差分隐私等又如何？当今令人兴奋的应用涉及因果推断（例如 Imbens 和 Rubin 2015；Pearl 2009）、数据隐私考量（例如 Awan 和 Wang 2024；Garfinkel 2025）等。IM 参与这些领域的努力并无技术障碍，尤其是考虑到上文第 6 节所述的扩展。剩下的只是具体细节的完善工作。

最后，我想就 IM 及其在人工智能（AI）中可能扮演的角色提出一些高度概括性的思考。当然，人工智能关注的是具备执行通常与人类智能相关任务能力的计算系统，例如学习、推理、问题解决、感知和决策。将这些任务归入“数据驱动的不确定性量化”这一宽泛范畴并非不合理。事实上，一些心理学家（例如 Gigerenzer 和 Murray 1987；Juslin 等 2007）将认知过程建模为（直觉性的）统计推断：提出问题，收集相关数据，并基于数据、假设模型等做出判断。

目前要看出人工智能与 IM 之间的联系无疑十分困难，很大程度上是因为本文所讨论的 IM 构造是专门为统计应用量身定制的。但其背后的核心思想——具有可靠性保证的不确定性量化——更具普遍性，也拥有更广泛的吸引力和适用性。正如 Shafer 早期独立于 Dempster 早期工作中所使用的概率语言和统计焦点，发展出后来被称为“Dempster–Shafer 理论”的框架，并在 1980 年代找到了真实的人工智能应用场景一样，我乐观地认为，存在一种足够通用的 IM 形式化框架，能够满足现代人工智能对“可靠不确定性量化”的需求。

原文链接：https://arxiv.org/pdf/2507.09007