Comment: Settle the Unsettling: AnInferential Models Perspective

评论:平息不安:从推理模型的视角出发

https://projecteuclid.org/journals/statistical-science/volume-36/issue-2/Comment-Settle-the-Unsettling-An-Inferential-Models-Perspective/10.1214/21-STS765B.full

https://projecteuclid.org/journals/statistical-science/volume-36/issue-2/Comment-Settle-the-Unsettling-An-Inferential-Models-Perspective/10.1214/21-STS765B.full

摘要

在此,我们证明了推断模型(Inferential Model, IM)框架与Gong和Meng所展示的不可靠的更新规则不同,能够提供有效且高效的推断/预测,同时不会受到必然损失的影响。从这个意义上说,推断模型框架解决了Gong和Meng所描述的“不安定性”问题。

关键词和短语:信念函数、效率、下界和上界概率、推断模型、有效性

1. 引言

Ruobin Gong和Xiao-Li Meng因其发人深省的文章值得祝贺,该文章揭示了在使用Dempster规则和广义贝叶斯等正式规则根据观测数据更新不精确或未完全指定的模型时可能出现的悖论性结果。随着科学问题变得越来越复杂,认为能够精确指定描述研究现象的模型的想法是一种幻想,因此Gong和Meng关于这些更新规则的影响的见解既重要又及时。

然而,在强调了一些更新结果“不安定”的案例之后,他们并没有推荐任何可靠的更新规则。在某些情况下,广义贝叶斯似乎是正确的选择,而在其他情况下则是Dempster规则。由于我们不能依赖任何更新规则在每个问题中都给出令人满意的答案,显然我们唯一的办法是根据具体情况使用“明智的判断”。

在这里,我们认为,通过从不同的角度看待问题解决方案的含义,可以朝着解决这些更新的“不安定性”迈出一步。Gong和Meng明确阐述了他们的观点:统计学习是一个过程,模型根据预设的操作规则在新信息的启发下进行更新。

这个描述中缺失的是,基于更新后的模型得出的推断必须在某种特定意义上是可靠或有效的,否则结果是没有用的。因此,问题不在于更新信念,而在于如何确保数据科学家为推断和预测构建的信念达到期望的可靠性属性。从这个角度来看,Gong和Meng的目标过于雄心勃勃:对于有效且高效的推断来说,更新信念的规则并不是必要的。一个较为现实的目标——但仍然符合科学家的优先事项——是理解如何构建分配信念的程序,以便得出的推断是有效且高效的。第一步是定义这些术语的含义,我们在下面的第2节中进行了定义。我们立即感到欣慰的是,有效性排除了令人不安的必然损失现象,而且正如我们在第3节中所展示的,有效性和效率使得可以根据不同的更新规则比较解决方案。当然,如果有效性和效率是目标,那么遵循一个专门设计以实现这些属性的程序是有意义的。Martin和Liu(2013, 2016)介绍的推断模型(IM)程序正是这样一种程序,我们在第4节中描述了这一框架,并展示了它通常比Gong和Meng示例中基于正式更新规则的解决方案更好。关键信息是,通过遵循以有效性和效率为重点的IM方法,可以避免Gong和Meng识别出的“不安定”现象。最后,第5节以一些未来研究的主题作为结尾。

2. 有效且高效的预测

Gong和Meng(2021)中的例子最方便被描述为预测问题,因此我们从这个角度展开;对于推断,也可以以类似的方式进行开发。为了设定场景,设 X 表示可观测的数据,Y∈Y 表示待预测的量。

接下来,用 P 表示描述 (X,Y) 的联合分布的概率测度,至少部分未知或未具体指定。如上所述,我们通过一对下界和上界概率 (πx,πx) 来量化给定 X=x 时关于 Y 的不确定性,这对概率定义在 Y 上。我们将映射 x↦(πx,πx) 称为概率预测器,用户对关于未观测的 Y 的某个断言 A⊆Y 的真实性的信念程度,由这对概率 (πx(A),πx(A)) 描述。注意,概率预测器不必基于更新精确或不精确的概率模型。

由于目标是使概率预测器能够进行可靠的预测,即不要太频繁地出错,考虑以下预测有效性属性。

定义(Cella和Martin(2020))。如果一个概率预测器满足...

概率是关于由 P 确定的 (X,Y) 的联合分布的,而“∀”是对所有断言 A⊆Y、所有水平 α∈[0,1] 以及所有 P 的。

直觉上,至少对于小的 α,数据分析员将事件“πX(A)≤α”解释为对 Y 的断言 A 真实性的证据不足,因此联合事件“πX(A)≤α,Y∈A”是一个可能出现错误预测的情况。然后,(1) 要求用户能够控制这种错误预测的频率。由于下概率和上概率之间的熟悉对偶性,可以使用 πX 以类似的方式表述一个条件(Cella 和 Martin,2020)。为了理解条件 (1) 对概率预测器的约束,考虑其等价表达式。

其中 1B 是指示函数,E 是关于 P 下 X 的边际分布的期望,而 P(Y∈A∣X) 是基于 P 的条件概率。显然,如果 πX(A) 等于或大于条件概率 P(Y∈A∣x) 或边际概率 P(Y∈A),那么 (2) 成立。这种有效性与“优势”之间的联系导致了一些有趣的观察,正如 Cella 和 Martin(2020)所讨论的。

  • 绝对损失(sure loss)是 Gong 和 Meng 研究的三种现象中最令人不安的,它被有效性排除在外,即有效性意味着没有绝对损失。

  • 如果已知不精确模型包含 (X,Y) 的真实联合分布,就像在 Gong 和 Meng 的例子中那样,那么广义贝叶斯解是有效的。

  • 尽管广义贝叶斯提供了一种实现有效性的策略,但它并非唯一选择,通常也不会是最佳选择;见下文。

  • 除了有效性之外,效率也很重要。在这里,我们说在一对有效的概率预测器之间,其上概率分别为 πX 和 πX′,如果对于所有 x,有 πX′(A)≤πX(A),那么后者相对于指定的断言 A 至少和前者一样高效。其想法是,较大的上概率是显而易见有效的,因此目标是找到满足 (1) 或 (2) 的最小可能的上概率。通过下概率和上概率之间的对偶性,可以为 πX 发展出类似的直觉。

  • 我们在这里不会正式研究有效性和效率,而只是在第3节的两个例子中进行探讨。

3 GONG AND MENG 的例子

3.1 三个囚犯

有三个囚犯——分别标记为 A、B 和 C——被关押,其中一人将被随机选中获得减刑;另外两人将被执行死刑。用 Y 表示被减刑的囚犯。囚犯 A 请看守告诉他 B 或 C 中谁将被执行死刑,看守的回答就是数据 X。目标是根据数据 X 预测 Y。有效性和效率对讨论有什么贡献?

正如 Gong 和 Meng 所论证的,除了条件概率 θ=P(X=B∣Y=A) 之外,(X,Y) 的联合分布是完全确定的。因此,对于最相关的断言“Y=A”,有效性条件 (2) 可以表示为

正如 Gong 和 Meng 所展示的(另见 Walley, 1991, 第6.4.4节),广义贝叶斯解返回了一个概率预测器,其

正如 Gong 和 Meng 所展示的(另见 Walley, 1991, 第6.4.4节),广义贝叶斯解返回了一个概率预测器,其上概率 πX(A)=0 和下概率 πX(A)=21,对于 x∈{B,C}。对于这种情况,很容易验证条件 (3) 成立。

Dempster 的规则返回了一个概率预测器,对于断言“Y=A”,其下概率和上概率均为 21,适用于所有 x。这在“Y=A”的情况下满足条件 (3),但如果考虑其补集断言时则不满足。事实上,对于断言“Y∈{B,C}”,Dempster 的概率预测器的有效性要求在条件 (3) 中简化为

取 α=21 会导致矛盾。这基本上证明了绝对损失(sure loss)通常会导致有效性(validity)的违反。同样地,基于几何规则的解决方案在这种例子中也存在绝对损失,因此也是无效的。

仔细审视条件 (3) 可以提供关于“最高效”解决方案的一些见解。如果对于每个 x∈{B,C},πX(A)=31,那么条件 (3) 将得到满足,并且它将比广义贝叶斯解更高效。此外,它也是有效的,因为其补集事件的下概率为 32,而不是 Dempster 的 21,因此不会陷入陷阱 (4)。我们将在下面看到如何实现这种“最高效”的解决方案。

3.2 拳击手、摔跤手和硬币

设 Y1 表示一枚公平硬币的投掷结果,其中 Y1=1 和 Y1=0 分别对应正面(Heads)和反面(Tails),设 Y2 表示拳击手与摔跤手比赛的结果,其中 Y2=1 和 Y2=0 分别表示拳击手胜利和摔跤手胜利。数据为 X=∣Y1−Y2∣,这是一个指示变量,表明 Y1 和 Y2 是否取相同值。目标是根据观察到的 X 的值来预测比赛的结果(或硬币投掷的结果)。

关于 (X,Y) 的联合分布的特征,其中 Y=(Y1,Y2),并未具体指定,特别是条件概率:

这组条件概率 θ=(θ1∣0,θ1∣1) 可以取 [0,1]2 中的任何值。也就是说,问题的设定不排除比赛结果由硬币投掷决定的可能性,或者比赛结果与硬币无关且预先确定的可能性。

与前面类似,让我们先将有效性条件专门化到当前的例子中。也就是说,如果 πX(1) 是概率预测器在断言“Y2=1”(即拳击手胜利)上的上概率,那么 (2) 要求

由于 (θ1∣0,θ1∣1) 可以取 [0,1]2 中的任何值,因此除了将上概率恒等于 1 之外,没有其他方法可以确保有效性成立。这正是 Gong 和 Meng 中的广义贝叶斯解。Dempster 的规则再次被证明是无效的。

对于关于硬币的断言,基于 Gong 和 Meng 研究的方法中,唯一令人满意的解决方案是基于 Dempster 规则的,该规则忽略了数据并使用已知的 Y1 的边际分布。很容易验证,简单的概率预测器

  1. 推理模型

4.1 公式化

推理模型(IM)的公式化始于指定一个关联,即将被建模的对象,即数据 X 和感兴趣的量 Y、未知参数 θ∈Θ,以及一个不可观测的辅助变量 U 联系起来,而 U 的分布 PU 是已知的,通过一个方程或规则实现。

映射 a(θ,⋅) 隐式地编码了关于联合分布的已知信息,但显式地依赖于未知的 θ。具体细节取决于分析的目标:如果 (X,Y) 是可观察的,且目标是对 θ 进行推断,那么我们按照 Martin 和 Liu(2013, 2016)中描述的方法进行;如果只有 X 是可观察的,且目标是预测 Y,那么我们按照 Martin 和 Lingham(2016)或 Cella 和 Martin(2020)中的方法进行。

对于预测的情况,其想法如下。给定 X=x,定义一个集合值映射 u↦Qx(u),映射到未知量空间 Y×Θ 中,作为

如果 u 满足方程 (5) 且 X=x,那么 Qx(u) 包含正确的预测。我们无法确切知道哪些 u 值满足该方程,但由于已知 U 的分布 PU,因此可以构建一个随机集合 U,我们相信它很可能包含一个解。对于这样的 U,新的随机集合

通过将 U 映射到未知量空间所得到的随机集合,同样有可能包含正确的预测。然后,我们可以定义在给定 X=x的情况下,Y 的下概率和上概率预测器,

其中 PU 是随机集合 U 的分布,而 A 是 Y 的任意子集。关于随机集合 U 的适当选择超出了这篇短文的范围,但可以说,选择 U∼PU 来实现有效性条件是相对直接的;参见 Martin 和 Liu(2013, 2016)。

上述的下预测概率和上预测概率分别是定义在 Y 的幂集上的信念函数和似真函数,由关联、数据和用户定义的随机集合决定。我们的关注点是有效性和效率,因此我们没有义务使用 Dempster–Shafer 的信念函数演算(Shafer, 1976, Dempster, 2008)来操作这些函数。相反,我们的重点是用一个维度尽可能小的辅助变量来表达数据和未知量之间的关联。当维度较低时,实现有效性所需的随机集合的大小更小,因此效率更高。Martin 和 Liu(2015a, 2015b)提出了降低维度的通用策略。特别是边际化技术将在下面使用。

4.2 三个囚犯

这个问题的一个独特之处在于,感兴趣的量 Y,即被赦免囚犯的身份,具有已知的边际分布。

由于 θ 并非主要关注点,因此在进行推理模型(IM)构建之前,有机会潜在地降低辅助变量的维度。实际上,很容易验证,对于每一个 (x,y,u2),都存在一个 θ 使得 x=f(θ,y,u2)。根据一般的 IM 边际化理论,这意味着关联中的第二个方程可以被有效地忽略。这意味着基于 Y 的已知边际分布进行有效(且高效)的预测应该是可行的。我们说第二个方程可以“有效地”被忽略,因为如果观察到 X=B,预测 Y=B 是没有意义的。因此,我们应该以某种方式考虑这些信息。

基于上述论证,A 步骤通过写出 Y=U 来结束,其中 U∼Unif({A,B,C})。对于 P 步骤,我们引入一个合适的随机集合 U∼PU,以预测未观测到的 U 的值。有许多选择,但在这里我们推荐取 U 的支撑集为 {{B,C},{A,B,C}},并分配如下概率:

有了这样的选择,推理模型(IM)的 C 步骤返回的概率预测器正是第 3.1 节末尾所描述的那个,即有效且最高效的预测器,优于 Gong 和 Meng(2021)中基于根据形式规则更新不精确模型所提出的全部解决方案。

4.3 拳击手、摔跤手和硬币

对于推理模型(IM)的解决方案,定义一个关联如下:

其中 X=∣Y1−Y2∣,而 (U1,U2) 是一对独立的 Unif(0,1) 随机变量。例如,假设观察到 X=0,即比赛结果和硬币投掷结果相同;X=1 的情况是类似的。当观察到 X 时,比赛的结果决定了硬币投掷的结果,反之亦然,因此在观察到 X 之后,无需同时考虑 Y1 和 Y2。我们从 Y2(比赛结果)的情况开始。一个一般的 (u1,u2) 通过断言(且 X=0),被映射到 (y2,θ)-空间中的一个集合:

由于我们只对 Y2 感兴趣,我们关于 (Y2,θ) 的断言形式为 {y2}×[0,1]2,其中 y2∈{0,1}。我们在这里省略细节,但可以证明,对于任何合适的随机集合 U⊆[0,1]2,推理模型(IM)返回的关于 Y2 的概率预测器是空洞的,即其下概率和上概率分别为 0 和 1。正如我们在上面所展示的,这是唯一有效的解决方案。

最后,如果感兴趣的是预测 Y1,即硬币投掷的结果,那么我们可以像在“三个囚犯”例子中那样进行操作。也就是说,Martin 和 Liu(2015b)中关于边际推断的一般理论允许我们忽略除 Y1 之外的一切,因此通过使用 Y1 的边际分布来构建一个有效且高效的概率预测器,可以实现有效且高效的推断。这与基于 Dempster 规则的解决方案一致,并且比基于广义贝叶斯规则的解决方案更高效。

5. 结论

Gong 和 Meng 的论文中的例子既简单又具有挑战性,使它们成为理想的案例,用于检验我们的理解,并突出我们专注于构建既有效又高效的依赖数据的信念这一视角的优势。这篇短文已经太长了,因此我们将在其他地方展示我们对辛普森悖论的推理模型(IM)分析。

有趣的是,在已知不精确模型正确指定的情况下,广义贝叶斯是有效的。但在这些相对简单的例子中,我们发现推理模型(IM)的解决方案可以实现更高效的预测。在更复杂的情况下,广义贝叶斯解决方案面临某些挑战,特别是指定一个既足够灵活又足够简单以计算下/上包络的不精确模型。因此,有充分的理由考虑替代解决方案。例如,Cella 和 Martin(2020)建立了有效推理模型(IM)与强大的共形预测机制(Vovk, Gammerman 和 Shafer,2005)之间的联系。

最后,在我们准备这篇讨论文章时,我们意识到 Fisher 的信度论证及其由 Dempster 扩展到一般情况的失败,可能可以通过 Gong 和 Meng 研究的收缩、扩张和/或绝对损失来理解。这一主张也将进一步调查,我们的结果将在其他地方展示。

原文链接:https://projecteuclid.org/journals/statistical-science/volume-36/issue-2/Comment-Settle-the-Unsettling-An-Inferential-Models-Perspective/10.1214/21-STS765B.full