The relation of bias with risk in empirically constrained inferences

经验约束推理中偏差与风险的关系

https://arxiv.org/pdf/2507.03699

打开网易新闻 查看精彩图片

摘要

我们给出了一些将最大熵概率测度的渐近表征与贝叶斯最优分类器的表征相关联的结果。我们的主要定理表明,在对所观测数据的知识施加关于期望损失的约束条件下,最大熵是一种普遍的贝叶斯最优决策规则。我们还将这一结果推广到期望损失观测存在不确定的情形,通过将 Sanov 定理推广到约束值的分布上来实现这一点。

1. 引言

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

假设我们根据损失函数 L对 z进行加权的随机选择,并且假设分类器的输出唯一地由参数 θ所决定。显然,分类器输出的分布并不是标签的真实分布,因为 y是固定的。然而,反过来,如果我们固定一个分类器,并且可以经验地测量它的误差,那么我们就可以提出这样一个问题:在给定以下两个条件下,可能的 Y值的最可能分布是什么?

打开网易新闻 查看精彩图片

我们将在本文中讨论一组结果,这些结果将贝叶斯分类器的最优性与最大熵原理作为一种约束推断 形式的最优性联系起来。具体而言,我们的证明将使用大偏差理论 来将受约束的概率与最大后验估计 联系起来。我们框架的通用性远远超出了二次效用函数的范畴,例如回应了 Berger 对均方误差使用的批评。

另一方面,我们仅考虑单峰分布 ;也就是说,我们将假设损失函数 L是下半连续的、凸的,并且至少是二阶连续可导的。我们还将假设相对熵的极值点也是唯一的。这一假设成立的充要条件 在 [Csi84] 中给出。

我们将在适当的地方隐式地假设绝对连续性 ,例如在讨论相对熵时。我们还将假设真实测度 真实标签是已知的,例如,这是为了训练或对真实测度进行参数分布拟合的目的。

我们感谢 K Dill 和 K Friston 在这一主题上的许多有益讨论。作者感谢 VERSES 研究实验室以及纽约城市大学研究生中心的 Einstein 讲席项目所提供的支持。

2. 大偏差与最大熵原理的回顾

在本节中,我们将回顾大偏差理论 以及在大偏差背景下的最大熵原理 。优秀的参考资料包括 [DZ10, Var16] 以及 [Kal21, 第24节]。

在全文中,我们为了简洁起见,会在不影响理解的情况下省略基测度(base measures),对公式进行简化书写。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这一观察在统计力学中具有极其重要的意义,它描述了在所谓的热力学极限 下,系统状态函数的渐进行为 [Ell85, Tou09]。

对统计力学的一种理解方式是,它是一种方法,用来从适当的“平均”后的微观力学定律中重构热力学定律。另一种理解是,在统计力学中,人们面临的是一个推断问题。假设我们有一个由 k个相互作用粒子组成的系统,其状态由三维空间中的位置来描述。该系统的构型是一个 3k维向量,称为系统的微观态 (microstate)。在热力学中,我们可以测量描述粒子系综的粗粒度变量,例如温度、压强和体积(即系统的宏观态 ,macrostate),但通常当 k很大时我们无法获得微观态的信息,或者如果我们直接建模宏观态(例如出于现象学原因,如建模实验室实验结果),我们也不希望涉及微观态。

从这个角度来看,统计力学的核心理念是:在测量到某个宏观态的平均值时,推断出最可能的微观态 。事实上,这类大偏差原理在 [DZ96] 中被称为“吉布斯条件化原理 (Gibbs conditioning principles)”。

前述的哲学观点在 Jaynes 的工作中体现得最为明显 [Jay57, Jay80]。他提出,通过最大化熵来寻找平衡态,应被视为一种方法:在保留系统中所有来自我们不确定性的随机性的同时,根据宏观态的取值来参数化微观态的概率分配 (参见 [PGLD13b] 的综述)。

形象地看,当 μ与 P之间的信息差异(即我们希望通过约束知识能够解决的不确定性)等价于对 V的期望值的了解时,(2.2) 式就变为零。

从物理上看,自由能 (即被某个可观测量的平均值所约束的熵)是一个关于宏观态概率的变分泛函,其系统性变化与系统偏离平衡态的距离有关,这使我们能够推断出最可能的状态分布。特别是,它允许我们通过考虑平衡态下可能的宏观态取值,以及系统在相空间中的体积(即我们对它的不确定性),来进行这种参数化。

因此,最大熵原理 可以被看作是一种在进行约束推断时偏差最小的方法 ,并且这一原理已被 Shore–Johnson 公理化地提出 [SJ80, PGLD13a]。

应当指出的是,Jaynes 的工作内容远不止于统计物理;熵作为信息度量的规范性 是由 Shannon [Sha48]、Kullback–Leibler [KL51] 和 Khintchine [Khi57] 通过纯概率论的论证得出的;Jaynes 及其同时代的研究者也清楚这一点,参见例如 [Jay80, Wil80, Sky87, Jay88, Csi91, Jay03]。

然而,在物理条件下,热力学熵与香农熵成正比(比例常数为玻尔兹曼常数)[JK20]。对此的有力讨论见 [PGLD15],其中指出香农熵本质上独立于任何物理陈述——而从中得出热力学熵则依赖于系统热力学状态参数的定义——这一观点最早可追溯至 [Jay65]。

3. 最大熵是贝叶斯最优的

如果我们寻找一个与估计误差值相一致的最可能的测度,也就是说,寻找一种对类别概率的最可能分配方式,使得观察到给定的误差,我们将得到如下结论。

定理 3.1 。 如果预测测度上的误差函数是相对熵(relative entropy),那么在样本数量趋于无穷的极限下,将与给定误差相关的后验概率进行经验分类是贝叶斯最优的;反之亦然。

打开网易新闻 查看精彩图片

从假设子系统在未被证明相反之前是相互独立的这一前提下推导出平衡态,这一思路可以追溯到 Gibbs 的原始论证¹,他指出其熵表达式能够重现两个处于相互平衡状态的系统之间的基本热力学关系,且与系统在划分下广延变量的热力学性质相容 [Gib02, §XIV]。

我们可以想象,如果我们对输出之间的相关性做了数据本身并未暗示的结构性假设,那么我们就会以一种虚假的确信感为类别分配概率,从而导致与观测数据不一致;这会人为地降低风险——特别是以一种与所测得的条件期望误差 ξ不相容的方式。

事实上,我们可以证明,当这些相关性使得分布的峰值更尖锐时,这类偏差会降低误分类的风险。为了控制测度衰减的速率,并将其与 X和 Y之间的相关性联系起来,我们将用一个高斯分布来包络该测度,并假设其方差控制所有高阶矩,固定测度的方差与包络高斯分布之间的差异,并研究该高斯分布的渐近行为。

打开网易新闻 查看精彩图片

注记 3.1 。请注意这些结果是互补的:在定理 3.1 中,我们已经证明,在给定一个误差的前提下,我们“应当”使用最大熵方法来推断出恰好产生该误差的分布;而在定理 3.2 中我们则证明了,如果我们采用某种其他的规则,并且该规则引入了数据本身并未暗示的相关性,那么我们将会得到一个误差更低的推断结果。

类似地,一个比我们已有信息更少的经验分布(在熵更大的意义上)出现的概率是指数级小的。接下来的两个结果将证明这一点。

引理 3.1 。对于任何给定的连续损失函数,使相对熵在 P(Y∣X)之外全局最小化的分布,当 hθ(x)被固定为 P(Y∣X)的贝叶斯分类器时,能够达到最小的条件期望误差。

反之,如果某个分布在任何连续损失函数下都具有与 P(Y∣X)相同的贝叶斯分类器,那么它就在相对熵的意义上全局最小化了与 P(Y∣X)的差异。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

推论 3.1 。对于一个固定的误差函数和分类器,标签的概率呈指数衰减,且众数就是分类器的输出。因此,对误差速率函数进行压缩(contraction)后,可以得到一个针对分类器的速率函数,其众数是 P的贝叶斯分类器的输出。

最小相对熵的分布还有一个额外的解释:它是复杂度最低的分布 ,在如下意义上:信息增益衡量了一个观测中所包含的关于类别的信息量,即观察一个随机变量后,解决对另一个随机变量的不确定所需的信息量的减少——换句话说,就是香农熵的减少。通过最小化相对熵,我们仅使用了参考分布中对我们可用的信息。

因此,我们将相对熵的最小化解释为一种简约原则 (law of parsimony)。也就是说,建模一个不太可能事件的最佳方式,是在已有信息的基础上采用最简单的方式,引入最少的额外信息。限制这类假设——这些假设会被进一步的观测所证实或否定——可以使得预期的“惊奇”最小化,并降低误分类的风险。

打开网易新闻 查看精彩图片

推论 3.2 。具有最小误分类风险的后验分布,是那个复杂度最低的分布。

由最可能的“不可能事件”主导测度这一现象,是大偏差理论中的经典格言,也是其自身形式的奥卡姆剃刀原理 (Occam’s razor)。

注记 3.2 。贝叶斯分类器的大偏差估计以一种非常自然的方式就是最大后验估计(MAP),因为当速率参数趋于无穷时,速率函数就变成了一个零一损失函数。

4. 在已知未知存在下的分类问题

在本节中,我们将考虑一种贝叶斯分类器,其中对类别的损失测量存在一定的不确定性。给定一个关于期望损失的随机变量:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这个定理的含义是:在我们对期望值 L⋅μ在 Ξ中的分布存在不确定性的情况下,所涉及的条件测度必须被估计为关于 μ统计特性的一种模型。这属于三级大偏差原理 (level three large deviations principle),其含义是,它描述了测量 L⋅μ的经验过程,并估计误差的最可能分布。

这一解释将在接下来的讨论中变得更加清晰。

定理 4.2 。 在给定某些约束值范围的情况下,计算最可能的经验测度,等价于某个特定的最大似然问题。

打开网易新闻 查看精彩图片

命题 4.1 。(4.1) 的最大值对应的模型是 μ=P(Y∣X),其最可能的输出是贝叶斯分类器的输出。

证明 。这是由定理 4.1 和命题 3.1 直接得出的结果——具体来说,是将关于经验测度的经验条件概率的三级大偏差原理压缩(contraction)为经验均值的一级大偏差原理。特别地,最可能的 μ极小化了总的速率函数:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

其中 η现在表示期望损失测量中的方差。第二个因子是那些期望损失落在 Ξ中的模型的分布,该分布根据这些模型在 K中的位置,以及我们对期望损失分布所满足的约束条件的了解来确定。

因此,我们通过对“误适配统计量”(test misfit statistic)的加权来估计任何 μ的概率,该统计量衡量的是在 μ下预期损失与期望损失测量均值之间的偏差(以平方欧几里得距离表示)。

关于这一推断方法还可以做更多阐述,我们希望在未来进一步研究它。

5. 结语

在本文中,我们讨论了最大熵推断的贝叶斯最优性,其含义是:在进行推断时,没有引入任何额外的信息。这一结果的核心思想坚定地继承了 Jaynes(以及更早的 Gibbs)关于熵的原始观点,即将熵作为在已知某些量的前提下,对未知量的最佳逼近工具。

具体来说,如果我们设想通过寻找一个经验分布来进行推断,该经验分布描述了从某个满足特定期望值的任意分布中抽取的大量样本,从而避免不必要的风险,那么这个经验分布(以大概率)就是香农熵最大的那个分布。如果我们希望避免误分类的风险,那么超出所采样信息的任何假设都是没有根据的。

需要注意的是,这并不保证在所有情况下都能执行最优的推断,例如当所含信息不足以支撑推断时,就不能保证结果最优。这一问题在贝叶斯推断的背景下,以及在先验分布所包含的信息方面,已在 [Wol96] 中进行了探讨;在诸如 [PGLD15, AD19] 等文献中,也探讨了在约束不足的模型中的类似问题。

原文链接:https://arxiv.org/pdf/2507.03699