The typicality principle and its implications for statistics and data science

典型性原则及其对统计学与数据科学的启示

https://arxiv.org/pdf/2501.14860

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

摘要

数据科学的一个核心焦点是将经验证据转化为知识。因此,费希尔(Fisher)、波普尔(Popper)和图基(Tukey)等深刻思想家的关键洞见与科学态度,有望在未来激励机器学习与人工智能领域取得令人振奋的新进展。沿着这一思路,本文提出了一种新颖的“典型性原则”(typicality principle),其大意是:如果观测到的数据在某种意义上相对于某个所提出的理论而言足够“非典型”(atypical),那么该理论就是不成立的。对典型性的强调,将模型检验(model-checking)等熟悉但常被忽视的背景概念推到了推断过程的前台。典型性原则的一个具体应用体现在参数估计中:我们提出了一种新的、基于典型性的正则化策略,该策略高度依赖于拟合优度检验(goodness-of-fit testing)。我们在三个非平凡的例子中展示了这种新正则化策略的有效性——在这些例子中,普通的最大似然估计(maximum likelihood estimation)表现极差。我们还进一步阐明了典型性原则如何融入更宏大的可靠且高效不确定性量化(uncertainty quantification)框架之中。

关键词与短语:证伪;拟合优度;推断模型;似然;模型检验;预测。

1 引言

数据科学已吸引了来自科学、商业、政府等所有领域研究者与从业者的广泛关注。与统计学类似,数据科学作为一门学科,主要关注将经验证据转化为关于我们世界的知识,这属于归纳逻辑(inductive logic)的范畴:

“在归纳推理中,我们正在执行新知识创造过程的一部分。随着纳入更多数据,所得结论通常会变得越来越准确。”(Fisher, 1935b, 第54页)

尽管统计学拥有长达百年的先发优势,但数据科学可以说已经超越了它,成为应用归纳逻辑领域的引领者。从统计学到数据科学的这一转变,远不止是术语上的更替;它反映了我们在处理推断、预测和决策问题时方法论的演进,这种演进汲取了机器学习、人工智能及其他领域的工具与洞见。随着数据科学的持续发展,它必将激励——同时也被激励于——费希尔(Fisher)、卡尔·波普尔(Karl Popper)和约翰·图基(John Tukey)等深刻思想家所倡导的那些具有奠基意义的工作。

现代数据集固有的复杂性意味着存在多种不确定性与模糊性来源,使得数据分析及其随之而来的归纳论证变得高度非平凡。因此,认识论(epistemology)的洞见密切相关,而其中占主导地位的思想流派是波普尔在《科学发现的逻辑》中所阐述的证伪主义(falsificationism)。他的核心洞见在于:在一系列对相关理论进行严格检验的实验中,那些经受住这种审视的理论便“证明了自己的价值”(Popper 1959, 第10页)——这是任何理论被称为“非假”(not-false)的必要但非充分条件。只有在极限意义上,即随着检验次数或严格程度的不断增加,一个理论才能获得“非假”的地位。现代经验科学面临的一个挑战(这在哲学文本中常以“所有天鹅都是白色的”这类例子出现的情形中并不存在)是:经验数据在逻辑上无法与任何合理的理论构成直接矛盾,因此在进行推断时必然存在不确定性。这就要求对上述不确定性进行可靠量化,而这正是本文贡献的核心所在。

证伪主义视角背后的理解是:实验通常会产生典型的数据,即看起来与现实世界中所预期的一致。因此,如果观测到的数据相对于某个提出的理论而言是非典型的——即看起来与该理论所预期的足够不同——那么就有理由认为该理论已被证伪。这就是我们所提出的“典型性原则”(typicality principle)的基本形式。但“数据看起来像预期的那样”究竟意味着什么?

通常,人们将模型的似然函数解释为衡量其对观测数据拟合质量的指标,并进而通过似然值的大小来判断数据是否“看起来像预期的那样”。似然律(law of likelihood,例如 Edwards 1992;Hacking 1976)对此进行了形式化。然而,在某些情况下,似然函数可能因某种退化(degeneracy)而变得很大,并非因为数据真的“看起来像”该理论所预期的那样。这揭示了以似然为中心的归纳推理方法的缺陷,也表明我们需要新的视角。常见的正则化策略仅依赖于所提出的理论本身——例如,惩罚那些与假设的“稀疏性”不兼容的理论——而不依赖于数据本身,因此无法单独修复上述缺陷。相比之下,我们的典型性概念关注的是非参数意义上的拟合优度(goodness-of-fit),而非基于参数模型、以高似然值为标准的拟合。本文所推进的典型性原则,受到图基关于模型构建与检验的深刻洞见的启发(Tukey 1962, 1977)。虽然哲学原则往往是“自上而下”的(即由更高权威下达的指令),但图基式的哲学却是“自下而上”的(例如 Dempster 2002;Tukey 1986),因而本质上契合波普尔的精神。的确,在模型构建中,没有任何候选模型是“天赐”的,一个模型的价值必须通过令人满意地解释观测数据中的变异性来赢得。我们所提出的典型性原则旨在以此为基础,拓展至正则化估计及其他领域。

基于典型性原则,本文主要的方法论创新是一种新型的、聚焦于典型性的正则化策略。更具体地说,我们建议采用熟悉的惩罚似然框架,但加以调整:不再惩罚那些与先验知识不兼容的理论,而是惩罚那些会导致数据被判定为“非典型”的理论,从而确保我们所导出的程序能够奖励那些对数据拟合良好的理论,有助于解释并提升效率。我们通过将该典型性聚焦的正则化方法应用于若干历史上在统计学基础中引发争议的难题,来评估其性能。结果表明,该方法在点估计和更广泛的不确定性量化方面均表现出高效性,凸显了其解决统计科学中一些最深层未决问题的潜力。除了实际应用价值外,我们还深入探讨了典型性原则的理论基础,揭示了它与其他熟悉统计原则之间的联系(或缺乏联系)。这些联系强调了典型性的更广泛重要性——它不仅是一种方法论工具,更是一座连接统计推理各个方面的概念桥梁。通过将典型性原则置于这一丰富的理论与应用背景之中,本文为未来在数据科学及其他领域探索其含义奠定了基础。

本文其余部分结构如下:第2节设定讨论的背景,并介绍一些关键概念与符号。第3节引入典型性原则的第一个基本版本,此处的讨论聚焦于统计直觉与哲学考量。在参数估计的背景下,典型性原则的一个具体实现形式即为我们提出的新型典型性正则化策略,该策略也在本节中详细阐述。第4节在三个非平凡且充满悖论的例子中考察所提典型性正则化策略的性能:勒康(Le Cam)提出的混合模型、奈曼–斯科特(Neyman–Scott)问题,以及斯坦(Stein)均值向量长度问题。这三个例子中所面临的挑战在现代数据科学应用中同样常见(例如存在过拟合风险),因此本文的贡献超出了此处所考虑的简单参数模型范畴。第5节进一步深入,提出一个形式化的典型性原则,并展示其如何融入一个更一般的框架,该框架能在点估计、假设检验等之外提供可证明可靠的不确定性量化。本节还探讨了该原则与其他统计原则的联系,并通过一个数值示例展示了所提框架在具有挑战性的边际推断问题中的有效性与效率。第6节以若干评述作结。

2 问题设定

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3 典型性原

在此,我们采纳波普尔的证伪主义观点,即:关于不确定参数 Θ 的假设 H 无法基于数据 x 被直接证实或确认,而只能根据 H 的真实性与数据 x 是否存在足够矛盾来决定是否予以驳斥。重要的是,证伪主义实际上是我们唯一可行的选择:若采用对立的卡尔纳普–杰弗里斯–杰恩斯式(Carnapian–Jeffreysian–Jaynesian)确证主义观点(例如 Carnap 1962;Jaynes 2003;Jeffreys 1998),要在科学和数学上严格地实施,就必须拥有一个真实的先验概率分布并应用贝叶斯定理,而这在我们假定先验信息为空(vacuous prior information)的情况下是无法实现的。

如第1节所述,我们的证伪主义视角提示我们应制定一种策略,用以评估数据 x 相对于关于 Θ 的某个给定假设 H 是否“典型”——如果典型,又是在何种意义上、在多大程度上典型。一旦有了这样的评估,推断至少在概念上就是直接明了的。

我们从一个非正式且直观的表述开始,阐述这一核心原则,该表述聚焦于简单的单点假设。即使这个直观版本在点估计问题上也具有重要含义。更形式化的表述见第5节。

打开网易新闻 查看精彩图片

作者坚信,只有当处理的是极端正则分布族时,采用最大似然法才是合理的。那些[最大似然]估计量易于获得并被证明具有良好性质的情形极为有限。

后来,在他的著作中(Le Cam 1986),

“似然”和“最大似然”这两个术语似乎由 R.A. 费希尔引入,他似乎也应对大量关于最大似然方法优越性的宣传负主要责任……鉴于费希尔的巨大影响力,人们仍以近乎宗教般的狂热推崇该方法的所谓优越性,或许并不令人意外。尽管已有大量证据表明最大似然估计常常无用甚至严重误导,这种状况依然持续存在。

第4节将展示凸显最大似然估计量不足之处的具体例子。勒卡姆此处的观点只是:最大似然法在某些情况下表现良好,但在其他情况下则不然。一种估计量在某些情况下有效、在其他情况下无效,本身并不构成基础性担忧。然而,如果一个核心原则——最大似然原则——自身不可靠,那么这就构成了严重的根本性问题:如果我们没有可靠的原则,数据科学就不是一门科学。典型性原则旨在填补这一信任缺口。

打开网易新闻 查看精彩图片

我们提出的典型性原则实现方式是通过正则化。这将以似然函数为基础,因为在常规情况下这种方法是高效的;但我们所提出的正则化方式在某些重要方面不同于数据科学文献中的常见做法。具体而言,考虑目标函数

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Kolmogorov–Smirnov 检验所对应的 p 值。有关 Kolmogorov–Smirnov p 值用于评估我们此处所称的“典型性”的更多内容,请参见 Liu (2023) 和 Jiang and Liu (2025)。然而,在某些特殊情况下,可能存在其他更简单的拟合优度评估方法。例如,在高斯模型中,若“残差平方和”预期服从合适的卡方分布,则可利用该卡方检验对应的 p 值来构造惩罚函数;参见第4.2节。第4节中的例子突显了惩罚项(2)如何带来理想的正则化效果,从而修正最大似然估计量在足够非正则模型中存在的系统性偏差。

4 示例:非正则估计

在本节中,我们考虑三个值得注意的涉及“非正则”模型的例子。这些模型共享的一个关键特征是:与 Θ 的相关特征相关的似然函数偏离目标,以至于最大似然估计量变得无意义或至少不一致。尽管下面的例子相对简单,但这种非正则性意味着它们在某些方面与现代应用中涉及复杂、高维模型的情形有共同之处。此处,我们将上述(1)式中的通用典型性鼓励型正则化策略应用于这些例子。

4.1 勒卡姆混合模型

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.2 奈曼–斯科特问题

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.3 斯坦的均值向量长度

考虑一个经典问题:其中 X 是一个 n 维正态随机向量,其均值向量 Θ 未知,协方差矩阵为单位矩阵。无论维度如何,对均值本身的推断是相同的;但假设我们感兴趣的量是 Φ = ∥ Θ ∥
,即均值向量的欧几里得长度。对 Φ 的推断被证明是一个非平凡的问题,正如 Stein (1956, 1959) 所指出的,该问题也被 Fraser 等人 (2018) 列为已故 D.R. Cox 爵士提出的“挑战性问题”之一。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5 可靠的不确定性量化

5.1 典型性原则,再审视

当然,统计学与数据科学的意义远不止于点估计;事实上,典型性原则的影响超越了第3节中所讨论的重要但相对狭窄的点估计背景。我们首先讨论将我们的直接且具体的“典型性”关注点与其他先前方法相比的重要性与新颖性。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

频率主义证据原则(Frequentist Principle of Evidence):从数据中得出推断,需要考虑与底层数据生成过程相关的相关错误概率(Mayo 2014)。

奈曼的频率主义止步于典型性原则的直观版本:

  • 指定一个检验统计量、一个显著性水平和一个拒绝域,使得如果假设 H H 为真,则事件“检验统计量落入拒绝域”的(错误)概率不超过所设定的显著性水平;
  • 如果基于数据 x x 计算的检验统计量落入所设定的拒绝域,则称数据 x x 相对于 H H 足够非典型。

也就是说,纯粹的频率主义者并不试图量化给定数据 x x 下假设 H H 为真的不确定性——他们满足于一个控制错误概率的决策规则。寻求贝叶斯–频率主义“圣杯”的尝试更进一步,通过构建依赖于数据的支持度或信念/置信度测度来衡量假设 H H 为真的程度,并保持与 Mayo 的频率主义证据原则一致。这些尝试包括默认先验贝叶斯推断(如 Berger et al. 2009; Datta and Ghosh 1995; Jeffreys 1946)、费希尔的可信推断(如 Fisher 1933, 1935a; Zabell 1992)及其推广(如 Fraser 1968; Hannig et al. 2016; Xie and Singh 2013)、Dempster–Shafer 理论(如 Dempster 1966, 2008; Shafer 1976, 1982),以及推断模型(如 Martin 2015, 2021a, 2024; Martin and Liu 2013, 2015a)。这些方法的一个共同点是,至少在表面上,它们未能认识到“典型性”是唯一基本的概念;这种缺失造成了混淆并阻碍了进展。通过将典型性置于核心位置,我们能够澄清这种混乱。特别地,我们将展示哪些性质与典型性测度一致,进而揭示获得可靠且有原则的未知量不确定性量化的“圣杯”需要什么。

为了帮助引导我们的探索,我们首先给出第3节中非正式表述的典型性原则的正式对应版本。随后,我们将澄清形式化陈述中引入的若干术语和概念。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5.2 将原则付诸实践

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

实现所提出的框架要求我们能够评估式(7)中定义的等高线。接下来我们将描述一种简单且易于解释的方法,该方法对于涉及低维参数的大多数问题已足够有效。固定一个参数 θ θ 到典型性等高线上,然后将式(7)近似为

打开网易新闻 查看精彩图片

其中,中抽取的独立数据副本, m = 1 , … , M 。在实际应用中,上述方法可能过于昂贵。事实上,在中等至高维问题中,要在参数空间相关部分覆盖足够密集的网格上评估等高线,需要巨大的计算投入。虽然可以进行各种调整,例如使用重要性抽样来减轻生成如此多样本集的负担,但这些改进的效果有限。因此,近期的研究重点转向开发新的策略,以模仿贝叶斯所使用的蒙特卡洛方法,即:从一个“后验分布”中抽取参数值样本(而非新数据集),从而更好地控制维度灾难。这些细节超出了本文的范围,但感兴趣的读者可参阅 Jiang et al. (2023) 和 Martin (2025)。

5.3 与其他统计原则的关系

最广为人知的统计原则是似然原则(likelihood principle)(例如 Basu 1975;Berger and Wolpert 1984;Birnbaum 1962),该原则指出:数据中与参数 Θ 推断相关的一切信息,都包含在似然函数的形状之中。这乍看之下似乎直观且无害,因为常用的极大似然估计量和似然比统计量确实仅依赖于似然函数的形状。然而,仔细审视便会发现,我们通常对这些摘要所做的操作——例如 p 值的计算——依赖于所设定模型下的抽样分布;而抽样分布并非由观测到的似然函数所决定,因此基于这些方法的推断违反了似然原则。单就这一违反本身而言或许无关紧要,但 Birnbaum 定理声称似然原则等价于更符合常识的充分性原则(sufficiency principle)与条件性原则(conditionality principle)的联合;因此,违反似然原则就意味着至少违反了其中一个常识性原则,从而引发了争议。不过,自 Durbin(1970)早期起,以及近期 Evans(2013)和 Mayo(2014)的研究中,对 Birnbaum 定理适用范围的合理质疑进一步加剧了这场争论。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

如果我们确实不知道抽样模型(或停止规则),那么(10)中的修改是合理的。如果我们对所设定的抽样模型(或停止规则)有信心,则无需为了满足似然原则而牺牲效率;这正是我们对于提案违反似然原则“毫无歉意”的原因。在两个极端之间存在一个中间地带,例如,我们知道实际使用的是所有可能停止规则的一个适当子集,有关如何实现这一点的细节,我们请读者参阅 Martin (2024)。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5.4 斯坦的均值向量长度(再论)

为了说明第5节所述的更广泛、由典型性驱动的不确定性量化策略,我们再次回顾第4.3节中斯坦的正态均值向量长度例子。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

6 结论

受波普尔与图基深刻哲学思考与科学态度的启发,本文提出了一种新的典型性原则,该原则对统计学与数据科学在方法论和基础层面均具有多重意义。

首先,在方法论层面,典型性原则直接引出了一种在参数估计背景下全新的正则化策略。具体而言,不同于将估计量向估计目标中假定的结构(例如“稀疏性”)收缩,我们基于典型性的关注点强调拟合优度,以确保观测数据在所拟合模型下呈现“典型”特征。文中展示了三个非平凡且具说明性的例子:在这些例子中,最大似然方法表现极差,而我们所提出的典型性聚焦正则化策略则展现出令人满意甚至优越的性能。

其次,在基础理论层面,典型性原则的一个更形式化的版本可自然地融入一般的推断模型(inferential model)框架之中,从而为超越点估计、假设检验等任务的不确定性量化提供可证明可靠的保障。这种更广泛的不确定性量化框架能够方便地容纳冯·诺依曼–摩根斯坦(von Neumann and Morganstern)式的决策制定及其他形式化推断——其功能类似于贝叶斯方法,但无需依赖先验分布,同时不牺牲对错误率控制的保证。

更一般地,我们相信,所提出的典型性原则的各种实现方式将有益于数据科学的发展,因为自动化应用预计将在人工智能等领域的进步中发挥关键作用。尽管本文聚焦于基于模型的推断,但“典型性”这一概念本身与拟合优度考量紧密相连,因此我们完全有理由预期,典型性原则及其衍生方法论不仅会影响推断,也将对科学建模产生深远影响。

典型性原则及其所衍生的各类方法论仍有待进一步的理论与应用研究。在应用方面,现代数据科学问题常涉及复杂模型,若无某种正则化策略的引导,极易发生过拟合;正是这种过拟合倾向,导致了第4节所示例中最大似然估计量的糟糕表现。因此,本文一个自然的后续工作,便是考察所提出的典型性正则化策略在一类现代数据科学问题中的表现,这些问题涉及深度神经网络(deepnets)、Transformer 等复杂且过参数化的模型(Vaswani et al. 2017)。此外,将我们提出的方法与其他先进方法(如知识蒸馏,参见 Hinton et al. 2015;Jiang and Liu 2025)进行比较也将十分有趣。

另一个重要的实践问题是:如何设定式(1)中的调优参数 λ?尽管目前已有大量标准化的调参策略,但一个相关的问题是:我们基于典型性的惩罚项具有内在的数据依赖性,这是否需要引入新的调参考量?毕竟,与常见的鼓励稀疏性的惩罚项不同,p 值具有明确的尺度意义,因此可能需要新的思路来平衡此类惩罚项与似然函数之间的贡献。

在理论方面,所提出的典型性正则化最大似然估计量(以及第5节中发展的更广泛不确定性量化方法)在有限样本和大样本下的效率性质,目前仍是完全开放的研究课题。尽管如此,在必要时,传统的稀疏性惩罚项也可轻松纳入,形成一种混合正则化方法。

与我们所提出的统计原则相一致,并受到其他深刻哲学思考的驱动,近期已有研究致力于提升人工智能的创造力与可信度(例如 Eschker and Liu 2024)。当前的一大挑战在于,如何理解这些(以及其他)哲学进展如何帮助完善当今最前沿的方法,并激发突破现代边界的全新发展。同样重要的是,这些哲学贡献应体现图基那种“亲自动手、面向应用”的“自下而上”风格,而非由象牙塔中发出的“自上而下”、束缚手脚的教条式指令。

原文链接:https://arxiv.org/pdf/2501.14860