Beyond subjective and objective in statistics

超越统计学中的主观与客观

https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=f9ada95aad4b8ac60ebf38ecf5f0a16acad686e1

摘要
我们提议在统计学讨论中摒弃“客观性”和“主观性”这两个词,并用更广泛的属性集合来分别替代它们。其中,“客观性”被替换为透明性、共识性、公正性和与可观察现实的对应性;“主观性”被替换为对多种视角的意识和对情境的依赖性。这种重新表述的优势在于,替代术语彼此并不对立。我们不再争论某一特定统计方法是主观的还是客观的(或在统计实践中规范性地争论主观性和客观性的相对优劣),而是可以将透明性和对多种视角的承认等理想属性视为互补的目标。我们通过药理学、选举民意调查和社会经济分层方面的最新应用实例来展示我们提议的含义。

1. 引言
我们相信,统计学中对客观性和主观性的持续兴趣和讨论是科学中一个基本张力的必然产物:一方面,科学主张应该是超个人的,即一个科学论点应该能够被任何具备必要训练的人理解,而不仅仅是提出它的人,并且科学主张应该可以由外部人员评估和检验。另一方面,科学推理和发现的过程涉及个人选择;事实上,科学家和公众都赞美像爱因斯坦、达尔文这样的伟人的才华和灵感,认识到他们的个性和个体经历在其理论和发现中所起的作用,并且科学哲学家也研究了个人态度与科学理论之间的相互作用(库恩,1962)。因此,很明显,客观和主观元素在科学实践中都有所体现,而在统计学中也是如此。

然而,在统计学中,关于客观性和主观性的讨论陷入了僵局。理想情况下,这些概念应该是对统计分析中不同信息和假设的作用的考虑的一部分,但它们却常常被以限制性和误导性的方式使用。

一个问题是,“客观”和“主观”这两个术语带有太多联想,并且常常以一种混合描述性和规范性的方式使用。当科学家的方法被贴上主观的标签时,他们面临一个尴尬的选择:要么说“不,我们其实是客观的”,要么接受主观的标签并将其变成一种原则。从另一个方向看,使用被贴上客观标签的方法的科学家们似乎过于热衷于从他们的分析中消除主观性,以至于最终限制了自己。例如,当研究人员依赖于p值,却拒绝承认他们的分析依赖于数据时(正如Simmons、Nelson和Simonsohn在2011年以及Gelman和Loken在2014年所讨论的),显著性检验就被用作一种误导性的意识形态工具,导致研究人员甚至对自己隐瞒了将科学理论映射到统计模型或数据分析选择中的迭代搜索过程。

更一般地说,对主观性的错误担忧可能会导致研究人员避免将相关且可用的信息纳入他们的分析中。

一个或许有帮助的类比是社会互动中的性别角色。为了获得尊重,女性往往需要在声称“典型男性化行为”和肯定或“重新定义”女性化角色之间做出选择。与此同时,男性也可能发现自己很难摆脱传统男性气质所隐含的限制。在这种情况下,与其指责和贴标签,不如识别每个性别角色的积极方面,然后从那里出发。同样,好的科学既包含主观元素,也包含客观元素,我们认为最好理解这些视角如何能够相互补充。在这个类比中,我们的观点并不是将女性方面与主观性等同,将男性方面与客观性等同,我们也不是试图参与女性主义哲学;相反,我们只是提及另一个情境,这个情境对我们许多人来说在科学领域乃至更广泛领域都很熟悉,当行为被解释在传统的二元对立中时,困难就会出现。

许多在统计学讨论中使用“客观性”和“主观性”这两个术语的人没有意识到,这些术语在科学哲学中是相当有争议的,并且它们被赋予了各种不同的含义,因此很容易被误解。

在第2节中,我们阐述了我们提议的讨论方式。在第3节中,我们回顾了关于统计学中客观性和主观性含义的讨论,以及在其他科学领域特别是哲学中的讨论。从这些讨论中,我们在第4节中发展了我们的观点,包括本文的核心内容:一份详细的科学美德清单,这些美德通常被归入更广泛的客观性和主观性术语之下。在第5节中,我们将我们的讨论方式应用于对统计学基础主流观点的讨论。随后是第6节的例子和第7节的总结性讨论。

2. 我们的提议

我们之所以撰写本文,是因为我们觉得统计学中关于客观性和主观性的讨论已经变得适得其反。理想情况下,这些概念应该是对统计分析中不同信息和假设的作用的考虑的一部分,但它们却常常被以限制性和误导性的方式使用。

我们提议在讨论统计学时摒弃“客观性”和“主观性”这两个词,并用更广泛的属性集合来分别替代它们。其中,“客观性”被替换为透明性、共识性、公正性和与可观察现实的对应性;“主观性”被替换为对多种视角的意识和对情境的依赖性。

这种重新表述的优势在于,替代术语彼此并不对立。我们不再争论某一特定统计方法是主观的还是客观的(或在统计实践中规范性地争论主观性和客观性的相对优劣),而是可以将透明性和对多种视角的承认等理想属性视为互补的目标。

2.1. 用“透明性”“共识性”“公正性”和“与可观察现实的对应性”取代“客观性”

《韦氏词典》将“客观”定义为“基于事实而非情感或观点:不受情感影响”以及“存在于心灵之外:存在于现实世界中”。科学是由人类实践的,而人类只能通过解释他们的感知来接触现实世界。将客观性作为一种理想认真对待时,科学家需要使他们的感知和解释能够被共享。当应用于统计学时,这意味着数据分析中的选择(包括任何先验分布,数据模型,以及首先选择包含哪些信息)应该基于事实的、可外部验证的信息来驱动。这与“制度化决策分析”的概念(Gelman, Carlin等,2013年的第9.5节)类似,通过这种分析,形式化决策理论的数学可以用来确保决策能够基于清晰表述的标准来证明其合理性。不同的利益相关者会在决策标准上存在分歧,不同的科学家也会在统计建模决策上有所不同,因此一般来说,不存在唯一的“客观”分析(像van Fraassen(1980)这样的作者认为,分析可以在建模决策的条件下是客观的,但不一定是唯一的;详见第3.3节)。类似的想法也激发了新闻界“透明性是新的客观性”这一口号(Weinberger, 2009)。

在统计分析的背景下,客观性的一个关键方面因此是一个透明性过程,其中涉及的选择基于外部的、可潜在验证的来源来证明其合理性,这是一种从外部信息,经过建模假设和统计分析的决策,一直到推断和决策建议的“纸质线索”。然而,透明性是不够的。我们认为科学的目标是在潜在的自由交流中达成共识(详见第4.1节的阐述),这也是心理学领域当前对不可复制性危机如此重视的一个原因(Yong, 2012)。透明性通过允许学者追溯统计推理中使用的来源和信息,有助于建立这种共识(Gelman和Basbøll, 2013)。此外,科学共识,只要它配得上被称为“客观的”,就需要理由、清晰的论点和对方法论及其判断的动机的解释,并清楚地说明这与已有知识的关系。遵循普遍接受的规则和程序支持了结果并不依赖于个别研究者个性的印象,尽管总是存在这样的危险,即这些普遍接受的规则和程序可能不适用于当前的具体情况。无论如何,只有当研究者表现出公正性——考虑竞争性视角,避免偏袒预先选择的假设,并对批评持开放态度——时,才能达成共识。

观察者心灵之外的“现实世界”在通常的客观性概念中起着关键作用。许多人认为发现现实世界是科学的主要目标,这表明与现实的对应性是科学共识的最终来源。这个观点并非没有问题,也面临着一些哲学上的反对意见;详见第3.3节。我们承认“现实世界”只能通过观察为人类所接触,科学观察和测量无法独立于人类的先入之见和理论。尽管如此,作为统计学家,我们关心的是基于系统化观察对现实做出陈述,这使得与可观察现实的对应性成为客观性的一个核心关注点。

形式化的统计方法(贝叶斯方法和非贝叶斯方法)只要有助于实现这些期望,就对客观性有所贡献,特别是通过使程序及其隐含的理由透明化和明确化。

例如,贝叶斯统计通常被贝叶斯学者和非贝叶斯学者 alike都视为“主观的”。但具体取决于贝叶斯先验的解释和使用方式(见第5.3-5.5节),贝叶斯先验满足或有助于上述列出的一些或全部美德:它们使研究者的先验观点透明化,不同的解释方法为达成共识提供了不同的理由,“客观贝叶斯学者”(见第5.4节)试图使它们保持公正,如果适当地解释(见第5.5节),它们可以基于观察得到合理的基础。与经典似然函数一样,它们依赖于科学判断、可行性和惯例的某种混合,但在两种情况下,它们都可以并且是基于硬数据进行赋值的。

2.2. 用“多种视角”和“情境依赖性”取代“主观性”

《韦氏词典》将“主观”定义为“与个人在其自身心智中体验事物的方式有关”以及“基于情感或观点而非事实”。科学通常被视为追求客观性的,因此承认主观性在科学中并不受欢迎。但正如上文所述,现实和事实只能通过个体的个人体验来接触。不同的人会带来不同的信息和不同的观点,并且他们会以不同的方式使用科学成果。为了实现清晰的沟通和达成共识,需要承认不同的视角,这有助于透明性,从而促进客观性。因此,主观性对科学过程是重要的。在统计学中,主观性之所以有价值,是因为它代表了一种方式,用以识别来自不同视角的信息。

在统计学中,“主观性”的概念通常被用来描述贝叶斯推断和正则化——即那些寻求从数据之外获取指导以提高准确性和预测能力的估计和统计程序。例如,回归系数的默认先验可以用来表达系数通常接近于零的信念,从非贝叶斯的角度来看,lasso收缩可以被解释为编码了稀疏性的外部假设。Tibshirani(2014)指出,强制稀疏性并不是主要基于对世界的信念,而是出于可计算性和可解释性等好处,这暗示了在统计学中,甚至更广泛地说在科学中,除了“接近现实世界”之外的考虑因素往往也扮演着重要的角色。稀疏性假设本身可以与一个隐含或明确的模型联系起来,其中问题在某种意义上是从某种分布或可能情境的概率测度中采样而来的;详见第5.5节。

在这里,我们希望以更广泛的方式考虑主观性。事实上,没有任何逻辑上的理由要求主观性必须与正则化联系在一起。例如,如果一个人正在执行线性回归或逻辑回归,并考虑最大似然、lasso或具有特定先验结构的层次贝叶斯等选项,所有这些选择在编码关于可能输出的目标和假设的意义上都是“主观的”,并且只要这些目标和假设是透明的,并且可以根据过往数据进行证明,最终在足够多的未来数据下可以被验证,那么它们就是“客观的”。因此,将贝叶斯或正则化估计传统地标记为“主观的”是抓不住重点的。

除此之外,即使是在任何给定问题中选择结果测量指标也可能存在争议。例如,考虑是否预测选举中的得票率或体育赛事中的得分差,或者直接预测这两种情况下的获胜者(Gelman, 2014a)。这种建模决策取决于统计和实质性因素的考虑,而这里最重要的步骤是认识到这种模型选择的存在,而不是为了避免可能被指责为“主观性”而将其掩盖。

再举一个例子,基于 (y+2)/(n+4) 的二项数据置信区间比基于 y/n 的经典置信区间更好(Agresti和Coull, 1998)。尽管后者有直接的理论依据,前者则是通过在区间宽度和保守性之间进行权衡,并涉及一些近似和简化,而作者们认为这种公式可以在基础课程中呈现,这便是他们如此做的理由。争论这种方法是否比经典方法更主观,以及这是否是个问题,是没有帮助的。同样地,当比较使用多层次回归和后分层的贝叶斯民意估计与直接取原始调查均值(后者实际上对应于在不合理假设的平先验下的贝叶斯分析)时,争论哪一个更主观是无关紧要的。

尽管如此,我们确实认为这与主观性有一定的联系,而我们看到的联系是:贝叶斯方法以及更广泛地说,正则化方法都有需要外部指定的调节参数。这便引出了一个问题:外部指定调节参数是坏事(因为它引入了主观的人为因素)还是好事(因为它允许用户加入先验信息)?

在这里,我们希望用对多种视角的意识和情境依赖性来取代“主观性”这一概念。在统计学中,主观性之所以是好事,是因为信息确实是分散的,对于任何特定问题,不同的利益相关者有不同的目标。与我们提议的另一半相呼应,对不同视角的认识应该以透明的方式进行。我们不应该说我们将调节参数设置为2.5(假设),仅仅是因为这是我们的信念;实际上,许多调节参数与分析的目标和方法的理想特性有关,而不是与某种假设的底层“真相”有关,而这种“真相”可能才是“信念”的对象(详见第6.3节)。相反,我们应该基于某种方式的实证数据来证明这种选择的合理性,将选择嵌入一个最终可以与可观察现实联系起来的统计模型中。

或者,调节参数的选择可以基于对选择对结果的影响的了解以及对某种影响是否期望的清晰解释。例如,在稳健统计的应用中,某些方法的崩溃点可以进行调整,可能被选择为低于最优的50%,因为如果数据中有很大比例偏离大多数,人们可能更希望该方法在所有观测值之间达成妥协;但如果异常值的比例相当低,人们可能更希望将其忽略,而临界比例则取决于应用(特别是异常值是被解释为“错误的观测”还是被视为有些特殊但仍相关的案例)。

2.3. 对统计理论和实践的启示

在讨论层面,我们希望超越主观与客观之间的无谓争论。但我们的目标远不止于此。Gelman和Shalizi(2013)在贝叶斯统计的哲学中,不仅仅是为了澄清问题,还为贝叶斯学者提供哲学和修辞上的空间,让他们可以自由地检验自己的模型,并让那些关心模型拟合效果的应用统计学者能够安心地采用贝叶斯方法。在本文中,我们的目标是让科学家和统计学者更多地实现我们在第4.2节中分解的客观性和主观性的具体积极品质。在当前情况下,我们觉得对客观性的担忧阻碍了研究人员尝试不同想法以及考虑模型的不同输入来源,而对主观性的意识形态则限制了研究人员对其模型进行解释和理解的程度。

倾向于客观性的坚定信仰者往往会不必要地避免在其分析中使用有价值的信息,而主观主义者,以及那些希望让自己的结果显得有力且无争议的统计学者,往往会忽视他们的假设。我们希望我们提出的新框架——透明性、共识性、避免偏见、与可观察现实的联系、多种视角、对情境和目标的依赖性,以及对研究者立场和决策的诚实表述——能够为所有类型的学者提供动力,甚至可以说是许可,让他们将不同来源的信息整合到分析中,更清晰地陈述他们的假设,并将这些假设追溯到过去的数据以证明其合理性,并展望未来数据以验证它们。

此外,我们认为,为了显得客观而产生的压力导致了关于数据编码和分析决策的混乱,甚至不诚实,这些决策无法通过所谓的客观方式来证明其合理性。我们更倾向于鼓励一种文化,这种文化认为公开讨论决策的原因是可以接受的,这些原因有时可能是出于数学上的便利性,或者是研究的目标,而不是基于强有力的理论或硬数据。应该公开承认,统计建模的目标并不总是让模型尽可能接近观察者独立的现实(而这本身就总是需要理想化的),并且有些决策是为了使结果更容易被特定目标受众解释而做出的。

我们的主要观点是:(1)多种视角对应于多条推理路径,而不仅仅是毫无根据的猜测;(2)所需要的不仅仅是先验分布或调节参数,而是一种统计方法,这些选择可以在实证基础上进行证明,或者通过透明的方式将其与分析的背景和目标联系起来。

基于这些原因,我们认为将贝叶斯推断限制为“主观信念的分析”是完全不准确的,正如我们也不会将经典统计推断限制为“简单随机样本的分析”一样。是的,贝叶斯可以用主观信念来表达,但它也可以应用于与信念无关的其他情境(除非所有科学探究最终都与对世界的信念有关)。同样,经典方法也可以应用于不涉及随机抽样的各种问题。关键在于为使用数学模型解决更广泛的问题澄清其基础。

3. 统计学和科学中的客观性与主观性
3.1. 统计学内的讨论

在统计学基础的讨论中,客观性和主观性被视为对立的两面。客观性通常被视为一件好事;许多人认为它是良好科学的主要要求。贝叶斯统计常被认为具有主观性,因为需要选择先验分布。一些贝叶斯学者(尤其是Jaynes, 2003和Berger, 2006)倡导一种客观方法,而另一些人(尤其是de Finetti, 1974)则拥抱主观性。有人认为主观性/客观性之分毫无意义,因为所有统计方法——无论是贝叶斯还是其他——都需要主观选择,但先验分布的选择有时被认为特别主观,因为与数据模型不同,它甚至在渐近极限下也无法确定。在实践中,主观先验分布常常存在众所周知的实证问题,例如过度自信(Alpert和Raiffa, 1984; Erev, Wallsten和Budescu, 1994),这促使人们努力检查和校准贝叶斯模型(Rubin, 1984; Little, 2012),并将贝叶斯推断置于误差统计哲学之中(Mayo, 1996; Gelman和Shalizi, 2013)。

de Finetti值得称赞,因为他诚实地承认统计学中无法避免主观决策,但认为所需的主观性总是以先验信念的形式出现是具有误导性的。这种混淆来自两个方向:首先,先验分布并不一定比统计模型的其他方面更具主观性;实际上,在许多应用中,先验可以从数据频率中估计出来(见Gelman, Carlin等, 2013年的第1章,其中给出了几个例子)。其次,许多统计模型的方面——无论是贝叶斯还是其他——都涉及某种程度的任意选择,因此我们认为将先验分布视为统计程序中主观性进入的唯一通道是一个错误。

除了先验分布之外,统计学中其他涉及客观性与主观性问题的例子还包括需要调节参数的统计方法(例如,截断均值中截断观测值的比例,或小波平滑中的阈值);检验的决策边界,例如显著性水平;以及在分析准备过程中关于数据的包含、排除和转换的决策。

一方面,统计学有时被认为是一门默认科学:大多数统计应用是由非统计学者完成的,他们将现有的通用方法应用于特定问题,而统计学领域的许多研究涉及设计、评估和改进这些通用方法(Gelman, 2014b)。因此,人们认为任何必要的数据分析决策或调节都应以客观的方式进行,无论是从数据中以某种方式确定,还是通过某种最优性论证来证明其合理性。

另一方面,从业者必须在选择使用什么方法、调用什么假设以及在分析中包含什么数据时运用主观判断。即使是将“无需调节”作为方法选择的标准,或者优先考虑偏差、均方误差等,也是一种主观决策。看似完全机械化的设置也涉及选择:例如,如果研究者有一个清单,指出对连续数据应用线性回归,对二元数据应用逻辑回归,对计数数据应用泊松回归,他或她仍然可以选择将响应变量编码为连续变量,或者使用阈值来定义二元分类。而这些选择可能远非微不足道;例如,在建模选举或体育结果时,可以选择简单地预测获胜者,或者预测具体的分差或得票率。建模二元结果可能更容易解释,但通常会丢失信息,而在这个问题中决定做什么则需要主观判断(Gelman, 2013a)。

3.2. 其他领域的讨论

在人文研究领域,如历史和文学批评,学者们探讨了不同处境的观察者如何对Luc Sante所称的“事实工厂”给出不同的解释。在政治争论中,争议常常围绕“挑拣数据”或选择性使用数据而产生,这种担忧可以直接映射到统计学中的随机或代表性抽样的原则,以及更一般性的观点,即用于数据收集的信息应包含在任何统计分析中(Rubin, 1978)。以不同的方式,精神分析学中核心的移情和反移情概念,处于个人印象和可测量事实的边界上,所有这些都受到Philip K. Dick所说的约束:“现实就是那种即使你停止相信它,它也不会消失的东西。”

在社会科学中,关于客观条件与Keynes(1936)所称的“动物精神”的相对重要性,一直存在无休止的争论。例如,在宏观经济学中,争论发生在倾向于将经济衰退视为基础经济条件必然结果的货币主义者(例如,通过经常账户余额、商业投资和生产力来衡量)和关注更主观因素的凯恩斯主义者之间,后者关注股市泡沫和企业的投资决策。这些分歧也转向了方法论,例如,围绕各种尝试客观测量货币供应量和流通速度、消费者信心或经济模型的各种其他输入因素的优点和缺陷存在许多争议。客观和主观效应的相互作用也出现在政治学中,例如,在讨论罗纳德·里根或比尔·克林顿的政治成功是否归因于他们的魅力和吸引人的个性、他们的政治谈判技巧,还是仅仅归因于经济繁荣时期(这几乎会使任何政治领导人都取得成功)的问题上。同样,这些争议与研究方法的争议相关联:关注客观、可测量的因素可能会过于狭窄,但更主观的分析则难以达成科学共识。在社会工作等领域,很明显,为了取得客观进步,必须处理主观现实(Saari, 2005),但这种观点对科学具有更普遍的意义。

在社会和物理科学中(以及在心理物理学等混合领域中),20世纪见证了客观性与主观性的交织。从一个方向来看,海森堡的不确定性原理告诉我们,在量子层面,测量从根本上依赖于观察过程,这一洞见隐含在现代统计学和计量经济学中,似然函数、测量误差模型以及抽样和缺失数据机制都是观察模型的体现。从这个意义上说,不存在纯粹的客观性。从另一个方向来看,心理学家继续努力科学地测量人格特质和主观状态。例如,Kahneman(1999)将“客观幸福”定义为“一段时间内的效用平均值”。无论这一定义是否合理,它都体现了社会科学和行为科学中的一种趋势,即以所谓的客观方式测量那些以前被认为无法测量的东西。

3.3. 客观性的概念

涉及客观性与主观性对立的讨论常常因为客观性在不同人(无论是在统计学还是其他领域)那里有不同的含义而受到困扰(以下讨论将主要聚焦于“客观性”这一术语;主观性通常被视为客观性的对立面,因而被隐含地定义)。这些术语的模糊性常常被忽视。我们相信,通过在具体情境中指明相关的含义,而不是在没有进一步解释的情况下使用模糊的“客观性”和“主观性”术语,可以使这类讨论更加清晰。

根据Daston和Galison(2007)的说法,“客观性”这一术语以这种方式在科学中使用是从19世纪中期开始的;在此之前,“客观”和“主观”所具有的含义几乎与当前的相反,并且在关于科学的讨论中并没有发挥重要作用。

个体主体独立性的观念可以以多种方式应用。Megill(1994)列出了客观性的四种基本含义:“绝对客观性”,即“如实地呈现事物本身”(独立于观察者);“学科客观性”,指某一学科内专家之间的共识,并强调沟通和协商的作用;“程序客观性”,即遵循独立于个别研究者的规则;以及“辩证客观性”。后者有些令人惊讶地涉及主观贡献,因为它指的是为了使现象能够被传达和测量而需要的人类“客观化”活动,以便这些现象能够以客观的方式被处理,从而让不同的主体能够以相同的方式理解它们。例如,统计学依赖于对良好界定的总体和类别进行构建,在这些类别中可以定义平均值和概率;详见Desrosieres(2002)。

Daston和Galison(2007)将试图以一种未经人为操纵的方式捕捉现实的科学图像的理想称为“机械客观性”,与“结构客观性”相对。“结构客观性”源于像亥姆霍兹和庞加莱这样的科学家和哲学家的洞见,即对现实的观察无法排除观察者,也永远不会像“机械客观主义者”所希望的那样可靠和纯净。相反,“结构客观性”指的是数学和逻辑结构。Porter(1996)将观察者的公正性理想列为客观性的另一种含义,并强调定量和形式化推理对于客观性概念的重要性,因为它们有潜力消除模糊性。

对我们来说,“客观性”这一术语最成问题的方面在于,它融合了规范性和描述性内容,而这两者常常没有被明确区分开来。例如,一种不需要指定任何调节参数的统计方法在描述性意义上是客观的(它不需要个体科学家做出决策)。这种特性通常被呈现为该方法的优势,而无需进一步讨论,暗示客观性是一种规范,但根据具体情况,由于无法调节而导致的灵活性缺失实际上可能是一个劣势(并且确实可能导致在分析的另一个阶段出现主观性,例如当分析者必须决定是否在一个其推断似乎毫无意义的场景中使用自动调节的方法时)。频率主义对概率的解释在描述性意义上是客观的,因为它将概率置于一个独立于观察者的客观世界中,但这些概率的定义需要对参考集做出主观定义。尽管频率主义的一些支持者认为其客观性(在给定参考集定义的条件下,表现为超个人性)是一种优点,但这种属性最终只是描述性的;它本身并不能表明这样的概率确实存在于客观世界中,也不表明它们是科学研究的值得追求的目标。

将客观性视为科学美德的观念与科学被认为的目标和价值有关。科学实在论者认为,发现关于观察者独立现实的真理是科学的主要目标。这使得上述的“绝对客观性”成为核心的科学理想,并且它仍然很受欢迎。然而,观察者独立的现实只能通过人类的观察来接触,实在论的客观性理想被实证主义者(其中Porter(1996)将Karl Pearson算作其中一员)以及更现代的经验主义者如van Fraassen(1980)视为形而上学的、毫无意义的和虚幻的。在后两个群体中,客观性也被视为一种美德,但对他们来说,它并不是指观察者独立的现实,而是指一种标准化的、有纪律的和公正的科学方法的应用,这种应用能够使学术界对观察达成共识。对观察的引用是经验主义、实证主义和实在论的客观性观念的共同元素;Mayo和Spanos(2010)以实在论的方式解释客观性,并且他们认为通过他们所称的“误差统计学”来检验理论是否符合经验是确保客观性的核心工具。相比之下,van Fraassen(1980)从反实在论的角度出发,将可观察性和理论对观察事实的解释能力视为客观的。他所理解的可观察性取决于背景、理论和观察手段,他的客观性概念以这些观察条件为前提,假设至少在这些条件下接受观察和可观察性不应依赖于主体。

Daston和Galison(2007)将“机械客观性”作为一种科学美德的兴起描述为对早期科学理想“自然真相”的不足的反应,“自然真相”指的是科学应该发现并呈现观察现象之下的一个潜在的理想和普遍(柏拉图式的)真理。受摄影技术发展的启发,向机械客观性的转变意味着视角的转变;焦点从产生纯粹和理想的“真实”类型转移到捕捉“如其所是”的自然,包括所有被致力于“自然真相”的科学所压制的不规则性和变化。随着对所谓客观观察技术的不足和理论依赖性的深入了解,“训练有素的判断”作为一种对机械客观性的回应而成为一种美德。根据Daston和Galison(2007)的说法,后来的美德并没有简单地取代旧的美德,而是补充了它们,因此如今这三种美德仍然存在于科学中。Daston和Galison没有讨论统计学,但统计学中关于建模误差导致围绕真实参数的变化的想法可以被视为一种尝试,将机械客观的观察变化与“自然真相”的理想结合起来。抽样理论中估计总体量的想法更类似于摄影式的“如其所是”地估计自然的想法。人们也可以将主观贝叶斯和客观贝叶斯视角与“训练有素的判断”概念联系起来。在Daston和Galison的框架中,客观性被视为众多科学美德之一。

客观性还因看似理想但可能虚幻而受到批评。这种批评必须针对客观性的特定解释,而对客观性的较弱解释在批评者看来可能仍然是好事:van Fraassen同意Kuhn(1962)和其他人的观点,即“绝对客观性”是一种幻觉,对现实的接触依赖于观察者,但他仍然认为在参考系统条件下的客观性是一种美德。然而,甚至还有人批评客观性这一概念(无论是否可能)是否值得追求。从某种女权主义观点来看,MacKinnon(1987)写道:“以客观的方式看待世界就是将世界物化。”在这里,追求客观性本身被视为一种特定的、可能有害的视角,暗示着对观察者视角的具体条件的否认。Feyerabend(1978)也提出了类似的观点。Maturana(1988)批判性地讨论了“无括号的客观性解释路径”,在这种路径中,观察者基于对客观现实的所谓特权性接触而否认对其立场的个人责任;他接受了一种更积极的、视角依赖性的“带括号的客观性”术语的使用。

4. 我们的观点
4.1. 我们对科学中客观性和主观性的态度

本文所采取的态度基于Hennig(2010),而后者又受到建构主义哲学(Maturana, 1988; von Glasersfeld, 1995)的启发,区分了个人现实、社会现实和观察者独立的现实。根据这一观点,人类的探究始于由个人观察者做出的观察(个人现实)。通过沟通,人们分享观察结果,并生成超越个人视角的社会现实。这些共享的现实包括例如标准化观察的测量程序,以及将观察结果与抽象形式系统联系起来的数学模型,该系统旨在创建一个摆脱个体不同视角的思想体系。然而,人类只能通过个人观察以及这些观察如何在社会现实中被整合,来接触观察者独立的现实。

根据Hennig(2010),科学的目标是达成一种尽可能独立于观察者的稳定、可靠的现实观,这种观点可以被一般观察者自由地达成共识。在这个意义上,我们将客观性视为一种科学理想。但与此同时,我们也承认引发对客观性批评的原因:不同个体视角的存在,以及不同社会系统之间的视角差异,因此,真正独立于观察者的现实的不可达性,是人类的基本条件。客观性只能由观察者赋予,如果观察者对什么是客观的无法达成共识,就不存在一个特权位置来决定这一点。理想的客观性永远无法实现。

然而,这并不意味着科学争论永远无法通过科学手段解决。是的,学术分歧的裁决中确实存在“政治”因素,但正如我们将要讨论的,透明性规范以及其他与客观性和主观性相关的规范可以推进这类讨论。通常,没有一个特定的观察者拥有特权地位,但这并不意味着所有观点都是平等的。我们承认主观性,不是为了放弃科学共识的可能性,而是作为第一步,探索并理想地调和几乎任何人类探究中不可避免的多种视角。

否认不同合法主观视角的存在及其对科学探究的潜在贡献,以客观性的名义是说不通的。不能通过强加权威来处理异质观点。我们的态度重视在不同视角之间达成科学共识的尝试,但理想情况下,这种共识是通过不同观点之间的自由交流达成的。然而,在实践中,共识通常不会是普遍的,为了进步,科学必须旨在达成专家之间的更有限的共识,这些专家拥有足够的背景知识,以确保关于新事物的共识与早期已建立的知识一致,或者知道它需要如何修订现有知识。但达成的共识仍然旨在对每个人开放,供其加入或挑战。因此,科学中总是存在普遍共识的理想与异质视角的现实之间的张力。

此外,我们对科学的态度基于这样一种观点:就稳定和可靠的关于可观察现实的陈述达成共识是可能的(这可能需要复杂的测量程序),并且科学旨在通过关于可观察现实的陈述来获得非平凡的知识,这些陈述可以通过观察来检验并可能被证伪。

尽管无法客观地接触到观察者独立的现实,我们承认人类几乎普遍有一种现实体验,这种现实被感知为位于观察者之外且不受观察者控制。这种现实是科学的目标,尽管不能想当然地认为它确实独立于观察者。因此,我们是“积极的科学实在论者”,正如Chang(2012)所言:“我把现实视为不受个人意志控制的一切,将知识视为一种能力,能够在不被现实阻碍的情况下采取行动。这种观点允许对悲观归纳进行乐观的解释,它庆祝这样一个事实:即使不知道真理,我们也能在科学中取得成功。从成功到真理的标准实在论论证被证明是不明确且有缺陷的。”这种实在论形式并不与van Fraassen对实在论的批评或建构主义者或女权主义者对某些客观性形式的可取性的论点相矛盾(如上所述)。积极的科学实在论意味着,发现关于客观现实的真理并不是科学的最终目标,而是支持人类行动。这意味着科学方法必须根据其使用所关联的具体目标和行动来评估。除了对现实的多种视角之外,科学中另一个不可简化的主观元素是科学探究的目标,这一目标无法以客观的方式标准化。一个典型的统计实例是,在有限的设置中,预测精度的价值与简洁性和可解释性相比如何权衡。

因为科学旨在达成共识,所以沟通对科学至关重要,透明性和支持沟通清晰性的技术也是如此。这些技术包括形式化和数学语言、标准化的测量程序以及科学模型。因此,我们所理解的客观性是一种科学理想,永远无法完全实现。尽管科学追求客观性,但它必须承认,客观性只能通过沟通从多种主观视角中构建。

4.2. 具体的客观和主观美德清单

将一种方法、一种陈述或一个结果称为“客观的”,往往是一种具有误导性的营销说法。即使不是这种情况,这种描述仍然不精确且模糊。更清晰、更有用的做法是引用其具体品质,这些品质支持科学的目标,即产生一种稳定、可靠的现实观,这种观点可以被一般观察者自由地达成共识。通常被称为“客观”的美德包括:

  1. 透明性(Transparency):

    (a) 概念的清晰且无歧义的定义,
    (b) 开放的规划并遵循既定协议,
    (c) 对推理、程序和潜在局限性的充分沟通;
    2. 共识:
    (a) 考虑相关知识和现有相关工作,
    (b) 在可能和合理的情况下遵循普遍接受的规则,
    (c) 提供达成共识和统一的理由;
    3. 公正性:
    (a) 对相关且可能竞争的理论和观点进行充分考虑,
    (b) 对可能的偏见进行充分考虑并尽可能消除:可能危及共识和结果预期解释的因素,
    (c) 对批评和交流持开放态度;
    4. 与可观察现实的对应性:
    (a) 概念和模型与可观察现象的清晰联系,
    (b) 对可重复性、可检验性和可证伪性的明确条件。

  2. 那么主观性呢?“主观”一词通常被用作“客观”的对立面,因此常常被视为与科学美德相对立,或者被视为无法完全避免的东西,因此只能不情愿地接受。

  3. 然而,主观视角是科学共识的基石,因此也有与主观性相关的科学美德:

  4. 多种视角的意识,

  5. 对情境依赖性的意识:
    (a) 认识到对特定情境和目标的依赖性,
    (b) 对研究者的立场、目标、经验和主观视角的诚实承认。

在随后的讨论中,我们将用O1a–O4b或O1–O4(“O”表示“与客观性相关”)来标记上述清单中的项目,用S1、S2(S2a、S2b)来标记与主观性相关的项目。我们的意图是勾勒出一个美德体系,以便在涉及客观性和主观性问题时能够进行更精确和详细的讨论。

我们意识到在某些情况下,这些美德可能会相互对立,例如“共识”可能会与“对多种视角的开放性”相冲突,但我们认为这反映了科学中一种本质且不可避免的张力。有时,共识可能只能是存在不同的合法观点。此外,列出的美德并非完全独立;对观察的明确引用可能是达成共识的主要理由,也是透明性的重要贡献;而三种主观美德既促进了透明性,也促进了对批评和交流的开放性。

所有清单中的项目都适用于所有情况。例如,在接下来的部分中,我们将把这份清单应用于统计学基础的方法,但O1c和S2b更适用于具体的研究。

5. 在统计学基础中分解主观性和客观性

在本节中,我们使用上述美德清单重新审视统计学基础的讨论,这些讨论中“主观”和“客观”这两个术语通常占据主导地位。我们讨论了我们认为的统计学基础的主要流派,但在这些流派中,每一种都存在多种不同的方法,我们无法在这样一篇论文中完全覆盖;相反,我们对这些流派进行了较为粗略的勾勒,并在需要时仅引用一位或几位主要作者以供参考。

在这里,我们区分了概率的解释和统计推断的方法。因此,我们将频率主义视为一种概率的解释,这并不一定意味着费舍尔方法或奈曼-皮尔逊检验优于贝叶斯方法,尽管频率主义通常与前者关联更多,而不是后者。

我们将回顾几种统计推断的哲学,并分别阐述我们所看到的与第4.2节中概述的客观性和主观性美德之间的联系。

5.1. 频率主义

我们将“频率主义”定义为在某一实验中,事件的概率被识别为如果该实验以某种独立的方式无限次重复时,事件发生频率的极限相对频率。这里的“独立性”不应与形式化的随机独立性混为一谈,因为随机独立性是用概率定义的,因此需要已经对概率的解释才有意义,所以它不能用来定义概率的解释,正如冯·米塞斯(1957)所认识到的。然而,随机独立性是必要的,用于建模一系列实验,以便通过二项分布将事件的不可观测概率与有限重复下的观测频率联系起来。在更广泛的意义上,当概率形式化实验产生某些结果的观察者独立倾向或倾向性时,我们称这些概率为“频率主义”(例如,见Gillies, 2000)。

频率主义思维将概率置于观察者独立的世界中,因此它们在这种意义上是客观的。然而,这种客观性是基于模型的,因为无限的实际重复是不存在的,而且在大多数情况下,大多数研究者会对真正的重复实验、真正的独立性持怀疑态度,或者在观察性研究中,是否会将观测视为从适当参考集中以完全随机的方式抽取的也会持怀疑态度。

关于某一现象采用频率主义的概率解释的决定因此需要理想化。它无法以完全客观的方式证明其合理性,这里指的是,根据我们的美德清单,它既不能通过观察来强制执行,也没有足够普遍的共识认为这种解释适用于任何特定设置,尽管在某些物理设置中(如放射性衰变)它是经过充分讨论和支持的(O2, O4)。然而,一旦采用频率主义模型,它就会对观测做出预测,这些预测可以被检验,因此对可观察现实的引用(O4)是明确的。

关于频率主义对概率的定义是否清晰且无歧义(O1a),存在一些争议。一方面,实验产生某些结果的倾向——无论频率是否真的表现出所暗示的方式——在实验条件被良好定义的情况下,通过观测频率和预期频率表现出来的想法似乎足够清晰。另一方面,冯·米塞斯试图通过集体的概念和在位置选择规则下的不变性公理来避免在频率主义概率的定义中涉及随机独立性和同一性,但并未完全成功(Fine, 1973),这一问题也从未得到完全解决。

频率主义意味着,在观察者独立的现实中,真实的概率是唯一的,但在定义可重复实验、集体或参考集时,存在相当大的多种视角(S1)的空间。重复的概念通常是通过相当富有创造性的方式构建的。例如,频率主义时间序列模型被用于时间序列数据,暗示了每一个时间点都有一个潜在的真实分布,但无法在相同的时间点独立重复观测。这实际上意味着,如果不在统计模型中隐含地构建重复,例如通过假设ARMA类模型中的独立创新,那么时间序列数据的有效样本量将是1。这样的模型,或者更准确地说,这些模型的某些方面,可以与数据进行对比检验,但即使这样的检验没有失败,仍然很清楚,在可观察的现实中,即使近似地,也不存在模型所暗示的固定时间点 t 下时间序列 xt 的边际“真实”频率主义分布,因为 xt 严格来说是不可重复的。

我们将在下面讨论,有用的统计模型需要统计学家在某种程度上构建重复(或可交换性),这并不局限于频率主义模型。为了为统计学中从多个观测中汇总信息以对未来观测做出推断这一基本任务提供理由,所有这些观测都需要被假设为以某种方式代表了相同的过程。

在特定情况下,这些假设的适用性通常只能通过观测进行相当有限的检验。关于为什么将某一组观测(或不可观测的隐含实体,如误差项和潜在变量)视为独立同分布的频率主义重复是好主意还是坏主意,可以运用各种非正式的论证。

不幸的是,尽管从我们的角度来看,这种对多种视角和潜在情境依赖性(S2a)的开放性可以被视为积极的,但频率主义参考集选择中涉及的这些问题往往没有被清晰地沟通和讨论。频率主义者通常假定存在一个具有隐含参考集的真实模型,这在一定程度上是出于对客观性的渴望。

从本文以及Hennig(2010)所采取的观点来看,频率主义的概率解释可以作为一种理想化的模型被采用,而无需相信频率主义概率真的存在于观察者独立的世界中。如果在特定情况下被认为对科学目标有用,例如因为某个特定的频率主义模型(或多或少)清晰地传达了科学家对某一现象的看法(O1a),并且暗示了如何通过观测来检验这一点(O4),那么这可以在个案基础上得到证明。

5.2. 误差统计学

“误差统计学”这一术语是由哲学家Deborah Mayo(1996)提出的。在这里,我们用它来指一种基于频率主义概率解释和可以通过误差概率进行描述与评估的方法的统计推断方法。传统上,这些方法包括Neyman-Pearson假设检验中的I型和II型错误,但误差统计学的视角也可以应用于其他构造,例如符号错误和量级错误(“S型”和“M型”错误;Gelman和Carlin, 2014)。Mayo(1996)为误差统计学引入了另一个关键概念——“严格性”,即在假设为假的情况下,观察到与假设一样或更不一致的结果的概率。严格性与检验的功效相关,但并不完全相同。它用于量化检验结果在多大程度上能够证实一个假设(同时要记住,检验特定统计假设只能揭示感兴趣科学理论的孤立方面;并且一个特定的检验只能证实假设统计模型的特定方面)。

根据Mayo和Spanos(2010),客观性是误差统计学的核心关切,特别是通过提供用于重复、检验和证伪的方法学(O4b)。Mayo(2014)将客观的科学测量定义为“相关”“可靠地有能力”以及“能够从错误中学习”,这勾勒出了误差统计学达成共识的合理性(O2c)。只要误差统计学方法产生推断错误的潜力可以被分析,并且得出的误差概率较低,那么这种方法就被认为是“可靠地有能力”的。而“能够从错误中学习”指的是被误差统计程序拒绝的错误假设,该程序理想情况下可以指出拒绝的原因,从而促进假设的改进,而不是推断方法的错误。其背后的观点是我们所认同的,即从错误中学习是科学的主要驱动力,是统计研究方式与其对象之间的一种终身契约。这对应于上述提到的Chang的积极科学实在论,并且意味着对Mayo来说,引用观察是客观性的核心。

Mayo的“相关性”涉及感兴趣的研究问题,因此与我们归类为与主观性相关的美德S2a有关。尽管Mayo试图捍卫误差统计学方法的客观性,以对抗对其主观性的指责,她可能对这种分类并不满意,但我们同意她的观点,这是一个重要的美德,尽管它并不是特别与误差统计学相关。

误差统计学方法的误差概率特征通常依赖于模型假设。原则上,这些模型假设也可以通过误差统计学的方式进行检验,因此,根据Mayo的说法,它们对客观性并不构成威胁。但这带来了两个问题。首先,基于误差概率的统计推断推导通常假定模型是固定的,并不考虑基于数据的先验模型选择。这一问题最近吸引了一些研究(例如,Berk等人,2013),但仍然需要透明地列出所有可能的建模决策(美德O1b),而这通常是缺失的,并且在方法以探索性方式使用时,可能甚至并不理想(Gelman和Loken, 2014)。其次,任何数据集都可以与许多模型一致,这可能导致不同的推断。Davies(2014)通过分析一个关于饮用水中铜含量的数据集来说明这一点,该数据集可以用高斯分布、双指数分布和梳状分布很好地拟合,但在这三种模型下,对称中心(假设为推断目标)的置信区间却大相径庭。

因此,Davies(2014)认为假设模型或参数为“真实”是具有误导性的,而应该考虑所有“足够好”的模型,这些模型能够通过基于数据特征的检验来近似数据,而这些特征是统计学家感兴趣的,这不需要引用不可观测的真实频率主义概率,但同时也会考虑误差概率。这种方法以更直接的方式与观察联系在一起,而不对观察者独立现实的不可观测特征做出形而上学的假设(O1a, O4)。然而,如果研究者想用“数据近似模型”来了解观察者独立的现实,那么可能仍然需要隐含地做出这种形而上学的假设,并且所有足够好的模型类别可能过于丰富,无法进行有意义的推断(与更标准的频率主义处理一样,Davies关注具有独立同分布随机变量或误差项的模型)。关于稳健统计学的早期工作(见Huber和Ronchetti, 2009)已经引入了与名义模型相邻的模型集合的概念,基于数据,无法可靠地区分邻域中的模型。

误差统计分析的灵活性甚至进一步体现在单一真实潜在分布的假设并不决定真实的分布所嵌入的参数或非参数分布族。尽管Neyman和Pearson在考虑对零假设的特定备择假设时推导出了最优检验,但许多类型的备择假设和检验统计量可能具有潜在的兴趣。Davies(2014)明确提到了用于检验模型是否足够好的统计量的选择依赖于背景和研究者的目标(S2a),而不是依赖于Neyman-Pearson类型的最优性结果。

总体而言,在误差统计学方法中,存在许多引入多种视角(S1)的切入点。这可以被视为一件积极的事情,但它在某种程度上与该方法被其一些支持者宣传为客观的方式相悖。在我们看来,许多频率主义和误差统计分析可以从诚实地承认它们的灵活性和研究者所做的选择中受益,其中许多选择无法仅由数据决定。

5.3. 主观贝叶斯主义

我们将“主观认识论”概率解释为个体信念强度的量化,其中概率可以被解释为源自或通过一致的赌注来实现,即没有任何对手可以通过设置某些赌注组合来造成必然的损失。从这种一致性的要求出发,可以推导出通常的概率公理(O2c)。允许条件性赌注则意味着贝叶斯定理,因此,就推断涉及从观测中学习尚未观测到的假设而言,贝叶斯方法被用于主观认识论概率,因此得名“主观贝叶斯主义”。

主观贝叶斯主义的主要倡导者是Bruno de Finetti(1974)。de Finetti并不反对客观性。他将观察到的事实视为客观的,同时也将数学、逻辑以及某些随机实验的形式条件(如可能结果的集合)视为客观的。但他将不确定性视为一种主观的东西,并认为客观(频率主义)概率不存在。他声称,他的主观贝叶斯主义适当地考虑了概率评估中的客观(如上所述)和主观(基于已知证据对未知事实的看法)两个组成部分。鉴于在第5.1节中讨论的频率主义所需的理想化程度,这无疑是一个合理的立场。

在de Finetti的工作中,“先验”一词指的是在看到数据之前所做的所有概率分配,没有对模型中参数的“参数先验”和给定固定参数时的“抽样分布”形式做出根本性区分,这与当今常见的贝叶斯实践不同,后者仅用“先验”一词指代参数先验。在随后的讨论中,我们将按照de Finetti的广义使用“先验”一词。

关于第4.2节中的美德清单,de Finetti基于他试图建立为普遍可接受的原则(O2c),提供了对概率的清晰定义(O1a)。与客观贝叶斯主义者不同,主观贝叶斯主义者并不试图就先验分布达成一致,即使在相同的证据下也是如此;然而,de Finetti(1974)和其他主观贝叶斯主义者提出了分配先验概率的理性原则。客观贝叶斯和主观贝叶斯观点之间的差异根植于上述科学中的一般张力;主观方法可以被批评为不够支持达成共识——基于一个先验的结论可能被持有另一个先验的人视为无关紧要(O2c)——但它可以被辩护为诚实地承认先验信息通常不会以允许唯一形式化的方式出现(S2b)。在任何情况下,主观贝叶斯主义者都需要透明地解释他们是如何得出他们的先验的,以便其他研究者可以决定在多大程度上支持这些结论(O1c)。这种透明性在任何统计方法中都是可取的,但对于主观贝叶斯模型尤其相关,因为在主观主义范式中,如果与观测结果不符,这些模型无法被拒绝。

在de Finetti的观点中,概率评估——无论是先验还是后验——最终只能涉及可观察事件,因为只有当一个赌注所依赖的实验具有可观察的结果时,赌注才能被评估,因此与可观察现象存在清晰的联系(O3a)。

然而,主观贝叶斯概念中的先验是不可证伪的(O3b),因为根据定义,它们必须在观测之前固定下来。在分析数据之后调整先验会违反一致性。从一致性等公理(以及客观贝叶斯主义者使用的公理;见第5.4节)推导出的贝叶斯体系旨在涵盖从数据中学习的所有方面,包括模型选择和拒绝,但这要求所有潜在的后续决策都必须已经纳入先验中,而先验本身并不被解释为关于尚未知晓的观测的可检验陈述。特别是这意味着,一旦主观贝叶斯主义者在先验上将一个设置评估为可交换的,那么无论数据如何,他或她都无法在后续放弃这一假设(想象在一个二元实验中,先观察到20个零,然后是20个一,接着又是10个零)。这是一个重大问题,因为主观贝叶斯主义者利用de Finetti定理来证明在可交换性假设下使用参数先验和抽样模型的合理性,这在贝叶斯统计中非常常见。Dawid(1982)讨论了主观贝叶斯推断的校准(预测概率与预测事件发生频率之间的一致性),他建议,如果为了改善校准需要调整未来先验,那么校准不佳的贝叶斯主义者可以调整他们的先验,即使这会以违反一致性为代价。

主观贝叶斯主义在主观美德S1和S2b上表现良好。然而,其局限性在于先验分布仅形式化了信念;分析的背景和目标只有在对信念产生影响时才会被纳入。在实践中,全面地引出信念几乎是不可行的,而数学和计算上的便利性往往在设置主观先验时发挥着作用,尽管de Finetti曾著名地指责频率主义者“为了数学上的便利而采用临时拼凑的方法”。此外,可交换性的假设几乎永远不会精确地匹配任何情境下个体的信念——即使在一个特定设置中没有反对可交换性的具体理由,无论观察到什么结果都坚持这一假设似乎过于强硬——但贝叶斯主义者出于与频率主义者依赖独立性假设相同的原因,需要某种可交换性假设:模型中需要某种内部重复,以便能够推广或外推到未来的观测(见第5.1节)。

总结来说,我们认为de Finetti对频率主义的大部分批评是合理的,主观贝叶斯主义在承认主观决策的影响方面表现出令人钦佩的诚实,并允许灵活地容纳多种视角。但该方法没有内置对先验的检验和证伪机制,这可能会阻碍观察者之间的共识。此外,de Finetti及其弟子批评的频率主义方法的一些问题,源于不可避免的事实:有用的数学模型会理想化和简化个人和社会对现实的视角(见Hennig, 2010以及上文),而主观贝叶斯方法也会面临这些问题。

5.4. 客观贝叶斯主义

鉴于客观性通常被宣传为一项关键的科学美德(往往没有明确其具体含义),并不令人惊讶的是,并非所有贝叶斯学者都认同de Finetti对主观性的强调,也存在许多尝试以更客观的方式指定先验分布。目前,E. T. Jaynes(2003)的方法似乎是最受欢迎的之一。与他的许多前辈(如Jeffreys和Carnap)一样,Jaynes将概率视为二元逻辑对不确定命题的推广。Cox(1961)证明,给定一个关于“似真性”测量的所谓常识性期望的清单,所有这样的测量在适当缩放后都等价于概率测量。这个定理是Jaynes客观贝叶斯主义的基础,而客观性的主张来自于假设在给定相同信息的情况下,每个人都应该对似真性(先验和后验概率)得出相同的结论(O2c),这一观点与主观贝叶斯主义者存在分歧。

在实践中,这种客观主义理想似乎难以实现,Jaynes(2003)也承认,包括所有信息的客观先验的设定是一个尚未解决的问题。人们可能会怀疑他的理想是否真的能够实现。例如,在第21章中,他给出了一个完整的贝叶斯“解决方案”,用于处理和识别异常值,这假设必须为“好”数据和“坏”数据(因此需要在二者之间做出适当区分)指定先验模型,包括两个模型的参数先验,以及任何数量的观测为“坏”的先验概率。很难看出,Jaynes本人也没有提供任何信息,如何将关于许多情境中存在异常值的非具体信息(其中一些情境或多或少相关,但没有一个与手头问题完全相同)转化为Jaynes方法所需的精确定量规范,而且这一切都在看到数据之前以客观的方式完成。

撇开处理非正式指定的先验信息的困难不谈,即使是更基本的关键问题——指定一个形式化“无知”的客观先验分布——也充满了困难,而且存在各种原则在许多情况下存在分歧(Kass和Wasserman, 1996)。客观性似乎是一个抱负,而不是通过设定客观贝叶斯先验所能真正实现的描述。因此,Bernardo(1979)更谦逊地提出了“参考先验”的概念,避免使用“客观”一词,并强调在这些情况下有一个惯例是可取的(O2b),但他承认可能无法证明任何一般性方法能够以任何理性的意义上唯一正确或最优地达到这样的惯例。

除了先验设定的客观性问题外,客观贝叶斯方法在我们的美德清单方面与主观贝叶斯方法具有类似的优缺点,尤其是在关于可证伪性的观测问题上。客观贝叶斯先验概率与逻辑分析情境相关,而不是像de Finetti的主观方法那样与未来观测的赌注率相关,这使得客观贝叶斯先验概率与观测的联系比主观贝叶斯方法更弱(但概率逻辑在统计数据分析之外还有其他应用,这可能不是问题)。

客观贝叶斯主义的优点在于,该方法更强烈地推动以尽可能清晰和通用的原则来透明地证明先验分布。这种动力,加上一些主观贝叶斯式的诚实——即尽管在绝大多数应用中努力尝试,最终得到的先验仍然不配得上“客观性”的标签,并且仍然可能受到潜在的争议——有可能将这两种传统贝叶斯世界的优点结合起来。

5.5. 证伪主义贝叶斯主义

对于主观贝叶斯主义者和客观贝叶斯主义者来说,遵循de Finetti(1974)和Jaynes(2003)的观点,概率模型(包括参数先验和抽样模型)并不模拟数据生成过程,而是从某一特定视角表达似真性或信念。似真性和信念模型可以通过数据以先验指定的方式进行修改,但它们不能被数据证伪。

在许多应用贝叶斯工作中,抽样模型被明确或隐含地解释为代表数据生成过程,方式类似于频率主义或其他类似方法,而参数先验和后验被解释为提供关于“真实”参数值的信息。有人认为,这种工作并不直接违背主观贝叶斯主义或客观贝叶斯主义的哲学,因为“真实参数值”通常可以被解释为在先验模型下给定的期望大样本函数(Bernardo和Smith, 1994)。然而,许多统计学家认为,经典主观或客观贝叶斯数据分析由不可检验的先验分配所决定的方式是不令人满意的。利用误差统计技术通过观测来检验先验分布的某些方面这一建议已经存在了一段时间(Box, 1980)。Gelman和Shalizi(2013)将其纳入了我们在这里所称的“证伪主义贝叶斯主义”的框架中,这是一种公开偏离主观和客观贝叶斯主义的哲学,将贝叶斯方法论与一种可以被广泛视为频率主义的概率解释相结合,并采用误差统计方法来检验假设,以改善贝叶斯统计在美德O4b方面的表现。

证伪主义贝叶斯主义遵循频率主义对概率的解释,即在给定真实参数的情况下,由抽样模型形式化的概率,因此这些模型可以使用误差统计技术进行检验(尽管这些技术存在局限性,如第5.2节所讨论的)。Gelman和Shalizi认为,正如一些频率主义者所认为的那样,这些模型是理想化的,不应被相信为字面上的真实,但科学过程是从简化的模型出发,通过测试和潜在的证伪来改进模型,特别是在模型被发现不足的地方。这反映了Jaynes(2003)的某些态度,不同之处在于Jaynes通常认为概率模型可以从物理系统的约束中推导出来,而Gelman和Shalizi关注的是社会或网络科学中的例子,这些例子不受简单物理定律的支配,因此一般不能从第一性原理推导出概率分布,因此“先验”(在本文中我们使用这个术语,涵盖数据模型和参数模型)更明显地具有主观性。

证伪主义贝叶斯主义的一个核心问题是参数先验的含义和使用,它可以有多种解释,这为证伪主义贝叶斯主义在考虑多种视角、情境和目标(S1, S2a)方面提供了很大的灵活性,但可能被视为关于清晰性和统一性(O1a, O2c)的一个问题。频率主义者可能会怀疑是否真的需要参数先验。以下是纳入参数先验的一些潜在好处:

  • 参数先验可以形式化相关的先验信息。

  • 参数先验可以作为一种有用的正则化工具。

  • 参数先验可以通过故意引入极端观点来探索推断的敏感性。

  • 参数先验可以透明化分析中涉及的观点。

  • 参数先验可以促进与分析目标相关的结果行为(例如,通过给予复杂性或难以行动的模型较低的先验权重来惩罚它们)。

  • 如果存在这样的方法,涉及特定参数先验的贝叶斯程序可能比直接的频率主义方法具有更好的误差统计特性(例如,从后验中导出的点估计的均方误差)。

  • 经常发现一个贝叶斯参数先验,它可以模拟频率主义/误差统计方法,这有助于理解该方法的含义。
    以下是解释参数先验的几种方式:

  • 参数先验可以以频率主义的方式解释,即形式化一个或多或少理想化的数据生成过程,生成参数值。这些“生成”的参数值可能无法直接观测,但在某些应用中,至少间接地从参数先验中抽取多个参数值的想法是有意义的(“经验贝叶斯”)。在许多其他应用中,想法是只有参数先验中的一个参数真正实现,然后产生所有观测数据。即使在这些应用中,原则上也可以假设参数背后有一个数据生成过程,而这个过程只有一次实现是可观测的,且只能间接观测。这是一种相当大胆的理想化,但频率主义者也并不陌生于这种理想化;见第5.1节。一个类似的胆大理想化是将“所有(在统计上)具有相同参数的潜在研究”视为相关总体,即使这些研究涉及不同主题和不同变量,此时存在更多的实现,但很难将一个特定的研究视为从这种总体中的“随机抽样”。
    如果以这种方式解释参数先验,它们实际上可以使用误差统计方法进行检验和证伪;见Gelman、Meng和Stern(1996)。在只有一参数实现的情况下,这种检验的功效很低,任何严格的证实都很难实现。此外,如果只有一个理想化参数分布的实现,参数后验中的信息似乎严重依赖于理想化。

  • 如果要用误差统计量来评估推断的质量,参数先验可以被视为一种纯粹的技术工具。然而,在这种情况下,后验分布没有适当的解释,只有具有已知误差统计性质的明确定义的统计量(如参数后验的均值或众数)应该被解释。

  • 假设如果已知抽样模型是真实的,抽样模型中的频率主义概率应该等于主观或客观认识论概率(Lewis, 1980称其为“主要原则”),那么即使抽样模型以频率主义方式解释,参数先验仍然可以被解释为给出认识论概率,例如主观赌注率,条件是抽样模型成立。根据数据拒绝抽样模型的可能性将使一致性和Cox的公理失效,从而使由此产生的认识论概率的基础变得相当不稳固。然而,这并不一定阻止个人将它们解释和用作赌注率。
    鉴于如此多样的用途和含义,对于证伪主义贝叶斯主义的应用来说,清晰解释和说明参数先验的选择至关重要,因此透明性在这里和在其他贝叶斯统计变体中一样是核心。
    总体而言,证伪主义贝叶斯主义结合了误差统计可证伪性的美德和上述“主观”的美德,通过一种灵活性实现这一点,而这种灵活性可能在清晰性和统一性方面被一些人视为有问题。

    6. 示例

    在传统统计学中,通常会尽量减少假设。经典统计学和计量经济学常常以稳健性为框架,目标是开发在最少假设下仍能有效运行的方法。然而,关于包含哪些信息以及如何构建模型的决策——这些通常是被隐藏的,没有被正式表述为假设,而是简单地声明:“这是我们所做的分析……”,有时会声称或暗示这些分析有理论基础,但通常缺乏对主题理论与测量细节之间清晰联系的说明。从另一个角度来看,贝叶斯分析常常大胆地基于假设,但似乎暗示这些假设是主观的,因此无需证明,也无法从数据中检验。

    我们希望统计实践,无论是贝叶斯方法还是其他方法,都能朝着更高的透明性迈进,通过一条知识上的“纸质线索”将理论和数据与模型联系起来,并认识到在这条线索和模型中包含的信息的多种视角和情境依赖性。在本节中,我们将展示我们如何在最近的两个研究项目中朝着这个方向努力。我们展示这些示例并非将其视为某种理想,而是为了展示我们如何与这些想法进行斗争,特别是对透明性、共识性、公正性、与可观察现实的对应性、多种视角和情境依赖性这些概念的积极意识,如何改变我们的应用研究工作。

6.1. 药理学中的层次贝叶斯模型

药代动力学/药效学中的统计推断面临许多挑战:数据通常是间接的且噪声较多;数学模型是非线性的,计算成本高昂,需要求解微分方程;参数因人而异,但每个实验对象的数据量往往很少。层次模型和贝叶斯推断常被用于处理这些多层级的变化和不确定性(参见,例如,Sheiner, 1984,以及Gelman, Bois和Jiang, 1996)。

我们中的一位目前正在从事一个药物开发项目,该项目涉及一个难以拟合的贝叶斯模型,即使使用先进的统计算法和软件也是如此。根据所谓的统计计算民间定理(Gelman, 2008),我们怀疑计算问题可以归因于我们统计模型的问题。在这种情况下,问题似乎并不是拟合不足、缺少交互项或未建模的测量误差——这些问题我们在类似场景中曾遇到过。相反,拟合似乎约束不足,贝叶斯拟合算法陷入参数空间的偏远区域,这些区域对应于不合理的或不符合物理意义的参数值。

简而言之,所写的模型仅被弱识别,给定的数据和先验与各种不符合科学意义的参数值一致。我们的迭代贝叶斯计算收敛性差——也就是说,算法在近似后验分布方面有困难——并且模拟经过的参数空间区域与我们药理学同事的科学理解不一致。

换一种说法,我们的研究团队能够接触到尚未纳入模型的先验信息。因此,我们花时间指定了更具信息量的先验。因此,初始模型扮演了一个占位符或默认值的角色,可以根据需要进行扩展,遵循证伪主义贝叶斯主义的迭代处方(Box, 1980, Gelman等人, 2013)。

在我们的经验中,应用贝叶斯推断中信息量丰富的先验并不常见,而且当它们被使用时,通常似乎没有明确的理由。然而,在这种情况下,我们决定遵循透明性原则,并写了一篇笔记来解释每个先验分布的来源。为了让大家了解我们在说什么,我们在这里展示这些笔记的一个子集:

  • γ:人群分布的log(BVAlatent/50)的均值,以0为中心,因为人群中1j的BVA值的均值确实应该接近50。我们将先验标准差设为0.2,这接近于log(60/50)=0.18,以表明我们相当确定均值在40到60之间。

  • γ:人群分布的log(kin/kout)的均值,以3.7为中心,因为我们从文献中得知该疾病的kin为-2.1,kout为-5.9。我们使用0.5的标准差来表示一定程度的无知:我们说我们对kin/kout人群均值的先验猜测可能很容易相差exp(0.5)=1.6倍。

  • γ:人群分布的log kout的均值,以-5.8为中心,标准差为0.8,这是我们之前得到的先验,来自自然疾病进展的时间尺度。

  • γ:logEm0ax,以0为中心,标准差为2.0,因为这是我们之前得到的。

‍‍‍

我们将这种痛苦而诚实的论证视为未来贝叶斯数据分析的一个模板。上述片段当然并不代表最佳实践的典范,但我们认为它是一个“足够好”的努力,展示了我们在做出这些建模决策时所处的背景。

将这种先验设定描述为“客观的”或“主观的”会偏离重点。相反,我们认为它兼具客观性和主观性的一些美德——尤其是透明性(O1),以及共识性(O2)和多种视角意识(S1)的某些方面——同时我们也认识到它明显的不完美和不完整。其他理想的特征将来自统计分析的其他方面——例如,我们通过外部验证来接近与可观察现实的对应性(O4),而我们对情境依赖性的意识(S2)则来自于我们分析在更大目标中的定位,即为某种特定药物建模剂量选项。

我们尚未彻底解决的一个问题是模型假设的敏感性。我们已经确定先验分布是有影响的,但有可能不同的合理先验会导致具有截然不同的现实意义的后验分布,这将引发对共识性(O2)和公正性(O3)的担忧。如果这种敏感性确实是一个问题,我们的回应将是更仔细地记录我们对先验的选择,从而再次强调透明性原则(O1),并与其他可能的先验分布进行比较,这些先验分布由其他信息支持,从而支持公正性(O3)和多种视角意识(S1)。

正如“制度化决策分析”(Gelman等人,2003年,第22.5节)所指出的,重点并不是我们对先验分布的特定选择是“正确的”(无论那是什么意思)、最优的,甚至是好的,而是它们是透明的,并且以透明的方式与知识相联系。后续的研究者——无论他们对我们方法和实质性发现持支持、批判还是中立的态度——都应该能够将我们的先验(以及由此推断的后验)视为某种系统化过程的结果,一个足够开放的过程,可以被批评并根据需要改进。

6.2. 选举前民意调查的调整

Wang等人(2014)描述了我们最近的另一个应用贝叶斯研究项目,这是一个统计分析,通过调整非随机样本的数据来实现对公众意见的高度稳定估计。具体例子是对微软Xbox视频游戏平台上的一个自愿参与调查的数据分析,这种技术使得研究团队能够有效地在受访者的客厅中进行访谈,而无需打电话或进入他们的房屋。

Xbox调查是在2012年美国总统选举前的两个月内进行的。除了利用廉价数据进行全国调查的潜在实际好处外,这个项目还利用其大样本量和面板结构(数以千计的美国人的重复回答)来揭示美国政治中一些新的内容:我们发现,某些民意调查的波动——这些波动通常被解释为公众意见的大幅变化——实际上可以归因于差异性无回应,即在有关其候选人的消息好坏不同时,民主党人和共和党人轮流更有可能或不太可能做出回应。这一发现与政治科学中的一些文献一致(参见Erikson、Panagopoulos和Wlezien, 2004),但Xbox研究代表了一个重要的实证确认。

在确立了这项工作的潜在重要性之后,我们接下来考虑其有争议的方面。数十年来,公众意见研究的黄金标准一直是概率抽样,即从名单或名单中随机选择接受调查的人(例如,从地址或电话号码列表中随机选择家庭,然后从每个抽样的家庭中选择一名成年人)。从这个角度来看,Xbox调查中使用的自愿参与抽样缺乏理论基础,因此我们研究论文中报告的估计值和标准误差(以及我们所报告的)没有明确的统计解释。

这种批评——即自愿参与调查的推断缺乏理论基础——对我们来说很有趣,因为它并不是以客观性或主观性来表述的。我们在调查调整中确实使用了贝叶斯方法,但某些调查从业者的批评并不是关于调整,而是关于数据收集:他们认为,对于非概率样本收集的数据,不可能进行良好的调整。

从实际角度来看,我们对这种批评的回应是,目前全国随机拨号电话调查的无回应率在90%左右,这意味着这种实际的调查本质上已经是自愿参与样本了:如果非随机样本没有理论依据,那么我们都完了,这让我们所有人面临一个选择,要么在处理调查数据时完全放弃统计推断,要么接受我们的推断是基于模型的,并尽我们所能(Gelman, 2014c)。

我们现在将使用第4.2节中的标准来表达这一讨论。概率抽样在透明性(O1)方面具有明显优势,因为总体和抽样机制可以被清晰定义且对局外人开放,而像Xbox这样的自愿参与调查则做不到。此外,概率抽样在美国具有共识性(O2)的优势,因为这类调查有着悠久的历史,并被广泛接受用于市场和民意研究。由于对无回应的担忧,正如刚才提到的,公正性(O3)和与可观察现实的对应性(O4)则不太明显。我们认为,Xbox数据的大样本量和重复测量,加上我们复杂的层次贝叶斯调整方案,使我们在实现公正性(通过使用多种信息来源,包括过去的选举结果,来纠正样本与观测之间已知差异形式的偏差)和与可观察现实的对应性(因为该方法可以用来估计可以从其他来源验证的总体量)方面取得了良好进展。

在我们的样本调查示例中,与主观性相关的美德不太明显,或许是因为在估计潜在选民的投票意向这一目标上存在明确的共识。然而,退一步来看,人们可以认为各种调整方案代表了对情境依赖性(S2)的意识,因为选择在总体中匹配的变量取决于政治民意调查的背景,这既体现在总体的哪些方面对于这一目的特别相关,也体现在尊重调查从业者的意识,即哪些变量能够预测无回应。研究者的主观视角涉及在加权调整中包含哪些信息以及在基于回归的调整中拟合哪种统计模型的精确选择。然而,总的来说,多种视角(S1)和情境依赖性(S2)在这里的相关性较小;它们可以在相关场景中发挥更突出的作用,例如在市场研究中使用概率样本或自愿参与民意调查。

6.3. 用于社会经济分层的聚类分析中的变量变换

聚类分析旨在将相似的对象组合在一起,并将不相似的对象分开,因此它基于某种显式或隐式的不相似性度量。定义这样的度量,例如使用一组表征待聚类对象的变量,可能涉及许多决策。这里我们考虑Hennig和Liao(2013)的一个例子,我们在其中对2007年美国消费者财务调查的数据进行了聚类,这些数据包括收入、储蓄、住房、教育、职业、支票账户和储蓄账户的数量以及人寿保险等变量,目的是基于数据探索社会经济分层。变量的选择以及如何选择、转换、标准化和加权的决策对聚类分析的结果有很强的影响。这种影响在一定程度上取决于随后应用于结果不相似性的聚类技术,但对于不直接基于不相似性的聚类分析技术,这种影响通常也是相当大的。Hennig和Liao(2013)讨论的众多问题之一是将被视为连续变量(即收入和储蓄金额)的变量进行变换,目的是在变量变换、标准化和加权后,基于欧几里得距离进行聚类分析。

关于选择变换的文献有一些,但变换的通常目标,即实现近似可加性、线性、方差齐性或正态性,通常与聚类分析无关,在聚类分析中,这些假设仅适用于基于模型的聚类,且仅在聚类内部适用,而聚类在变换之前是未知的。

为聚类设置不相似性度量时,变换的合理性是另一种类型。不相似性度量需要适当地形式化哪些对象应被聚类方法视为“相似”或“不相似”,并因此应被放入同一聚类或不同聚类中。换句话说,对象之间的形式化不相似性应与可以称为对象之间的“解释性不相似性”相匹配。这是一个涉及专业知识的问题,不能仅由数据决定。

Hennig和Liao(2013)认为,不同储蓄金额之间的解释性不相似性更多地由比率而非差值决定,因此200万美元的储蓄与100万美元的储蓄被视为同样不相似,就像2000美元与1000美元的储蓄被视为同样不相似一样。这意味着需要进行对数变换。我们并不认为存在一个精确的论证,使得对数变换优于其他实现类似效果的变换,甚至有人可能凭直觉认为,即使是取对数也可能还不够。因此,我们承认任何变换的选择都是一个临时的工具,只是对理想的“解释性不相似性”的近似,即使这样的理想存在。

在数据集中,没有负的储蓄值,因为没有关于债务的信息,但有许多人报告储蓄为零,而将对数变换修改为 x↦log(x+c) 是一种常见的做法,其中 c>0。Hennig和Liao指出,在这个例子中,c 的选择对聚类有相当大的影响。数据集中报告储蓄金额非常小但非零的人数相对较少。例如,当 c=1 时,变换会在零储蓄群体和储蓄金额相对较低(但不是非常小)的人群之间制造一个显著的差距,当然这种选择也对尺度敏感(例如,储蓄可能以美元为单位,或者以千美元为单位)。随后的聚类分析(通过“围绕中位数的划分”完成;Kaufman和Rousseeuw,1990)会严格地将零储蓄群体分开;没有任何零储蓄的人会与有非零储蓄的人出现在同一个聚类中。对于更大的 c 值,零储蓄群体与储蓄金额较低的人群之间的不相似性变得足够小,以至于零储蓄的人可以与其他人在聚类中一起出现,只要他们在其他变量上的值足够相似。

我们并不认为存在一个“真正正确”的 c 值。相反,由不同 c 值产生的聚类是合理的,但它们意味着不同的解释。当 c=1 时,聚类是基于将零储蓄群体视为非常特殊的;而当 c=200 时,聚类意味着储蓄金额在0到100美元之间的差异并不是那么重要(尽管无论如何,它仍然比100美元和200美元之间的差异更重要)。类似的问题也适用于选择和加权变量以及对序数变量进行编码。

对于聚类分析的初学者来说,这种似乎没有客观依据的决策会产生如此大的差异,可能会让他们感到沮丧,而且似乎有一种非常强烈的诱惑是忽略这个问题,直接选择 c=1,这在某种意义上看起来是“自然的”,因为它将零映射到零,或者甚至完全避免变换以避免讨论,从而避免让读者看到明显的缺乏客观性。然而,考虑到社会经济分层的目标,很容易论证,通过忽略这个问题而得到的聚类结果不如通过选择一个大于1的 c 值(尽管这一选择的依据可能不够精确)得到的聚类结果更理想和有用,从而避免零储蓄群体作为聚类的伪影被分离出来,或者在不进行任何变换的情况下,避免聚类被储蓄金额较高的人群所主导。

我们相信,这种无法被解释为估计一个“未知的真实”常数的“调整”问题(因此不适合通过贝叶斯先验来解决)并不是聚类分析独有的,而且在数据分析的展示中常常被隐藏。

在Hennig和Liao(2013)中,我们指出了这个问题,并对 c 的选择的影响强度进行了敏感性分析(O1,透明性)。我们在那篇论文中选择 c 的方式明确参考了情境依赖性,同时诚实地指出,专业知识在这种情况下只为做出这一决策提供了非常弱的指导(S2)。我们也明确表示,替代选择将构成替代的视角,而不是简单地被视为错误的(S1,O3)。

为了促进共识并与可观察现实建立联系(O2, O4),将 c 的值与观测结果联系起来将是一件有趣的事情。这种联系必然需要通过某种模型来中介,因为很难想象 c 本身如何被赋予任何直接的可观察意义。一种结合了客观和主观推理的方法是,通过选择 c 和其他变量所需的调整常数,将得到的不相似性度量拟合到专家对一些样本个体之间的不相似性评估上。也可以考虑现实生活中的情境,其中可以进行测量,将一个人的储蓄金额与其社会经济地位联系起来,尽管这可能只能以非常间接的方式实现。

在任何情况下,我们都倡导愿意做出无法完全基于共识和公正性来证明其合理性的决策,对情境依赖性和结果对分析中选择的敏感性保持开放。我们也倡导努力寻找共识的理由和与可观察数据的联系,以减少这些决策的任意性。这与我们的一般建议有关,即在数据分析和决策中为选择提供一个“纸质线索”以证明其合理性。

然而,基于忽视情境和可能的多种视角来建立共识的理由是有问题的。在聚类分析文献中,有一种倾向是寻求形式化的论证来自动做出这些决策(例如,参见 Everitt 等人,2011 年,第 3.7 节,关于变量加权的内容;在聚类文献中很难找到关于变换的系统性内容),例如试图优化数据集的“可聚类性”,或者偏好对这类决策不那么敏感的方法,因为这相当于在不给研究者提供这些决策的权限的情况下隐含地做出决策。换句话说,数据被赋予了决定不仅哪些对象是相似的(这是我们希望它们做的事情),而且相似性应该意味着什么的权力。后者应该留给研究者,尽管我们承认数据可以有一定的影响:例如,储蓄金额的不相似性由比率而非差值决定的观点与(但并非由)储蓄金额分布偏斜且大额储蓄较为稀疏的事实有关。

7. 讨论

第4.2节中的清单是本文的核心。该清单可能并不完整,也可以以不同的方式系统化。特别是,我们在制定清单时主要考虑了应用统计学,可能遗漏了一些与统计学没有直接联系的客观性和主观性方面。尽管如此,我们相信给出的清单在实践中对研究人员是有帮助的,可用于证明和解释他们的选择,同时对于研究工作的接收者来说,也有助于检查这些美德在科学研究中被实践到什么程度。这里的关键问题是透明性,它是检查所有其他美德所必需的。另一个关键问题是,科学中的主观性并不是不惜一切代价要避免的东西,而是多种视角和情境依赖性实际上是科学研究的基本条件,应该被研究者明确承认并考虑在内。我们认为这比简单的客观/主观二元对立更具建设性。

我们并不认为这些建议是“妈妈和苹果派”式的空洞真理。事实上,我们反复遇到顶级科学期刊上发表的文章违反了这些规则,这表明这些原则是微妙的,并激发了本文的写作。我们希望改变术语能够澄清如何在这两个维度上改进统计分析。

科学研究在透明性方面尤其不足,尤其是在研究人员所做的选择以及为什么选择当前方法而不是潜在替代方案的原因方面。这可能表现为毫无理由地提出模型和分析,或者提供一种内部文献的理由——本质上,仅仅因为之前这样做过。例如,在一项关于月经周期与投票模式的研究中,Durante、Arsena和Griskevicius(2013)将排卵定义为28天月经周期的第7-14天,除了引用进化心理学子领域中的一些早期论文外,没有对这一选择提供明确的理由。然而,快速查阅更相关的资料会发现这一选择是有问题的。例如,美国卫生与公众服务部的网站将可能的生育日期定为第10-17天,其他计划生育资源也给出了类似的日期,例如,计划生育组织(Planned Parenthood)指出:“第11天之后,激素开始作用于最成熟的卵子促使其从卵巢释放。在28天周期中,第14、15或16天通常是卵子释放的日子。”

Durante等人在引用他们使用的资料方面是透明的。但没有明显的尝试去探索现有的相关知识。作者仅仅通过引用现有工作来诉诸共识,而不是承认科学共识必须基于科学观察以及对广泛视角和可能的反对意见的开放性。读者不禁会怀疑,作者的结果在多大程度上是由于未被透明化的选择的结果。

科学论文通常会进行敏感性分析,以了解其结论对统计模型的小扰动的稳健性,但这并不等同于对多种视角的认可。例如,Chen等人(2013)通过对一组中国城市的分析,采用回归不连续性方法来估计空气污染对预期寿命的影响。在他们的论文中,他们展示了一个敏感性分析,其中控制变量(城市与某条河流的距离)以线性、二次、三次、四次和五次形式被纳入模型。展示模型的多个版本是有价值的,但我们认为这只是对单一视角的扩展。一种多视角的方法将允许模型无法解释的系统性变化,这在这种情况下似乎是合理的:如果一项政府政策可以在不同城市产生对预期寿命的重大差异效应,那么假设其他城市之间的系统性差异也会产生重大影响似乎是合理的。我们认为,承认对模型选择的依赖性会使论文更有力,并澄清其实证主张的局限性(Gelman和Zelizer,2015)。

我们将这些美德视为理想,而在实践中,这些理想在任何实际项目中通常都无法完全实现。例如,将所有假设追溯到观测结果,并使其可以通过可观察数据进行检验是不可能的,因为人们总可以质疑特定观测结果是否以及为何能够推广到其他时间和情境。正如第5.1节提到的,最终需要通过人类思维构建将不同情境视为“相同且独立”或“可交换”的理由(人们可能会引用历史上的成功案例来证明这种理想化是合理的,但这对于具体应用帮助不大)。在某个时刻——我们希望不要太早——研究者不得不诉诸于一些只能通过逻辑或惯例来证明其合理性的相对任意的选择。

同样,假设我们能够捕捉到任何科学问题的所有相关视角也是不现实的。尽管如此,我们相信将这些设定为目标是有用的,与固有对立的“客观性”和“主观性”概念不同,这些目标是可以共同追求的。

原文链接https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=f9ada95aad4b8ac60ebf38ecf5f0a16acad686e1