打开网易新闻 查看精彩图片

编者按:来自荷兰阿姆斯特丹大学的 Eric-Jan Wagenmakers、Alexandra Sarafoglou 和布达佩斯 Eötvös Loránd 大学的 Balazs Aczel 一起在Nature上发表了一篇题为“One statistical analysis must not rule them all”[1]评论文章,他们认为任何单一分析都只能展示冰山的一角,而揭露其背后隐藏的不确定性则需要多方的分析,目前这种单一分析方法占主流的状态必须有所改变。知社为您编译如下。

打开网易新闻 查看精彩图片

图源:David Parkins

一篇期刊文章通常只是一套分析管道的结论,即便情形再好,也有可能存在更好的分析方法和其它的分析结果。例如,2020年英国“大型流感科学模型组”(UK Scientific Pandemic Influenza Group on Modelling)请九个团队计算了COVID-19的传染数R。需要解决的问题很明确,这些团队有丰富的数据(包括病死数、入院数、检测率等)和不同的模型可供选择,但各团队给出的预测值之间有很大的偏差。

打开网易新闻 查看精彩图片

图源:SPI-M-O, October 2020

这九组预测中最乐观的估计是R=0.96 - 1.15,即每100名COVID-19患者会感染96到115人。如果R=0.96,则疫情有可能已在减退。而与之相对的最悲观的估计是R=1.66 – 1.82,表明疫情在快速发展。尽管各组达成的共识是:疾病的传播路径是需要关注的重要因素,但各组的预测之间的不确定性远大于各组分别给出的预测的不确定性。[2]

这一项目与其它的“多分析师”项目都表明,不同的统计学家几乎从不采用相同的分析过程。但在各个学科中,单一分析足以用来发表一篇论文并提出有力的结论。

在过去十年中,“数据清淤” (data dredging)、“数据窥探” (data snooping)、p值操纵(p-hacking)等概念的普及已经让越来越多的研究者意识到,多种不同、但都是合理的统计方法存在的这一事实本身就极具诱惑性:这会让科学家们倾向于采用能给出最“令人满意”的结论的统计方法。但不太清楚的是,单一统计技术的限定性分析是如何蒙蔽了研究者对不确定性这一重要方面的认知,使结论看起来比实际更精确的。

评论认为:当代科学出版的模式中对单一统计分析的认可,缺乏对统计假设的考虑,是一种根深蒂固的短视,这导致了过度自信和盲目预测。研究者应对数据进行多种分析以衡量他们的结论的可靠性,更理想的是由一个或者更多的独立的团队来做多分析。这是对现行科研方式的重大改变,但目前并没有恰当的基础机制和激励方式,研究人员也会认为这是繁琐或不切实际的倡议,从而表示反对。但是作者认为,多重统计分析的益处将是广泛的,多样化的统计推断是非常重要的,值得很多人通过不同方式为之努力。

大约100年前,Ronald Fisher等学者提出的假设检验的形式化方法,是现在从数值数据中获取结论的不可或缺的方法。从那时起,已发展出大量的统计检验和方法来定量地推断统计不确定性,但任一单一统计分析都只用到了非常有限的统计检验。而已知的十来个正式的多分析师项目均表明,多重分析给出的统计不确定性均远大于任一单一统计分析给出的统计不确定性,如脑活动核磁共振的研究、金融市场的研究等。

所有这些多分析项目都推翻了关于应用统计学的两个神话,一是对于任一数据集,存在单一的、唯一适用的分析过程。实际上,即使由很多分析师同时对同一相对简单的数据做分析,也几乎没有分析师采用同样的分析过程。第二个神话是,多个可信的分析会可靠地给出相似的结论。作者认为,尽管近年来在科学改革上已作出了诸如大规模重复性研究、预注册和注册报告等努力,但这些倡议的设计并不是用来揭示统计方法的脆弱性,大量的统计不确定性依然是一个亟待解决的问题。

在高能物理学和天文学领域有着悠久的传统,各个团队都对已发表的结果按照自己的方式重新分析数据。同样,气候模型也通过系统地移除或添加统计变量来做敏感性分析,从而检验他们结论的可靠性,这是一种常规流程。其它领域也可以向这种多重分析做出转变,比如期刊可以鼓励文章在发表前或发表后实施多重分析。

科研方式的大规模改变是可能的。对数据共享的期待一直在增长,比如,医学杂志现在通常会要求在发表结果的同时注册临床试验。但这一变革也同样会不可避免遇到批判性的反应,比如,读者有可能对多重分析的多重结果感到困惑;相比之下科学领域里其它的问题的解决可能有更高的紧迫性,如选择性报道、分析缺乏透明性、假设与理论偏离、数据隐藏等;多重分析所花费的时间和精力是否值得;期刊是否会故意阻挠;是否会难于找到合适的分析师等等。

打开网易新闻 查看精彩图片

图源:百度

作者对上述批判性意见做了分析和解答,并强调说是否接受多重分析就像电影《黑客帝国》里的Nero拒绝或者接收蓝色药丸,醒来或者继续呆在舒服的但是错误而虚幻的梦境里一样。科学家和社会都需要面对统计结果可能存在的脆弱性,从而避免这一脆弱性在真实世界继续放大,从多重分析得到的益处将远大于所需要的额外努力。

参考文献:

1.https://www.nature.com/articles/d41586-022-01332-8

2.https://www.gov.uk/government/publications/spi-m-o-consensus-statement-on-covid-19-8-october-2020