NHB | 计算建模或遭遇统计危机！近八成研究的模型选择功效不足|样本量|计算建模

PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier

一键关注，点亮星标 ⭐️

不错过每日前沿资讯

认知神经科学前沿文献分享

基本信息

Title:Addressing low statistical power in computational modelling studies in psychology and neuroscience

发表时间：2025.11.17

Journal：Nature Human Behaviour

影响因子：16.0

获取原文：

添加小助手:PSY-Brain-Frontier即可获取PDF版本

研究背景

计算建模（Computational Modelling）已成为认知神经科学、心理学和脑科学领域揭示行为与神经数据背后隐藏机制的核心工具。通过构建复杂的数学模型来模拟认知过程，研究人员得以检验关于人类心智功能和其障碍的理论假设。在这一研究范式中，贝叶斯模型选择(Bayesian Model Selection, BMS) 扮演着关键的推断角色，用于评估一组竞争性理论模型中，哪一个能以最优方式解释观察到的数据。BMS因其强大的推断能力，被广泛视为替代经典零假设检验的有力工具。

注：图片由AI生成

然而，尽管计算建模的影响力日益增长，该领域却面临一个被长期低估的系统性挑战：模型选择的统计功效 (Statistical Power) 不足。低功效不仅会大大降低检测真实效应（Type II 错误）的概率，更严重的是，当低功效的研究得出“显著”结果时，其发现的真实效应很可能被夸大（即“赢者诅咒”效应或 Type I 错误增加）。这一危机的根源在于研究人员普遍未能充分认识到，确定足够的样本量 (N)并非唯一的考量因素，模型选择的功效还受到候选模型空间的大小 (K)的严峻约束。

本研究通过建立新的功效分析框架，首次系统性地量化了这一关键制约：当模型空间扩大时，即纳入更多的竞争性解释模型时，即使存在一个真实的最佳模型，其相对于次佳模型的相对优势（Effect Size）也会自然减小。这意味着，随着竞争性模型的增多，研究必须投入远超传统预期的更大样本量才能可靠地区分它们。这种关系类似于在一个选择有限（K 小）的国家和另一个拥有几十种美食（K 大）的国家中确定“最爱”：后者需要大得多的样本量才能做出自信的判断。因此，计算建模领域迫切需要一种方法论上的反思与校准，以确保推断的可靠性。

研究核心总结

本研究基于一项针对随机效应贝叶斯模型选择（Random Effects Bayesian Model Selection,RE-BMS）开发的通用功效分析框架，揭示了当前领域中普遍存在的统计缺陷，并提出了规范化的解决方案。

统计功效的定量法则与领域现状警示

该框架通过模拟分析清晰地证实并量化了模型选择统计功效的“双重依赖”：统计功效与样本量 (N) 呈正相关关系，但与候选模型空间大小 (K) 呈显著的负相关关系。这一定量关系要求研究人员在设计实验时，必须同时考虑 N 和 K 的平衡。

遗憾的是，利用此框架对发表在顶尖期刊（包括《自然-人类行为》、《自然》和《科学》）的52项人类计算建模研究进行的文献回顾显示，领域内的功效不足问题非常普遍且系统性。分析结果表明，在模型选择环节，高达79%（52项研究中的41项）的研究统计功效低于公认的80%标准。这一惊人的数字表明，即使是发表在最高平台上的前沿研究，也普遍低估了区分复杂竞争模型所需的样本规模，面临模型误选的高风险。

Fig. 1 | Power as a function of sample size and size of model space.

严厉批判：固定效应模型选择的统计灾难

文献回顾同时发现，该领域仍有相当一部分研究（46%）依赖于固定效应模型选择（Fixed Effects Model Selection,FEMS）。FEMS的基本假设是群体中的所有个体都遵循同一个单一模型，这忽略了人类群体中固有的、有意义的个体间异质性(Between-Subject Variability)，在现代神经科学和心理学中被认为是不可信的。

更令人担忧的是，FEMS在实践中存在灾难性的统计问题，这些问题使其推断结果极不可靠：

极高假阳性率：在零假设情景（即模型之间无真实差异）下，FEMS在 97% 的模拟中错误地宣布了一个获胜模型。这意味着使用FEMS，研究者几乎总会“发现”一个赢家，即使这个发现完全是随机噪声的产物，严重损害了推断的特异性。
对异常值的极端敏感性： FEMS通过简单地累加所有个体的对数证据，使其对单个极端异常值具有不成比例的敏感性。模拟分析显示，在50个受试者中，仅一个极端异常值（强烈支持模型 1）就足以在77%的模拟中推翻真实模型（Model 2）的推断结果。这种对少数个体数据点的过度依赖，使FEMS的发现容易受到“赢者诅咒”的影响，夸大复杂模型的优势。

鉴于这些无法弥补的统计缺陷，研究强烈建议该领域必须摒弃FEMS，转向统计假设更现实、对异常值敏感性更低的随机效应模型选择（RE-BMS）。

Fig. 2 | Narrative review of the literature.

规范化推断与实践方向

RE-BMS 允许量化群体中的模型异质性，并使用超越概率(exceedance probability, XP) 作为关键指标，它量化了某一模型比所有其他模型更有可能的置信度。

本研究的一个重要方法论贡献是，针对RE-BMS推断缺乏统一阈值的问题，该功效框架首次通过零假设模拟，校准了一个严格的决策阈值，从而将Type I错误率控制在5%，与经典假设检验对标。这为超越概率提供了原则性的显著性标准，提高了该指标的规范性。

Fig. 3 | Fixed effects model selection is highly sensitive to modest outliers.

研究总结呼吁，研究人员在设计计算建模研究时，应主动利用新的功效分析框架，平衡样本量 N 和模型空间 K。在样本获取受限时，缩小模型空间至最相关的理论竞争者，是提高统计功效、确保研究结果可复现性和可靠性的关键策略。

前沿交流|欢迎加入认知神经科学前沿交流群！

Abstract

Computational modelling is a powerful tool for uncovering hidden processes in observed data, yet it faces underappreciated challenges. Among these, determining appropriate sample sizes for computational studies remains a critical but overlooked issue, particularly for model selection analyses. Here we introduce a power analysis framework for Bayesian model selection, a method widely used to choose the best model among alternatives. Our framework reveals that while power increases with sample size, it decreases as more models are considered. Using this framework, we empirically demonstrate that psychology and human neuroscience studies often suffer from low statistical power in model selection. A total of 41 of 52 studies reviewed had less than 80% probability of correctly identifying the true model. The field also heavily relies on fixed effects model selection, which we demonstrate has serious statistical issues, including high false positive rates and pronounced sensitivity to outliers.