ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑|威廉姆森|学术|撤稿|教育研究|论文|证据

一项在学术界和社交媒体上被广泛引用、曾被视为证明 ChatGPT 明显提升学生学习效果的重要研究，近日被出版方正式撤稿，理由是论文在元分析过程中存在多处“差异”和方法问题，导致结论可靠性遭到严重削弱。

这篇由 Springer Nature 旗下期刊《Humanities & Social Sciences Communications》于 2025 年 5 月发表的论文，试图整合 51 项研究结果，评估学生在使用与不使用 ChatGPT 情况下的学习表现差异。论文声称，使用 ChatGPT 对“提升学习成绩”有“显著正向影响”，对“改善学习感知”有中度正向影响，并能“促进高阶思维能力”。

这项研究发表后迅速在学术与公众舆论中“出圈”。在 Springer Nature 体系内，它已被引用 262 次，整体引用次数超过 500 次，阅读量接近 50 万。凭借在社交媒体上的持续传播，这篇论文在期刊文章中的关注度位列前百分位，被不少人当作“第一批关于 ChatGPT 有利于学习的硬证据”来引用和转述。然而，在论文影响力迅速扩散的同时，质疑声也开始累积，最终促成了此次撤稿。

爱丁堡大学数字教育研究中心与 Edinburgh Futures Institute 高级讲师本·威廉姆森（Ben Williamson）指出，作者给出的结论极具“吸睛”效果，宣称 ChatGPT 能显著改善学习结果，因此被社交媒体广泛当成“金标准”证据来传播。他批评这项元分析在整合原始研究时方法令人担忧：一方面，它似乎纳入了“质量非常低”的研究，另一方面，还把在方法、研究对象、样本等方面差异巨大、根本不可直接比较的研究结果硬性拼在一起。在接受 Ars Technica 采访时，威廉姆森直言，这看起来是一篇“本不应该被发表”的论文。

时间维度上的矛盾也引发了学界的警惕。 ChatGPT 在 2022 年底才向公众开放，留给研究者完成多项高质量、经同行评议的实证研究并最终汇总成元分析的时间窗口非常狭窄。威廉姆森认为，在如此短的周期内，几乎不可能出现几十项足以支撑严谨元分析的高质量研究，因此这本身就对论文的“样本基础”提出了根本性疑问。

除了威廉姆森，其他研究者也在早期就对这项研究发出了警告。 Meaning Processing Ltd. 首席科学家伊尔卡·图奥米（Ilkka Tuomi）在 LinkedIn 上批评，像这类元分析往往会把实际上并不可比的研究结果混在一起，从而基于模糊甚至不一致的指标得出结论。他提醒，复杂的统计工具很容易营造出一种“高度科学”的错觉，即使底层数据质量并不可靠，最终依然能产出看似靠谱的数字和图表。

随着论文在社交媒体上不断被转发，其原本在正文中存在的诸多“限定条件”和研究细节逐渐被稀释，只剩下“ChatGPT 显著提升学习效果”这样的标题式结论在各类传播中反复出现。威廉姆森指出，这种“只剩口号、没有上下文”的扩散方式，加剧了公众对 AI 在教育领域作用的误判，也弱化了学术界内部对证据质量的讨论空间。他担心，即便论文已经被正式撤稿，此前引用或转发过它的研究者与从业者也未必会留意到这一更新。这意味着，“ChatGPT 能显著改善学习表现”这一核心信息可能仍会在许多场合被当作既成事实继续流传。

此次撤稿发生的时间点，也与教育系统围绕生成式 AI 的博弈高度重叠。一些学校和大学仍在想办法限制 AI 在作业、考试中的滥用，尤其是防范借助聊天机器人进行“代写”和作弊；与此同时，科技公司则不断推出各类“学习助手”“作业辅导”功能，把聊天机器人包装为新一代学习工具。与此并行的，还有对“全面数字化课堂”的反思，有的国家已经重新强调纸质教材与手写作业的重要性，试图纠正过度依赖屏幕和在线平台的倾向。

对威廉姆森等研究者来说，这件事带来的挫败感并不止于一篇论文本身，而在于它所折射出的整体氛围。在过去几年里，围绕生成式 AI 的讨论往往被“炒作”和乐观叙事主导，而真正严谨、有充分证据支撑的研究则明显不足。他认为，这次撤稿提醒人们：与其急于宣布“AI 已经彻底改变教育”，不如先扎实回答一个更基本的问题——这些工具在具体的教学实践中，究竟是如何、在什么条件下影响学生和教师的行为与结果的。