一项在学术界和社交媒体上被广泛引用、曾被视为证明 ChatGPT 明显提升学生学习效果的重要研究,近日被出版方正式撤稿,理由是论文在元分析过程中存在多处“差异”和方法问题,导致结论可靠性遭到严重削弱。
这篇由 Springer Nature 旗下期刊《Humanities & Social Sciences Communications》于 2025 年 5 月发表的论文,试图整合 51 项研究结果,评估学生在使用与不使用 ChatGPT 情况下的学习表现差异。 论文声称,使用 ChatGPT 对“提升学习成绩”有“显著正向影响”,对“改善学习感知”有中度正向影响,并能“促进高阶思维能力”。
这项研究发表后迅速在学术与公众舆论中“出圈”。 在 Springer Nature 体系内,它已被引用 262 次,整体引用次数超过 500 次,阅读量接近 50 万。 凭借在社交媒体上的持续传播,这篇论文在期刊文章中的关注度位列前百分位,被不少人当作“第一批关于 ChatGPT 有利于学习的硬证据”来引用和转述。 然而,在论文影响力迅速扩散的同时,质疑声也开始累积,最终促成了此次撤稿。
爱丁堡大学数字教育研究中心与 Edinburgh Futures Institute 高级讲师本·威廉姆森(Ben Williamson)指出,作者给出的结论极具“吸睛”效果,宣称 ChatGPT 能显著改善学习结果,因此被社交媒体广泛当成“金标准”证据来传播。 他批评这项元分析在整合原始研究时方法令人担忧:一方面,它似乎纳入了“质量非常低”的研究,另一方面,还把在方法、研究对象、样本等方面差异巨大、根本不可直接比较的研究结果硬性拼在一起。 在接受 Ars Technica 采访时,威廉姆森直言,这看起来是一篇“本不应该被发表”的论文。
时间维度上的矛盾也引发了学界的警惕。 ChatGPT 在 2022 年底才向公众开放,留给研究者完成多项高质量、经同行评议的实证研究并最终汇总成元分析的时间窗口非常狭窄。 威廉姆森认为,在如此短的周期内,几乎不可能出现几十项足以支撑严谨元分析的高质量研究,因此这本身就对论文的“样本基础”提出了根本性疑问。
除了威廉姆森,其他研究者也在早期就对这项研究发出了警告。 Meaning Processing Ltd. 首席科学家伊尔卡·图奥米(Ilkka Tuomi)在 LinkedIn 上批评,像这类元分析往往会把实际上并不可比的研究结果混在一起,从而基于模糊甚至不一致的指标得出结论。 他提醒,复杂的统计工具很容易营造出一种“高度科学”的错觉,即使底层数据质量并不可靠,最终依然能产出看似靠谱的数字和图表。
随着论文在社交媒体上不断被转发,其原本在正文中存在的诸多“限定条件”和研究细节逐渐被稀释,只剩下“ChatGPT 显著提升学习效果”这样的标题式结论在各类传播中反复出现。 威廉姆森指出,这种“只剩口号、没有上下文”的扩散方式,加剧了公众对 AI 在教育领域作用的误判,也弱化了学术界内部对证据质量的讨论空间。 他担心,即便论文已经被正式撤稿,此前引用或转发过它的研究者与从业者也未必会留意到这一更新。 这意味着,“ChatGPT 能显著改善学习表现”这一核心信息可能仍会在许多场合被当作既成事实继续流传。
此次撤稿发生的时间点,也与教育系统围绕生成式 AI 的博弈高度重叠。 一些学校和大学仍在想办法限制 AI 在作业、考试中的滥用,尤其是防范借助聊天机器人进行“代写”和作弊;与此同时,科技公司则不断推出各类“学习助手”“作业辅导”功能,把聊天机器人包装为新一代学习工具。 与此并行的,还有对“全面数字化课堂”的反思,有的国家已经重新强调纸质教材与手写作业的重要性,试图纠正过度依赖屏幕和在线平台的倾向。
对威廉姆森等研究者来说,这件事带来的挫败感并不止于一篇论文本身,而在于它所折射出的整体氛围。 在过去几年里,围绕生成式 AI 的讨论往往被“炒作”和乐观叙事主导,而真正严谨、有充分证据支撑的研究则明显不足。 他认为,这次撤稿提醒人们:与其急于宣布“AI 已经彻底改变教育”,不如先扎实回答一个更基本的问题——这些工具在具体的教学实践中,究竟是如何、在什么条件下影响学生和教师的行为与结果的。
热门跟贴