导读
一项追踪26,811名中国中学生长达30个月的实证研究揭开了AI教育最血腥的真相:用聊天机器人写作业后,作业分数涨了18%、用时少了30%,但禁止AI的闭卷考试中,成绩暴跌20%,高利害入学考试跌幅更达24%。80%的学生掉进了“认知外包”陷阱——作业高分是假的,真实能力在被系统性掏空。研究作者警告:这可能是整整一代人的认知基础设施塌方。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

▲ 德国社会评论家Marko Kovic用一张图引爆讨论:26,000名中国学生、30个月面板数据、作业分涨考试分跌的致命倒挂,帖文获得超1500赞、19万浏览

一张数据图,炸出一场全球教育恐慌

2026年6月15日,德国社会评论家Marko Kovic在X上发了一条德语帖文。

配图只有一张数据可视化图表。文字不长,但每一行都在加码:

“一项大型研究调查了中国超过26,000名学生,追踪他们在30个月内开始使用AI聊天机器人后的成绩变化。家庭作业成绩提高了约20%。完成时间减少了约20%。这很棒。”

“但是:在禁止使用AI的考试中,他们的成绩下降了约20%。”

"这是巨大的恶化。"

帖文最后一句直接引爆:“如果整整一代人比前几代人更少学会独立思考,会发生什么?”

48小时内,这条帖文拿下1500多赞、近500次转发、19万浏览。德语圈、英语圈、中文圈同步炸锅。计算器类比的攻防战、理性人陷阱的哲学辩论、dystopian教育未来的末日预言,在回复树里吵成一团。

但这次的数据,不是实验室小样本模拟。它来自中国真实课堂。

打开网易新闻 查看精彩图片

▲ CEPR官方论文DP21577摘要页——经济学顶级研究机构的权威背书,26,811人、30个月、DiD因果识别,每一个数字都有面板数据支撑

18%涨、30%省、20%跌:三组数字讲完一个残酷故事

这篇引爆全球讨论的论文来自斯德哥尔摩大学David Strömberg、香港大学Victor Lei和Yanhui Wu。2026年6月2日由欧洲经济政策研究中心(CEPR)以DP21577编号正式发布,标题直接点题:《生成式AI的学习惩罚:来自中国中学教育的证据》

研究追踪了26,811名中国7至12年级学生,横跨9个科目,数据覆盖整整30个月——整整两年半的真实学业轨迹,远非实验室里几周小样本可比。

他们用了双重差分法(difference-in-differences),利用不同学生/班级/学校接触AI聊天机器人的时间差作为自然实验,同时观测三类结果:

作业端(有AI辅助):分数上升18%,完成时间下降30%。

月考端(无AI,闭卷):六个月内分数下降20%。

入学考端(高利害,禁AI):高中/大学入学考试分数下跌18%至24%,完整惩罚需要两年才完全显现。

作业越做越快越做越好,但一旦拿走AI,底裤就掉了。

不是“暂时不适应”。两年滞后惩罚说明,这不是临场紧张或短期遗忘——是知识的“复利效应”被从根部切断了。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

▲ CEPR官方蓝V账号发布论文公告,附完整标题、作者机构、核心数据图表,学术权威机构的背书让这场讨论无法被轻易打发为“危言耸听”

80%的学生,踩进了同一个坑

论文里真正有杀伤力的发现藏在分布里,不在平均值上。

研究者通过“作业完成时间异常短 + 作业分数异常高”的行为模式,区分了两类AI用户:一类把AI当导师用,保留独立思考过程;另一类直接把AI输出复制提交——认知外包(cognitive offloading)。

结果触目惊心:约80%的AI使用者属于“外包型”。学习损失几乎全部集中在这群人身上。而维持与未使用AI时相似完成时间的少数学生,考试损失很小或接近零。

更扎心的是异质性分布:

  • 社会科学科目损失最大,其次STEM、语言科目;
  • 初中阶段受影响更严重;
  • 高学业成就学生和男生损失尤其显著——那些原本最会学习的人,反而被AI伤得最深。

一个曾经靠刷题把概念焊进肌肉记忆的学霸,现在AI给他更“完美”的答案和范文,作业分更高,省下时间搞竞赛。但月考出现了从没见过的变式题,需要自己组织语言——不会了。以前的熟练是真的,现在的熟练是假的。

打开网易新闻 查看精彩图片

▲ BBC中文2025年底深度报道:MIT脑电实验、牛津调查、UCL教授观点——AI辅助让“成绩更好,但实际学得更差”的现象不只在中国学生身上出现

脑电波不会说谎:认知加工正在被“跳过”

BBC中文在2025年底做过一篇长报道,标题直问:“AI指令是否正在损害你的思考能力?”

MIT一项EEG实验让54名大学生用ChatGPT写论文,同时佩戴脑电图帽。结果揭示了一个扎心事实:使用ChatGPT时,负责认知处理的脑网络活动显著下降。更尴尬的是事后——这些学生无法像未用AI的同学那样,轻松回忆和引用“自己”论文的内容。

卡内基梅隆和微软的联合研究(319名白领)补充了成人世界的证据:对AI工具完成任务的信心越高,投入的批判性思考努力就越少。信得越多,想得越少。

牛津大学出版社同期调查:60%的学童认为AI对学习技能产生了负面影响,但90%承认AI至少帮了某方面。约25%觉得“完成作业太容易了”。

UCL教授Wayne Holmes的评论最刺耳:“他们的成绩更好,但实际上学得更差。”

这次中国26,000人的面板数据,像是给所有这些碎片化信号做了一次全身体检——从作业到月考到升学考,从初中到高中到各学科,用30个月的真实轨迹,把“AI学习惩罚”从猜测变成了可量化的因果事实。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

▲ 中文X用户几乎逐字复述了研究核心参数与异质性,这组数据已出现在中文公开讨论中——“中国学生真实数据”直接摆在所有讨论者面前

“为什么不?”——一个让所有说教失效的理性选择

Marko Kovic在他的Substack长文《KI ruiniert Bildung》(AI正在毁掉教育)里,用一个经济学框架解释了为什么80%的学生会滑向外包。

人类同时具备两种理性:认识理性(epistemic rationality)——追求真理和真实理解;工具理性(instrumental rationality)——用最短路径达成目标。

在教育场景中,学生面对的即时、可量化的目标是“完成作业、拿高分”。AI提供了一个前所未有的低阻力工具。而真正的教育目标——构建可迁移的独立思考能力——滞后、抽象、无法在每次作业上获得即时奖励。

当同桌在用AI 30秒出答案拿高分,你花2小时自己写拿同样的分,“独立思考”在排名体系里没有任何加分。

问题根源是激励结构本身,跟道德觉悟没什么关系。个体工具理性的最优解,在群体层面通向一个更差的长期均衡。

Bloom经典的“2 Sigma问题”曾畅想:一对一辅导平均能带来约2个标准差的学业提升。AI本有可能规模化解决“个性化导师太贵”的历史难题。但现实是,它变成了规模化“解题外包机器”。

研究里一个被反复引用的类比是计算器。但反驳也很锋利:计算器通常是在多年手算建立数感之后才引入,AI却是在概念形成的关键期被大量自由使用;计算器只代劳“计算”环节,AI能一键输出完整证明、作文和分析框架。

打开网易新闻 查看精彩图片

▲ 中国教育和科研计算机网早在2023年两会期间就讨论过AI对教育的双刃剑效应——赋能与作弊风险并存,与本次实证形成跨年呼应

北京既是试验场,也是预警雷达

中国是AI+教育全球最激进的试验场之一。国家层面大力推动“人工智能+基础教育”,云平台一键下发作业、练习次数与掌握率节节攀升。与此同时,两会代表自2023年起反复警示:AI能写作业、论文、演讲稿,同时也为抄袭作弊打开了最方便的大门。

这种双重性,恰好印证了本次研究的制度背景:选拔压力大、AI速度快、传统“闭卷独立完成”评估范式仍在主导。

中国教育和科研计算机网(edu.cn)的专题曾记录:华东师范大学等机构讨论“要不要封ChatGPT”,斯坦福研发DetectGPT检测技术,CNKI上关于AI学术伦理的论文激增。一面是“DeepSeek作业枪手”的调侃,一面是“老师用AI抓学生用AI”的荒诞对弈。

30个月的面板数据给出了冰冷答案:在现有激励结构下,多数学生确实选了省力的那条路。而那条路的尽头,是两年后发现曾经滚瓜烂熟的知识点已经不熟了。

AI本身没有原罪,默认打开方式才是问题

论文作者和评论者并非在喊“禁用AI”。

Bastani等2025年在PNAS发表的近千名高中生数学实验提供了关键护栏证据:当AI被设计为“GPT Base”——可以自由提问、直接要答案时,学生在练习环节成绩大幅领先,但移除AI后的独立考试成绩比从未用过AI的对照组差了约17%。

而当同一系统被约束为“GPT Tutor”——只提供教师预设提示、不给答案——损害消失,甚至在某些维度接近正面效果。

World Bank在尼日利亚的随机对照实验中,常规课堂配合6周结构化AI导师,英语成绩上升约0.23个标准差。美国Kestin等人的RCT同样发现,当AI被当作“有护栏的导师”而非“无约束的答案机”,学习增益超过了传统大班教学。

AI这个工具本身没有原罪,有问题的只是默认打开方式。消费级聊天机器人+现有作业考核=80%外包+系统性学习惩罚。护栏版AI导师+过程可见+评估重构=接近正面效果。这两组公式之间的差距,就是政策该填的坑。

打开网易新闻 查看精彩图片

▲ Marko Kovic的Substack长文提供完整分析框架:scaffolding vs offloading、阻力最小路径、肥尾系统风险、Bloom 2 Sigma问题的AI版本

一个“肥尾风险”,值得所有成年人认真看

Marko在Newsletter里写了一个让教育工作者脊背发凉的数学洞察:

个体层面,“一个学生少学了一点”听起来没什么大不了。但放到人口层面,这种能力稀释具有乘数效应。决策质量、信息判断、社会创新——这些依赖“世代累积独立思考能力”的公共品,一旦结构性地衰退,修复周期以十年计。

教育是代际能力基础设施。基础设施的维护不当,不会在第一天就塌。但等发现塌的时候,已经塌了很久了。

这轮讨论中还有一条尖锐反驳:考试本身不该被改吗?既然未来工作都用AI,考试禁AI等于测淘汰技能。

研究的回应同样直白:考试的功能不只是“预测未来工作表现”。它还在向学生、家长、社会传递一个信号——“你已具备独立掌握某件事的能力”。如果所有中间产品都被外包,这个信号就失真了。最终受损的是学生进入下一阶段时的真实准备度,以及依赖这些信号进行选拔和雇佣的整个社会。

评估当然需要改革——增加当堂完成、口头答辩、过程档案、AI使用痕迹可见的项目制考核,降低“可一键外包的中间产品”权重。但“评估改革”和“放任外包”之间,有一条巨大的鸿沟。

没有一键解药,但有可行动的方向

完全禁止AI不现实,学生已经在用,未来只会更普遍。完全放任等于放弃教育最核心的使命。

可行的方向至少包括这几条:

评估重构:把考核重心从“可外包的课后产品”移到“当堂完成、口头解释过程、项目制档案、AI使用痕迹可见”的形式上。

产品设计分层:教育专用AI必须与消费级聊天机器人拉开距离——Socratic模式(只追问不直接给答案)、学习者仪表盘、教师可追踪过程。不让“最省力路径”成为默认设置。

元认知教育:显性教授“何时该自己挣扎、何时该求助”“AI输出必须验证与改写”。把“使用AI的方式”本身变成可教、可评的内容。

正视激励现实:光靠“要自己思考”的道德呼吁不够。必须调整考核权重和同伴动态,让“高质量使用”成为理性选择,而不仅是道德要求。