2.6万名中国学生用AI写作业30个月后，成绩单惊现恐怖倒挂：考试分数暴跌24%|中国|学生心理辅导室|实验|教师|数学|考试

导读
一项追踪26,811名中国中学生长达30个月的实证研究揭开了AI教育最血腥的真相：用聊天机器人写作业后，作业分数涨了18%、用时少了30%，但禁止AI的闭卷考试中，成绩暴跌20%，高利害入学考试跌幅更达24%。80%的学生掉进了“认知外包”陷阱——作业高分是假的，真实能力在被系统性掏空。研究作者警告：这可能是整整一代人的认知基础设施塌方。

▲ 德国社会评论家Marko Kovic用一张图引爆讨论：26,000名中国学生、30个月面板数据、作业分涨考试分跌的致命倒挂，帖文获得超1500赞、19万浏览

一张数据图，炸出一场全球教育恐慌

2026年6月15日，德国社会评论家Marko Kovic在X上发了一条德语帖文。

配图只有一张数据可视化图表。文字不长，但每一行都在加码：

“一项大型研究调查了中国超过26,000名学生，追踪他们在30个月内开始使用AI聊天机器人后的成绩变化。家庭作业成绩提高了约20%。完成时间减少了约20%。这很棒。”

“但是：在禁止使用AI的考试中，他们的成绩下降了约20%。”

"这是巨大的恶化。"

帖文最后一句直接引爆：“如果整整一代人比前几代人更少学会独立思考，会发生什么？”

48小时内，这条帖文拿下1500多赞、近500次转发、19万浏览。德语圈、英语圈、中文圈同步炸锅。计算器类比的攻防战、理性人陷阱的哲学辩论、dystopian教育未来的末日预言，在回复树里吵成一团。

但这次的数据，不是实验室小样本模拟。它来自中国真实课堂。

▲ CEPR官方论文DP21577摘要页——经济学顶级研究机构的权威背书，26,811人、30个月、DiD因果识别，每一个数字都有面板数据支撑

18%涨、30%省、20%跌：三组数字讲完一个残酷故事

这篇引爆全球讨论的论文来自斯德哥尔摩大学David Strömberg、香港大学Victor Lei和Yanhui Wu。2026年6月2日由欧洲经济政策研究中心（CEPR）以DP21577编号正式发布，标题直接点题：《生成式AI的学习惩罚：来自中国中学教育的证据》。

研究追踪了26,811名中国7至12年级学生，横跨9个科目，数据覆盖整整30个月——整整两年半的真实学业轨迹，远非实验室里几周小样本可比。

他们用了双重差分法（difference-in-differences），利用不同学生/班级/学校接触AI聊天机器人的时间差作为自然实验，同时观测三类结果：

作业端（有AI辅助）：分数上升18%，完成时间下降30%。

月考端（无AI，闭卷）：六个月内分数下降20%。

入学考端（高利害，禁AI）：高中/大学入学考试分数下跌18%至24%，完整惩罚需要两年才完全显现。

作业越做越快越做越好，但一旦拿走AI，底裤就掉了。

不是“暂时不适应”。两年滞后惩罚说明，这不是临场紧张或短期遗忘——是知识的“复利效应”被从根部切断了。

▲ CEPR官方蓝V账号发布论文公告，附完整标题、作者机构、核心数据图表，学术权威机构的背书让这场讨论无法被轻易打发为“危言耸听”

80%的学生，踩进了同一个坑

论文里真正有杀伤力的发现藏在分布里，不在平均值上。

研究者通过“作业完成时间异常短 + 作业分数异常高”的行为模式，区分了两类AI用户：一类把AI当导师用，保留独立思考过程；另一类直接把AI输出复制提交——认知外包（cognitive offloading）。

结果触目惊心：约80%的AI使用者属于“外包型”。学习损失几乎全部集中在这群人身上。而维持与未使用AI时相似完成时间的少数学生，考试损失很小或接近零。

更扎心的是异质性分布：

社会科学科目损失最大，其次STEM、语言科目；
初中阶段受影响更严重；
高学业成就学生和男生损失尤其显著——那些原本最会学习的人，反而被AI伤得最深。

一个曾经靠刷题把概念焊进肌肉记忆的学霸，现在AI给他更“完美”的答案和范文，作业分更高，省下时间搞竞赛。但月考出现了从没见过的变式题，需要自己组织语言——不会了。以前的熟练是真的，现在的熟练是假的。

▲ BBC中文2025年底深度报道：MIT脑电实验、牛津调查、UCL教授观点——AI辅助让“成绩更好，但实际学得更差”的现象不只在中国学生身上出现

脑电波不会说谎：认知加工正在被“跳过”

BBC中文在2025年底做过一篇长报道，标题直问：“AI指令是否正在损害你的思考能力？”

MIT一项EEG实验让54名大学生用ChatGPT写论文，同时佩戴脑电图帽。结果揭示了一个扎心事实：使用ChatGPT时，负责认知处理的脑网络活动显著下降。更尴尬的是事后——这些学生无法像未用AI的同学那样，轻松回忆和引用“自己”论文的内容。

卡内基梅隆和微软的联合研究（319名白领）补充了成人世界的证据：对AI工具完成任务的信心越高，投入的批判性思考努力就越少。信得越多，想得越少。

牛津大学出版社同期调查：60%的学童认为AI对学习技能产生了负面影响，但90%承认AI至少帮了某方面。约25%觉得“完成作业太容易了”。

UCL教授Wayne Holmes的评论最刺耳：“他们的成绩更好，但实际上学得更差。”

这次中国26,000人的面板数据，像是给所有这些碎片化信号做了一次全身体检——从作业到月考到升学考，从初中到高中到各学科，用30个月的真实轨迹，把“AI学习惩罚”从猜测变成了可量化的因果事实。

▲ 中文X用户几乎逐字复述了研究核心参数与异质性，这组数据已出现在中文公开讨论中——“中国学生真实数据”直接摆在所有讨论者面前

“为什么不？”——一个让所有说教失效的理性选择

Marko Kovic在他的Substack长文《KI ruiniert Bildung》（AI正在毁掉教育）里，用一个经济学框架解释了为什么80%的学生会滑向外包。

人类同时具备两种理性：认识理性（epistemic rationality）——追求真理和真实理解；工具理性（instrumental rationality）——用最短路径达成目标。

在教育场景中，学生面对的即时、可量化的目标是“完成作业、拿高分”。AI提供了一个前所未有的低阻力工具。而真正的教育目标——构建可迁移的独立思考能力——滞后、抽象、无法在每次作业上获得即时奖励。

当同桌在用AI 30秒出答案拿高分，你花2小时自己写拿同样的分，“独立思考”在排名体系里没有任何加分。

问题根源是激励结构本身，跟道德觉悟没什么关系。个体工具理性的最优解，在群体层面通向一个更差的长期均衡。

Bloom经典的“2 Sigma问题”曾畅想：一对一辅导平均能带来约2个标准差的学业提升。AI本有可能规模化解决“个性化导师太贵”的历史难题。但现实是，它变成了规模化“解题外包机器”。

研究里一个被反复引用的类比是计算器。但反驳也很锋利：计算器通常是在多年手算建立数感之后才引入，AI却是在概念形成的关键期被大量自由使用；计算器只代劳“计算”环节，AI能一键输出完整证明、作文和分析框架。

▲ 中国教育和科研计算机网早在2023年两会期间就讨论过AI对教育的双刃剑效应——赋能与作弊风险并存，与本次实证形成跨年呼应

北京既是试验场，也是预警雷达

中国是AI+教育全球最激进的试验场之一。国家层面大力推动“人工智能+基础教育”，云平台一键下发作业、练习次数与掌握率节节攀升。与此同时，两会代表自2023年起反复警示：AI能写作业、论文、演讲稿，同时也为抄袭作弊打开了最方便的大门。

这种双重性，恰好印证了本次研究的制度背景：选拔压力大、AI速度快、传统“闭卷独立完成”评估范式仍在主导。

中国教育和科研计算机网（edu.cn）的专题曾记录：华东师范大学等机构讨论“要不要封ChatGPT”，斯坦福研发DetectGPT检测技术，CNKI上关于AI学术伦理的论文激增。一面是“DeepSeek作业枪手”的调侃，一面是“老师用AI抓学生用AI”的荒诞对弈。

30个月的面板数据给出了冰冷答案：在现有激励结构下，多数学生确实选了省力的那条路。而那条路的尽头，是两年后发现曾经滚瓜烂熟的知识点已经不熟了。

AI本身没有原罪，默认打开方式才是问题

论文作者和评论者并非在喊“禁用AI”。

Bastani等2025年在PNAS发表的近千名高中生数学实验提供了关键护栏证据：当AI被设计为“GPT Base”——可以自由提问、直接要答案时，学生在练习环节成绩大幅领先，但移除AI后的独立考试成绩比从未用过AI的对照组差了约17%。

而当同一系统被约束为“GPT Tutor”——只提供教师预设提示、不给答案——损害消失，甚至在某些维度接近正面效果。

World Bank在尼日利亚的随机对照实验中，常规课堂配合6周结构化AI导师，英语成绩上升约0.23个标准差。美国Kestin等人的RCT同样发现，当AI被当作“有护栏的导师”而非“无约束的答案机”，学习增益超过了传统大班教学。

AI这个工具本身没有原罪，有问题的只是默认打开方式。消费级聊天机器人+现有作业考核=80%外包+系统性学习惩罚。护栏版AI导师+过程可见+评估重构=接近正面效果。这两组公式之间的差距，就是政策该填的坑。

▲ Marko Kovic的Substack长文提供完整分析框架：scaffolding vs offloading、阻力最小路径、肥尾系统风险、Bloom 2 Sigma问题的AI版本

一个“肥尾风险”，值得所有成年人认真看

Marko在Newsletter里写了一个让教育工作者脊背发凉的数学洞察：

个体层面，“一个学生少学了一点”听起来没什么大不了。但放到人口层面，这种能力稀释具有乘数效应。决策质量、信息判断、社会创新——这些依赖“世代累积独立思考能力”的公共品，一旦结构性地衰退，修复周期以十年计。

教育是代际能力基础设施。基础设施的维护不当，不会在第一天就塌。但等发现塌的时候，已经塌了很久了。

这轮讨论中还有一条尖锐反驳：考试本身不该被改吗？既然未来工作都用AI，考试禁AI等于测淘汰技能。

研究的回应同样直白：考试的功能不只是“预测未来工作表现”。它还在向学生、家长、社会传递一个信号——“你已具备独立掌握某件事的能力”。如果所有中间产品都被外包，这个信号就失真了。最终受损的是学生进入下一阶段时的真实准备度，以及依赖这些信号进行选拔和雇佣的整个社会。

评估当然需要改革——增加当堂完成、口头答辩、过程档案、AI使用痕迹可见的项目制考核，降低“可一键外包的中间产品”权重。但“评估改革”和“放任外包”之间，有一条巨大的鸿沟。

没有一键解药，但有可行动的方向

完全禁止AI不现实，学生已经在用，未来只会更普遍。完全放任等于放弃教育最核心的使命。

可行的方向至少包括这几条：

评估重构：把考核重心从“可外包的课后产品”移到“当堂完成、口头解释过程、项目制档案、AI使用痕迹可见”的形式上。

产品设计分层：教育专用AI必须与消费级聊天机器人拉开距离——Socratic模式（只追问不直接给答案）、学习者仪表盘、教师可追踪过程。不让“最省力路径”成为默认设置。

元认知教育：显性教授“何时该自己挣扎、何时该求助”“AI输出必须验证与改写”。把“使用AI的方式”本身变成可教、可评的内容。

正视激励现实：光靠“要自己思考”的道德呼吁不够。必须调整考核权重和同伴动态，让“高质量使用”成为理性选择，而不仅是道德要求。

2.6万名中国学生用AI写作业30个月后，成绩单惊现恐怖倒挂：考试分数暴跌24%

热搜

热门跟贴

热搜

热门跟贴

相关推荐

难倒小学生的汉字区分题

清华天才差距惊人：超越人与狗的鸿沟！

546数学联赛：2012-5全等三角形的性质以及勾股定理和正方形的性

数学难题破解秘籍，一学就会！

一本书一首歌：陀思妥耶夫斯基《地下室手记》

三阶幻方鸡蛋法速解秘籍，数学难题一网打尽

数学难题破解，快来围观！

数形结合，期末高分秘籍！

小孩哥能想到这一步，数学必定不会差！

六年级附加题，学霸也不会，超纲？

轻松破解小学一年级数学难题！

轻松破题，数学满分攻略！

学霸看了都懵的数学思维解题法！

这题难倒很多高手，看看你会吗？

数学难题轻松破，挑战一下吧！

小学阶段，英语没有提前学，到初中后班级前十基本没有你的位置

做多了也不行啊，都不会做，这怎么办？

央媒发文，韦东奕接连传来好消息，原来心头大患消退才只是开始

语文vs数学

德国人第一次见这中国小车，反应太真实了，真的只要3000欧