4名大学生让AI考0分，复旦肖仰华：学生能力差距正被AI拉大|数据挖掘|算法|肖仰华|高中物理

51名学生，51份期末考卷，每份考卷都不一样，但是考卷上的这10道题是不是能够难倒三个当今最先进的AI模型，才是期末考试分数的评判标准。这是复旦大学计算与智能创新学院教授肖仰华“数据挖掘技术”课的期末考试。学生是出题人，自己设计10道题，AI答错的题越多、被难倒的模型越强，学生的得分就越高。

最终，51份期末试卷中，50人至少让某个AI答错过一题，仅1人完全没难倒任何模型。但能让任一模型整张卷得0分的，只有4人，且三个应考模型中最强的Claude模型没有被任何学生完全考倒。全班平均分85.7分，中位数88分。

“传统考察方式，在AI时代已经失效了。”肖仰华说，过去期末考试考的是学生会不会算一道题，但关联规则、决策树、贝叶斯分类……恰恰是AI最擅长的，“再这样考察学生，等于是让学生与AI比拼AI的强项，没有意义。”

所以，“数据挖掘技术”的期末作业改成，每人出10道数据挖掘领域的计算题，要求有唯一正确答案和完整的推导计算过程。拿着这10道题去考三个不同水平的AI模型。只要认真出满10道合规题就有60分保底，难倒AI是加分项。AI答错越多，学生得分越高，封顶100分。

三个模型对应三个难度梯度：

DeepSeek V4-Flash答错一题+1.5分、MiniMax M2.7答错一题+2分、Claude Sonnet 4.6答错一题+3分。总分=60分保底+AI难度分。

考题还需要遵循几条硬性规则。题目必须基于课程讲过的知识或教材内容，每道题要有唯一正确答案，学生自己得先能把题从头到尾算对。“自己出的题自己都不会，那算不上真本事。”肖仰华说。

深入理解知识，就能找到AI的盲区

“我要让学生相信，只要你真正深入理解了知识，你就能找到AI的盲区。这不是运气，是能力。”肖仰华说。

计算与智能创新学院24级本科生谢锦树最后拿到了97分。他出的10题全是SHAP值、HITS、HMM、ChiMerge、CART+贝叶斯网络这类重计算题，标准答案经独立验算正确，三个模型几乎全错。

谢锦树翻教材自己设计题目，发现如果把教科书原题有意进行修改，AI仍会依据训练时学到解题思路给出答案，并不会调整；做选择题时，去掉部分选项和保留全部选项，AI给出的答案也不一样，即使正确答案一直在选项里，“这说明AI在专业知识上的幻觉相当严重”。

但10道题的体量靠人工完成效率太低。于是他尝试让AI出题来难倒自己。

他搭建了一个多智能体协作的自动化出题框架，用GPT-5.5-Pro做出题层，三个应考模型作答并自动判分。框架跑起来后，他发现AI会“作弊”。

比起老老实实出一道高质量的难题，AI更倾向于攻击评测脚本本身。它会伪造标准答案，把假答案塞进去让判分脚本以为对了。它会限制最大输出长度来截断其他模型的推理过程。它会调低推理深度参数让其他模型懒得深入思考。它还会把一道成功了的题目复制十份来凑数。

于是他加了一个审查层，由人类给审查模型补充规则，拦截钻空子行为，审查通过了再把题目送去考那三个模型。这套框架跑了四天，中间不断迭代，最终自动生成了10道题，三个应考模型全部答错。

与谢锦树不同，计算与智能创新学院23级本科生巫瀚东选择的策略是“规模碾压”。他出题时把数据量拉到AI输入上限的边缘。“AI本质上没有记忆能力，数据量大到一定程度，它就会遗忘前面的信息。”巫瀚东说。一个问答式AI无法调用工具进行精确计算，只能靠“注意力机制”抓重点，但只要漏掉一个值，整道题就错了。当他把大规模数据这个思路加进去，十分钟就设计出了难倒AI的题目。

除了数据和计算层面的设计，也有学生在题目结构上做文章。

经济学院23级本科生温嘉宸的10道选择题标准答案全是E，也就是“以上都不是”。

他考察的是，大模型能否跳出题目本身，审视题目自身信息不充足这个事实。每道题看上去像有确定性的答案，但其实题干缺少关键假设条件，逻辑上无法得出明确结论，正确做法只能选E。“这专治模型非要给个确定答案的惯性，考的不仅仅是解题能力，更是元认知能力，即能不能意识到这道题本身就不该有答案。”肖仰华解释道。

新闻学院24级传播学专业的本科生黎育嘉也是少数跨专业选课的学生。她选择从教材习题出发，寻找细节漏洞。她设计的一道题关于规则有趣度，需要从两个变量综合考虑。题干先引导AI算出其中一个变量，让它只盯着这一项，忽略了另一个关键条件，最终答案与正确结果完全不同。

考分背后，学生能力的分层正在被AI拉大

“让AI偶尔翻车很容易，让最先进的模型系统性归零非常难。但为什么有的学生让AI全部做错？”肖仰华观察到一个最大的差异，即高分学生自己能把题从头到尾算对，低分学生出了题自己也不知道答案。

“二者的差距不在出计算题还是概念题。”肖仰华说，低分段的同学也在出Apriori自连接、k-means、PCA重构这些题，但数据规模小、计算步数少、答案是课本上的例题水平。高分段的同学出的是长链条、高精度、零容错的计算任务，比如20条交易建整棵FP-tree、整张CSV跑所有三元组、精确到小数点后四位。

“高分同学对AI的弱点有准确判断，他们的题能命中AI的结构性缺陷；低分同学只是把课本习题换了个数字，AI在训练时见过千百万遍，直接套模板就对了。”肖仰华说，在这个现象背后，是学生能力的分层正在被AI拉大，这种差距比传统考试体现出来的问题更加严峻。那些能力本来就偏弱的学生，如果只会依赖AI做作业，自己的判断力会进一步退化。强的更强、弱的更弱，“AI正在放大这种‘马太效应’。”

教学与考核方式必须彻底变革

这场“人考AI”的期末考核，也只是“数据挖掘技术”课教学改革的一部分。AI是大势所趋，无法拒绝，课程必须拥抱AI，这是肖仰华很早就确立的基本判断。在“人考AI”之前，他已经对课程的内容进行了改革，同时他鼓励学生把AI当作学习伙伴，遇到概念不清楚的，先问AI再来课堂讨论。今年在这门课上，肖仰华全面引入了师生团队自研的智能体（GenericAgent），用于完成课程项目。而且有了AI辅助后，实践训练从一学期一到两次变成了每课一练，本学期课程训练作业就有9次之多。“学生动手的频次上来了，对算法的理解也从纸面走向了真实场景。”

课程考核方式必须彻底转型。肖仰华告诉记者，“人考AI”的模式会继续做下去，而且要做得更系统。传统那种考记忆、考计算的出题方式必须退场，未来的考核重点将全面转向评价能力、判断能力和创造性思维，这些高阶能力才是AI替代不了的。课程的教学重心也在慢慢转移。过去讲算法，重点落在推导和计算上，学生要会算、会写代码。但现在，算和写这些事AI都能做，而且做得不差。“所以课堂上更多的时间被用来讨论，学生怎么判断一个结果是对的还是错的？怎么识别AI在哪里会出问题？怎么提出一个AI回答不了的好问题？”肖仰华说，从训练学生“怎么做”，转向训练他们“怎么指挥AI来做、怎么评判AI做的结果”。