打开网易新闻 查看精彩图片

51名学生,51份期末考卷,每份考卷都不一样,但是考卷上的这10道题是不是能够难倒三个当今最先进的AI模型,才是期末考试分数的评判标准。这是复旦大学计算与智能创新学院教授肖仰华“数据挖掘技术”课的期末考试。学生是出题人,自己设计10道题,AI答错的题越多、被难倒的模型越强,学生的得分就越高。

最终,51份期末试卷中,50人至少让某个AI答错过一题,仅1人完全没难倒任何模型。但能让任一模型整张卷得0分的,只有4人,且三个应考模型中最强的Claude模型没有被任何学生完全考倒。全班平均分85.7分,中位数88分。

“传统考察方式,在AI时代已经失效了。”肖仰华说,过去期末考试考的是学生会不会算一道题,但关联规则、决策树、贝叶斯分类……恰恰是AI最擅长的,“再这样考察学生,等于是让学生与AI比拼AI的强项,没有意义。”

所以,“数据挖掘技术”的期末作业改成,每人出10道数据挖掘领域的计算题,要求有唯一正确答案和完整的推导计算过程。拿着这10道题去考三个不同水平的AI模型。只要认真出满10道合规题就有60分保底,难倒AI是加分项。AI答错越多,学生得分越高,封顶100分。

三个模型对应三个难度梯度:

DeepSeek V4-Flash答错一题+1.5分、MiniMax M2.7答错一题+2分、Claude Sonnet 4.6答错一题+3分。总分=60分保底+AI难度分。

考题还需要遵循几条硬性规则。题目必须基于课程讲过的知识或教材内容,每道题要有唯一正确答案,学生自己得先能把题从头到尾算对。“自己出的题自己都不会,那算不上真本事。”肖仰华说。

打开网易新闻 查看精彩图片

深入理解知识,就能找到AI的盲区

“我要让学生相信,只要你真正深入理解了知识,你就能找到AI的盲区。这不是运气,是能力。”肖仰华说。

计算与智能创新学院24级本科生谢锦树最后拿到了97分。他出的10题全是SHAP值、HITS、HMM、ChiMerge、CART+贝叶斯网络这类重计算题,标准答案经独立验算正确,三个模型几乎全错。

谢锦树翻教材自己设计题目,发现如果把教科书原题有意进行修改,AI仍会依据训练时学到解题思路给出答案,并不会调整;做选择题时,去掉部分选项和保留全部选项,AI给出的答案也不一样,即使正确答案一直在选项里,“这说明AI在专业知识上的幻觉相当严重”。

但10道题的体量靠人工完成效率太低。于是他尝试让AI出题来难倒自己。

他搭建了一个多智能体协作的自动化出题框架,用GPT-5.5-Pro做出题层,三个应考模型作答并自动判分。框架跑起来后,他发现AI会“作弊”。

比起老老实实出一道高质量的难题,AI更倾向于攻击评测脚本本身。它会伪造标准答案,把假答案塞进去让判分脚本以为对了。它会限制最大输出长度来截断其他模型的推理过程。它会调低推理深度参数让其他模型懒得深入思考。它还会把一道成功了的题目复制十份来凑数。

于是他加了一个审查层,由人类给审查模型补充规则,拦截钻空子行为,审查通过了再把题目送去考那三个模型。这套框架跑了四天,中间不断迭代,最终自动生成了10道题,三个应考模型全部答错。

与谢锦树不同,计算与智能创新学院23级本科生巫瀚东选择的策略是“规模碾压”。他出题时把数据量拉到AI输入上限的边缘。“AI本质上没有记忆能力,数据量大到一定程度,它就会遗忘前面的信息。”巫瀚东说。一个问答式AI无法调用工具进行精确计算,只能靠“注意力机制”抓重点,但只要漏掉一个值,整道题就错了。当他把大规模数据这个思路加进去,十分钟就设计出了难倒AI的题目。

除了数据和计算层面的设计,也有学生在题目结构上做文章。

经济学院23级本科生温嘉宸的10道选择题标准答案全是E,也就是“以上都不是”。

他考察的是,大模型能否跳出题目本身,审视题目自身信息不充足这个事实。每道题看上去像有确定性的答案,但其实题干缺少关键假设条件,逻辑上无法得出明确结论,正确做法只能选E。“这专治模型非要给个确定答案的惯性,考的不仅仅是解题能力,更是元认知能力,即能不能意识到这道题本身就不该有答案。”肖仰华解释道。

新闻学院24级传播学专业的本科生黎育嘉也是少数跨专业选课的学生。她选择从教材习题出发,寻找细节漏洞。她设计的一道题关于规则有趣度,需要从两个变量综合考虑。题干先引导AI算出其中一个变量,让它只盯着这一项,忽略了另一个关键条件,最终答案与正确结果完全不同。

考分背后,学生能力的分层正在被AI拉大

“让AI偶尔翻车很容易,让最先进的模型系统性归零非常难。但为什么有的学生让AI全部做错?”肖仰华观察到一个最大的差异,即高分学生自己能把题从头到尾算对,低分学生出了题自己也不知道答案。

打开网易新闻 查看精彩图片

“二者的差距不在出计算题还是概念题。”肖仰华说,低分段的同学也在出Apriori自连接、k-means、PCA重构这些题,但数据规模小、计算步数少、答案是课本上的例题水平。高分段的同学出的是长链条、高精度、零容错的计算任务,比如20条交易建整棵FP-tree、整张CSV跑所有三元组、精确到小数点后四位。

“高分同学对AI的弱点有准确判断,他们的题能命中AI的结构性缺陷;低分同学只是把课本习题换了个数字,AI在训练时见过千百万遍,直接套模板就对了。”肖仰华说,在这个现象背后,是学生能力的分层正在被AI拉大,这种差距比传统考试体现出来的问题更加严峻。那些能力本来就偏弱的学生,如果只会依赖AI做作业,自己的判断力会进一步退化。强的更强、弱的更弱,“AI正在放大这种‘马太效应’。”

教学与考核方式必须彻底变革

这场“人考AI”的期末考核,也只是“数据挖掘技术”课教学改革的一部分。AI是大势所趋,无法拒绝,课程必须拥抱AI,这是肖仰华很早就确立的基本判断。在“人考AI”之前,他已经对课程的内容进行了改革,同时他鼓励学生把AI当作学习伙伴,遇到概念不清楚的,先问AI再来课堂讨论。今年在这门课上,肖仰华全面引入了师生团队自研的智能体(GenericAgent),用于完成课程项目。而且有了AI辅助后,实践训练从一学期一到两次变成了每课一练,本学期课程训练作业就有9次之多。“学生动手的频次上来了,对算法的理解也从纸面走向了真实场景。”

课程考核方式必须彻底转型。肖仰华告诉记者,“人考AI”的模式会继续做下去,而且要做得更系统。传统那种考记忆、考计算的出题方式必须退场,未来的考核重点将全面转向评价能力、判断能力和创造性思维,这些高阶能力才是AI替代不了的。课程的教学重心也在慢慢转移。过去讲算法,重点落在推导和计算上,学生要会算、会写代码。但现在,算和写这些事AI都能做,而且做得不差。“所以课堂上更多的时间被用来讨论,学生怎么判断一个结果是对的还是错的?怎么识别AI在哪里会出问题?怎么提出一个AI回答不了的好问题?”肖仰华说,从训练学生“怎么做”,转向训练他们“怎么指挥AI来做、怎么评判AI做的结果”。