成绩单基础题人人满分,差距在最后一题国内AI赢了,但赢在哪AI这么强,人还用学数学吗
今年高考数学刚结束,"数学一卷,喜提大专"就冲上了热搜。题目难不难,考生们的表情已经给出答案。
但有人干了一件更狠的事:让AI来考。
不是让AI写作文——那种活儿AI早就能干了。这次是真刀真枪做数学题,从选择题到压轴题,一套卷子完完整整做下来。
6款AI被拉进了考场:阿里的千问、DeepSeek、字节的豆包、腾讯的元宝,还有国外的GPT-5.5和Gemini 3.1。出题方是今年高考数学全国一卷,阅卷标准跟高考一模一样。
结果出来了,先说结论:AI的成绩,秒杀了绝大多数考生。
先看排名。
第一名是阿里的千问,150分,满分。第二名DeepSeek,145分。第三名豆包,141分。第四名GPT-5.5,140分。第五名Gemini 3.1,139分。第六名腾讯元宝,136分。
你没看错,最低分136,最高分150。高考数学能上130的考生有多少?每个省的比例都不会太高。而这6款AI,全部在130分以上。
这意味着什么?在数学这门课上,这几款主流AI的能力已经超过了90%以上的考生。
仔细看得分结构,会发现一个有意思的现象:基础题部分,6款AI几乎全部满分。
选择题、填空题、前几道大题——这些题目在AI面前基本没有难度。不管是国内的千问、豆包,还是国外的GPT、Gemini,都能稳稳拿分。
真正的分水岭在最后一道压轴题。
这道题是整张卷子里最难的一关,需要综合运用多个知识模块,还要有灵活的解题思路。在这道题上,只有千问拿到了满分,其他5款都不同程度地丢了分。
这说明一件事:AI在常规题目的处理上已经非常成熟,但面对真正需要"临场发挥"的复杂问题,差距依然存在。而这个差距,恰恰是区分"优秀AI"和"顶尖AI"的关键。
还有个细节值得注意:AI做题的方式跟人完全不一样。它们要先识别扫描版试卷上的图片和数学符号——有些符号在图片里歪歪扭扭,AI得先看清题目在说什么。然后不靠搜索引擎、不靠外部工具,纯粹靠自己的推理能力算答案。
能做到这个程度,确实不容易。
从排名上能明显看到,国内AI的整体表现要好于国外AI。
前三名全是国内的:千问、DeepSeek、豆包。GPT-5.5和Gemini分别排在第四和第五。不是说国外AI不行,但在"做中国高考数学题"这件事上,国内AI确实更占优势。
原因也不难猜。高考数学有自己的出题风格和知识范围——有些知识点国外数学教育体系里甚至不涉及。国内AI在训练数据里接触过大量高考题,自然更熟悉这种题目的套路。
这其实反映了一个更大的趋势:在具体场景的应用上,本土AI的优势越来越明显。不是说谁的模型参数更大谁就赢,而是谁更理解这个场景、谁训练数据更贴切,谁的表现就更好。
看到这个成绩,很多人可能会问:既然AI数学这么厉害,那学生辛辛苦苦学数学还有什么意义?
这个问题值得认真回答。
第一,AI会做数学题,不代表它理解数学。它能算出答案,但它不知道这个答案为什么美、这个解题思路为什么妙。数学训练的不只是计算能力,更是逻辑思维和抽象思考的能力——这些是AI给不了的。
第二,高考数学对于AI来说,只是一个封闭的测试环境。题目再难,也有确定的知识范围和标准答案。但真实世界的数学问题往往是开放的、不确定的、没有标准答案的。AI在这个封闭测试里表现好,不代表它能在真实数学研究中替代人类。
第三,也是最关键的一点:AI不是来替代你学数学的,而是来帮你把工具升级的。就像计算器没有让人不学算术一样,AI也不会让人不学数学。相反,当工具变强了,对使用工具的人的要求反而更高了——因为你得知道什么时候该用它,什么时候不能依赖它。
回到这次考试本身。6款AI做高考数学,全部130分以上,千问甚至拿了满分。这个成绩让人惊讶,但更值得关注的是:AI的进化速度超出了大多数人的预期。一年前AI还在为做对一道初中数学题费劲,一年后已经能跟高考满分选手比肩了。
如果你也在关注AI的进化速度,评论区聊聊你的感受。觉得有意思,点个"推荐",转给身边的朋友看看。
热门跟贴