6款AI做高考数学题，最高考了150分，最低也有136

程序员高手之路

2026-06-17 18:00 ·上海

成绩单基础题人人满分，差距在最后一题国内AI赢了，但赢在哪AI这么强，人还用学数学吗

今年高考数学刚结束，"数学一卷，喜提大专"就冲上了热搜。题目难不难，考生们的表情已经给出答案。

但有人干了一件更狠的事：让AI来考。

不是让AI写作文——那种活儿AI早就能干了。这次是真刀真枪做数学题，从选择题到压轴题，一套卷子完完整整做下来。

6款AI被拉进了考场：阿里的千问、DeepSeek、字节的豆包、腾讯的元宝，还有国外的GPT-5.5和Gemini 3.1。出题方是今年高考数学全国一卷，阅卷标准跟高考一模一样。

结果出来了，先说结论：AI的成绩，秒杀了绝大多数考生。

先看排名。

第一名是阿里的千问，150分，满分。第二名DeepSeek，145分。第三名豆包，141分。第四名GPT-5.5，140分。第五名Gemini 3.1，139分。第六名腾讯元宝，136分。

你没看错，最低分136，最高分150。高考数学能上130的考生有多少？每个省的比例都不会太高。而这6款AI，全部在130分以上。

这意味着什么？在数学这门课上，这几款主流AI的能力已经超过了90%以上的考生。

仔细看得分结构，会发现一个有意思的现象：基础题部分，6款AI几乎全部满分。

选择题、填空题、前几道大题——这些题目在AI面前基本没有难度。不管是国内的千问、豆包，还是国外的GPT、Gemini，都能稳稳拿分。

真正的分水岭在最后一道压轴题。

这道题是整张卷子里最难的一关，需要综合运用多个知识模块，还要有灵活的解题思路。在这道题上，只有千问拿到了满分，其他5款都不同程度地丢了分。

这说明一件事：AI在常规题目的处理上已经非常成熟，但面对真正需要"临场发挥"的复杂问题，差距依然存在。而这个差距，恰恰是区分"优秀AI"和"顶尖AI"的关键。

还有个细节值得注意：AI做题的方式跟人完全不一样。它们要先识别扫描版试卷上的图片和数学符号——有些符号在图片里歪歪扭扭，AI得先看清题目在说什么。然后不靠搜索引擎、不靠外部工具，纯粹靠自己的推理能力算答案。

能做到这个程度，确实不容易。

从排名上能明显看到，国内AI的整体表现要好于国外AI。

前三名全是国内的：千问、DeepSeek、豆包。GPT-5.5和Gemini分别排在第四和第五。不是说国外AI不行，但在"做中国高考数学题"这件事上，国内AI确实更占优势。

原因也不难猜。高考数学有自己的出题风格和知识范围——有些知识点国外数学教育体系里甚至不涉及。国内AI在训练数据里接触过大量高考题，自然更熟悉这种题目的套路。

这其实反映了一个更大的趋势：在具体场景的应用上，本土AI的优势越来越明显。不是说谁的模型参数更大谁就赢，而是谁更理解这个场景、谁训练数据更贴切，谁的表现就更好。

看到这个成绩，很多人可能会问：既然AI数学这么厉害，那学生辛辛苦苦学数学还有什么意义？

这个问题值得认真回答。

第一，AI会做数学题，不代表它理解数学。它能算出答案，但它不知道这个答案为什么美、这个解题思路为什么妙。数学训练的不只是计算能力，更是逻辑思维和抽象思考的能力——这些是AI给不了的。

第二，高考数学对于AI来说，只是一个封闭的测试环境。题目再难，也有确定的知识范围和标准答案。但真实世界的数学问题往往是开放的、不确定的、没有标准答案的。AI在这个封闭测试里表现好，不代表它能在真实数学研究中替代人类。

第三，也是最关键的一点：AI不是来替代你学数学的，而是来帮你把工具升级的。就像计算器没有让人不学算术一样，AI也不会让人不学数学。相反，当工具变强了，对使用工具的人的要求反而更高了——因为你得知道什么时候该用它，什么时候不能依赖它。

回到这次考试本身。6款AI做高考数学，全部130分以上，千问甚至拿了满分。这个成绩让人惊讶，但更值得关注的是：AI的进化速度超出了大多数人的预期。一年前AI还在为做对一道初中数学题费劲，一年后已经能跟高考满分选手比肩了。

如果你也在关注AI的进化速度，评论区聊聊你的感受。觉得有意思，点个"推荐"，转给身边的朋友看看。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴