高考这不刚结束吗。
和前两年差不多,还没考完呢“史上最难”“喜提大专”之类的词条已经先一步冲上了热搜。
最让人绷不住的,毫无疑问还是又是就是——数学。
6月7日下午,2026全国高考数学刚考完,#高考数学#难就冲上微博热搜第一。
尤其是最后一道题,更是被网友集体誉为“史上最难高考压轴题”,可以说是考完就道心破碎、喜提大专、准备二战。
见此场景,黑马当时就有了个好点子:
如果今年的数学卷真的这么难,那不就是上好的试金石,正好拿它来测AI……
毕竟过去两年,各家 AI 天天都在宣传自己数学能力有多强——什么推理模型、强化学习、长链思维说得一个比一个猛。
既然你们都真心实意的宣传了,那我就大发慈悲的把你们直接拉上考场,真刀真枪考一次。
说干就干,转头黑马就扒拉了6个目前常用的AI,为了以示公平,除了国内大模型之外,黑马还专门邀请了Gemini和ChatGPT两个国际选手参赛。
一张试卷,满分150分,同一考场,同一时间,没有搜索、没有外挂、纯靠模型本身的推理能力。
我们想看看——在真正的"高考级"难度面前,谁是真学霸,谁在裸泳。
为了保证公平,黑马还设定了一套的评测规则:
试卷直接用的:2026年普通高等学校招生全国统一考试·数学(全国I卷),全卷共19题:选择题11道(共58分)、填空题3道(共15分)、解答题5道(共77分),满分150分。
6位考生分别是: GPT 5.5(OpenAI)、Gemini 3.1(Google)、DeepSeek、千问(阿里)、豆包(字节)、元宝(腾讯)。
具体规则如下:
1、所有试题以原卷扫描图片输入(不做OCR预处理);
2、每道题独立作答,不给上下文提示;
3、解答题按高考阅卷标准评分(过程分+结果分);
4、同一时段内完成,避免模型更新差异。
然后成绩单,就出来了。
说实话,这个第一我觉得是有点东西的。
本来我还在好奇到底是中国模型技高一筹,还是国外模型遥遥领先……
还好整体来说还是中国AI做数学更强一些。
而千问也收获全场唯一满分。
知道你们好奇,我们一个一个来看解题过程。
成绩单往下翻,在前10道选择题上,千问、豆包、元宝、DS、GPT、Gemini,清一色满分。
基础送分题拉不开差距,这很正常。
但僵局没有持续太久,从第11题开始,Gemini就开始掉链子,6 分没了;到了填空题又拉下来两位选手,元宝第14题哑火,GPT 第12题丢分……
想不到吧,应用题都还没开始就已经决出了前三甲了。
而到了应用题阶段,前四道题大家的水平也都很平均,平均的没有扣掉一分。
真正拉开差距的,还是大家吐槽的压轴题19题。
对,就是那道今年被考生集体控诉"不是人做的题"的三道。
具体来看的话:
DeepSeek、Gemini、GPT都倒在了第(3)题,各丢5分;
豆包、元宝则在第(2)问和第(3)问同时失守,各丢9分;
只有千问的三个小问全部正确,满分通过。
说实话,看到千问第 19 题全对,黑马自己也愣了一下。
因为这道题的(2)(3)小问全是证明题,考的是新定义、集合、函数性质以及复杂条件推导。
简单来说,就是特别考验逻辑链条,只要中间有一步推错,后面就会全崩。
这里放一个千问的答题过程:
可以看到,千问第(2)问奇函数性质推导完整,多情形分类一个不漏;第(3)问用反证法,条件①②的组合运用极具技巧性,结构严密得像一道证明题教科书。
说实话,这种级别的长链路推理能力,在目前的AI里值得一个夯的水平。
而其他家输在哪其实也很明显,主要就是推理稳定性差一点:
有的模型前面推理完全正确,却在最后一步计算时出现符号错误;
有的模型思路方向没问题,但分类讨论漏掉了一种情况;
还有的模型明明已经接近正确答案,却因为中间一个条件理解偏差导致满盘皆输。
这边直接放一下大家的试卷:
豆包和元宝在第(2)问就开始出现计算偏差,根基一歪,后面越走越偏;
DeepSeek、Gemini、GPT 更能扛,但卡在了第(3)问的反证法构造上,实际上就是差在逻辑的精密度上。
当我们把各家的解题过程摆在一起看时嘛,很容易就能发现差距在哪里,前面那几步大家都会做。
但能不能从第一步一直正确推到最后一步,才是真正决定分数的关键。
对于考生来说,这份成绩单其实说明了一件事:
哪怕到了 2026 年,高考数学依然是检验思维能力最有效的试卷之一,因为它考察的从来不只是知识点,而是你能不能在陌生环境下完成推理、计算、迁移和验证。
这也是为什么很多人觉得数学难,因为它不允许你“差不多”。
对 AI 行业来说,道理也是一样。
现在的大模型写作文、翻译、总结资料,大家水平已经越来越接近很多场景里,你甚至很难感受到明显差异。
但数学不一样,尤其是高考压轴题这种"一步错步步错"的题型。
它就像个照妖镜,谁是真会推理,谁只是看起来会推理,往里一照基本就藏不住了。
而这次千问能拿到唯一满分,本质上也是多种能力叠加的结果。
一方面是拍照识题、多模态理解能力——原卷扫描图片直接输入,不做任何 OCR 预处理,能准确识别手写数学符号和复杂排版,本身就是一道门槛;
另一方面则是数学推理模型本身的强化训练。千问此前在 SAT 考试中拿过 1580 分,超过全球 99% 的考生,也超过了 ChatGPT 和 Gemini,不是第一次在数学上展示这种水平了。
这次高考数学满分,也只是再次证明了这件事。
回头看,其实还挺有意思的。
2023年,我们第一次拿高考题测试AI的时候,讨论最多的问题还是AI会不会写作文。
那时候大家觉得,写作是一件很高级的事情,需要理解、思考、表达和创造力。
但数学恰恰相反,当时它还被认为是最考验逻辑和推理能力的领域,也是AI最难跨过去的一道坎。
等到2024年的时候,我们终于开始讨论AI能不能做压轴题,能不能上140分,能不能考上985。
直到今年,阿里千问在数学高考试卷上拿下了满分。
现在你要是问我明年AI会被拿来测什么,那我也只能说不知道了。
撰文:柯然
编辑:Lena
热门跟贴