高考这不刚结束吗。

和前两年差不多,还没考完呢“史上最难”“喜提大专”之类的词条已经先一步冲上了热搜。

打开网易新闻 查看精彩图片

最让人绷不住的,毫无疑问还是又是就是——数学。

6月7日下午,2026全国高考数学刚考完,#高考数学#难就冲上微博热搜第一。

尤其是最后一道题,更是被网友集体誉为“史上最难高考压轴题”,可以说是考完就道心破碎、喜提大专、准备二战。

见此场景,黑马当时就有了个好点子:

如果今年的数学卷真的这么难,那不就是上好的试金石,正好拿它来测AI……

毕竟过去两年,各家 AI 天天都在宣传自己数学能力有多强——什么推理模型、强化学习、长链思维说得一个比一个猛。

既然你们都真心实意的宣传了,那我就大发慈悲的把你们直接拉上考场,真刀真枪考一次。

说干就干,转头黑马就扒拉了6个目前常用的AI,为了以示公平,除了国内大模型之外,黑马还专门邀请了Gemini和ChatGPT两个国际选手参赛。

一张试卷,满分150分,同一考场,同一时间,没有搜索、没有外挂、纯靠模型本身的推理能力。

我们想看看——在真正的"高考级"难度面前,谁是真学霸,谁在裸泳。

打开网易新闻 查看精彩图片

为了保证公平,黑马还设定了一套的评测规则:

试卷直接用的:2026年普通高等学校招生全国统一考试·数学(全国I卷),全卷共19题:选择题11道(共58分)、填空题3道(共15分)、解答题5道(共77分),满分150分。

6位考生分别是: GPT 5.5(OpenAI)、Gemini 3.1(Google)、DeepSeek、千问(阿里)、豆包(字节)、元宝(腾讯)。

具体规则如下:

1、所有试题以原卷扫描图片输入(不做OCR预处理);

2、每道题独立作答,不给上下文提示;

3、解答题按高考阅卷标准评分(过程分+结果分);

4、同一时段内完成,避免模型更新差异。

打开网易新闻 查看精彩图片

然后成绩单,就出来了。

说实话,这个第一我觉得是有点东西的。

打开网易新闻 查看精彩图片

本来我还在好奇到底是中国模型技高一筹,还是国外模型遥遥领先……

还好整体来说还是中国AI做数学更强一些。

而千问也收获全场唯一满分。

打开网易新闻 查看精彩图片

知道你们好奇,我们一个一个来看解题过程。

成绩单往下翻,在前10道选择题上,千问、豆包、元宝、DS、GPT、Gemini,清一色满分。

基础送分题拉不开差距,这很正常。

但僵局没有持续太久,从第11题开始,Gemini就开始掉链子,6 分没了;到了填空题又拉下来两位选手,元宝第14题哑火,GPT 第12题丢分……

想不到吧,应用题都还没开始就已经决出了前三甲了。

打开网易新闻 查看精彩图片

而到了应用题阶段,前四道题大家的水平也都很平均,平均的没有扣掉一分。

真正拉开差距的,还是大家吐槽的压轴题19题。

对,就是那道今年被考生集体控诉"不是人做的题"的三道。

打开网易新闻 查看精彩图片

具体来看的话:

DeepSeek、Gemini、GPT都倒在了第(3)题,各丢5分;

豆包、元宝则在第(2)问和第(3)问同时失守,各丢9分;

只有千问的三个小问全部正确,满分通过。

打开网易新闻 查看精彩图片

说实话,看到千问第 19 题全对,黑马自己也愣了一下。

因为这道题的(2)(3)小问全是证明题,考的是新定义、集合、函数性质以及复杂条件推导。

简单来说,就是特别考验逻辑链条,只要中间有一步推错,后面就会全崩。

这里放一个千问的答题过程:

打开网易新闻 查看精彩图片

可以看到,千问第(2)问奇函数性质推导完整,多情形分类一个不漏;第(3)问用反证法,条件①②的组合运用极具技巧性,结构严密得像一道证明题教科书。

说实话,这种级别的长链路推理能力,在目前的AI里值得一个夯的水平。

而其他家输在哪其实也很明显,主要就是推理稳定性差一点

有的模型前面推理完全正确,却在最后一步计算时出现符号错误;

有的模型思路方向没问题,但分类讨论漏掉了一种情况;

还有的模型明明已经接近正确答案,却因为中间一个条件理解偏差导致满盘皆输。

这边直接放一下大家的试卷:

打开网易新闻 查看精彩图片

豆包和元宝在第(2)问就开始出现计算偏差,根基一歪,后面越走越偏;

打开网易新闻 查看精彩图片

DeepSeek、Gemini、GPT 更能扛,但卡在了第(3)问的反证法构造上,实际上就是差在逻辑的精密度上。

打开网易新闻 查看精彩图片

当我们把各家的解题过程摆在一起看时嘛,很容易就能发现差距在哪里,前面那几步大家都会做。

但能不能从第一步一直正确推到最后一步,才是真正决定分数的关键。

打开网易新闻 查看精彩图片

对于考生来说,这份成绩单其实说明了一件事:

哪怕到了 2026 年,高考数学依然是检验思维能力最有效的试卷之一,因为它考察的从来不只是知识点,而是你能不能在陌生环境下完成推理、计算、迁移和验证。

这也是为什么很多人觉得数学难,因为它不允许你“差不多”。

对 AI 行业来说,道理也是一样。

现在的大模型写作文、翻译、总结资料,大家水平已经越来越接近很多场景里,你甚至很难感受到明显差异。

但数学不一样,尤其是高考压轴题这种"一步错步步错"的题型。

它就像个照妖镜,谁是真会推理,谁只是看起来会推理,往里一照基本就藏不住了。

打开网易新闻 查看精彩图片

而这次千问能拿到唯一满分,本质上也是多种能力叠加的结果。

一方面是拍照识题、多模态理解能力——原卷扫描图片直接输入,不做任何 OCR 预处理,能准确识别手写数学符号和复杂排版,本身就是一道门槛;

另一方面则是数学推理模型本身的强化训练。千问此前在 SAT 考试中拿过 1580 分,超过全球 99% 的考生,也超过了 ChatGPT 和 Gemini,不是第一次在数学上展示这种水平了。

这次高考数学满分,也只是再次证明了这件事。

打开网易新闻 查看精彩图片

回头看,其实还挺有意思的。

2023年,我们第一次拿高考题测试AI的时候,讨论最多的问题还是AI会不会写作文。

那时候大家觉得,写作是一件很高级的事情,需要理解、思考、表达和创造力。

但数学恰恰相反,当时它还被认为是最考验逻辑和推理能力的领域,也是AI最难跨过去的一道坎。

等到2024年的时候,我们终于开始讨论AI能不能做压轴题,能不能上140分,能不能考上985。

直到今年,阿里千问在数学高考试卷上拿下了满分。

现在你要是问我明年AI会被拿来测什么,那我也只能说不知道了。

撰文:柯然

编辑:Lena