号称“史上最难”的高考数学，千问拿下满分

黑马公社

2026-06-09 19:05 ·四川

高考这不刚结束吗。

和前两年差不多，还没考完呢“史上最难”“喜提大专”之类的词条已经先一步冲上了热搜。

最让人绷不住的，毫无疑问还是又是就是——数学。

6月7日下午，2026全国高考数学刚考完，#高考数学#难就冲上微博热搜第一。

尤其是最后一道题，更是被网友集体誉为“史上最难高考压轴题”，可以说是考完就道心破碎、喜提大专、准备二战。

见此场景，黑马当时就有了个好点子：

如果今年的数学卷真的这么难，那不就是上好的试金石，正好拿它来测AI……

毕竟过去两年，各家 AI 天天都在宣传自己数学能力有多强——什么推理模型、强化学习、长链思维说得一个比一个猛。

既然你们都真心实意的宣传了，那我就大发慈悲的把你们直接拉上考场，真刀真枪考一次。

说干就干，转头黑马就扒拉了6个目前常用的AI，为了以示公平，除了国内大模型之外，黑马还专门邀请了Gemini和ChatGPT两个国际选手参赛。

一张试卷，满分150分，同一考场，同一时间，没有搜索、没有外挂、纯靠模型本身的推理能力。

我们想看看——在真正的"高考级"难度面前，谁是真学霸，谁在裸泳。

为了保证公平，黑马还设定了一套的评测规则：

试卷直接用的：2026年普通高等学校招生全国统一考试·数学（全国I卷），全卷共19题：选择题11道（共58分）、填空题3道（共15分）、解答题5道（共77分），满分150分。

6位考生分别是： GPT 5.5（OpenAI）、Gemini 3.1（Google）、DeepSeek、千问（阿里）、豆包（字节）、元宝（腾讯）。

具体规则如下：

1、所有试题以原卷扫描图片输入（不做OCR预处理）；

2、每道题独立作答，不给上下文提示；

3、解答题按高考阅卷标准评分（过程分+结果分）；

4、同一时段内完成，避免模型更新差异。

然后成绩单，就出来了。

说实话，这个第一我觉得是有点东西的。

本来我还在好奇到底是中国模型技高一筹，还是国外模型遥遥领先……

还好整体来说还是中国AI做数学更强一些。

而千问也收获全场唯一满分。

知道你们好奇，我们一个一个来看解题过程。

成绩单往下翻，在前10道选择题上，千问、豆包、元宝、DS、GPT、Gemini，清一色满分。

基础送分题拉不开差距，这很正常。

但僵局没有持续太久，从第11题开始，Gemini就开始掉链子，6 分没了；到了填空题又拉下来两位选手，元宝第14题哑火，GPT 第12题丢分……

想不到吧，应用题都还没开始就已经决出了前三甲了。

而到了应用题阶段，前四道题大家的水平也都很平均，平均的没有扣掉一分。

真正拉开差距的，还是大家吐槽的压轴题19题。

对，就是那道今年被考生集体控诉"不是人做的题"的三道。

具体来看的话：

DeepSeek、Gemini、GPT都倒在了第（3）题，各丢5分；

豆包、元宝则在第（2）问和第（3）问同时失守，各丢9分；

只有千问的三个小问全部正确，满分通过。

说实话，看到千问第 19 题全对，黑马自己也愣了一下。

因为这道题的（2）（3）小问全是证明题，考的是新定义、集合、函数性质以及复杂条件推导。

简单来说，就是特别考验逻辑链条，只要中间有一步推错，后面就会全崩。

这里放一个千问的答题过程：

可以看到，千问第（2）问奇函数性质推导完整，多情形分类一个不漏；第（3）问用反证法，条件①②的组合运用极具技巧性，结构严密得像一道证明题教科书。

说实话，这种级别的长链路推理能力，在目前的AI里值得一个夯的水平。

而其他家输在哪其实也很明显，主要就是推理稳定性差一点：

有的模型前面推理完全正确，却在最后一步计算时出现符号错误；

有的模型思路方向没问题，但分类讨论漏掉了一种情况；

还有的模型明明已经接近正确答案，却因为中间一个条件理解偏差导致满盘皆输。

这边直接放一下大家的试卷：

豆包和元宝在第（2）问就开始出现计算偏差，根基一歪，后面越走越偏；

DeepSeek、Gemini、GPT 更能扛，但卡在了第（3）问的反证法构造上，实际上就是差在逻辑的精密度上。

当我们把各家的解题过程摆在一起看时嘛，很容易就能发现差距在哪里，前面那几步大家都会做。

但能不能从第一步一直正确推到最后一步，才是真正决定分数的关键。

对于考生来说，这份成绩单其实说明了一件事：

哪怕到了 2026 年，高考数学依然是检验思维能力最有效的试卷之一，因为它考察的从来不只是知识点，而是你能不能在陌生环境下完成推理、计算、迁移和验证。

这也是为什么很多人觉得数学难，因为它不允许你“差不多”。

对 AI 行业来说，道理也是一样。

现在的大模型写作文、翻译、总结资料，大家水平已经越来越接近很多场景里，你甚至很难感受到明显差异。

但数学不一样，尤其是高考压轴题这种"一步错步步错"的题型。

它就像个照妖镜，谁是真会推理，谁只是看起来会推理，往里一照基本就藏不住了。

而这次千问能拿到唯一满分，本质上也是多种能力叠加的结果。

一方面是拍照识题、多模态理解能力——原卷扫描图片直接输入，不做任何 OCR 预处理，能准确识别手写数学符号和复杂排版，本身就是一道门槛；

另一方面则是数学推理模型本身的强化训练。千问此前在 SAT 考试中拿过 1580 分，超过全球 99% 的考生，也超过了 ChatGPT 和 Gemini，不是第一次在数学上展示这种水平了。

这次高考数学满分，也只是再次证明了这件事。

回头看，其实还挺有意思的。

2023年，我们第一次拿高考题测试AI的时候，讨论最多的问题还是AI会不会写作文。

那时候大家觉得，写作是一件很高级的事情，需要理解、思考、表达和创造力。

但数学恰恰相反，当时它还被认为是最考验逻辑和推理能力的领域，也是AI最难跨过去的一道坎。

等到2024年的时候，我们终于开始讨论AI能不能做压轴题，能不能上140分，能不能考上985。

直到今年，阿里千问在数学高考试卷上拿下了满分。

现在你要是问我明年AI会被拿来测什么，那我也只能说不知道了。

撰文：柯然

编辑：Lena

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴