5个140分！2026高考数学AI评测出炉|丁益祥|压轴题|数学试卷|评卷|高考

15日，山东省教育招生考试院举办2026年夏季高考评卷工作开放日活动。

2026年山东省参加夏季高考统一考试的考生共计72万人，9个科目试卷总数达到432万余份。评卷工作委托山东大学和山东师范大学进行，共选聘评卷员3700余人。

山东大学负责评阅语文、数学、物理、化学、生物5个科目。山东师范大学负责评阅外语、思想政治、历史、地理4个科目。评卷工作于6月11日正式启动，选择题部分实行机器评阅，目前已全部完成。非选择题部分由人工网上评阅，目前正在进行中。

据悉，本轮评卷工作结束后，我省将陆续开展成绩汇总、录取控制分数线划定等工作，6月25日下午3点后正式公布高考成绩。

近日，新京报展开一场评测，选取讯飞星火、DeepSeek、智谱、ChatGPT、Kimi和MiniMax六款以推理见长的大模型，以2026年新高考I卷数学卷为统一试题进行测试。评测邀请了两位专业教师参与阅卷评分：人大附中北京经济技术开发区学校高中数学教师、教研组长、北京市数学骨干教师韩静波，以及北京市中学数学特级教师、全国高中数理化名师俱乐部副理事长、中国数学奥林匹克高级教练丁益祥。

六个“考生”，五个上了140分

测试共19道题目，满分150分。试卷题目依据网络流出的多个版本交叉验证而成，可能与真题存在不完全相符的情况，但所有模型使用的是同一套题目，不影响横向比较的公平性。

从总分来看，六款大模型呈现了明显的梯度：讯飞星火以148分位居第一，Kimi以145分紧随其后，DeepSeek144分、智谱143分、MiniMax142分依次排列，ChatGPT以137分排在末尾。六个“考生”中，有五个上了140分。

▲6名大模型“考生”总体得分情况。新京报制图/卢子雄

基础题全员满分，解题规范拉开差距

在选择题和多选题上，六款模型实现了全员满分，仅有个别模型在填空题上出现了失误。真正拉开差距的，是解答题的得分和解题过程的规范性。

讯飞星火的规范分与结果分完全一致，推理过程较为清晰，字符也较规范。丁益祥举例说，在第15题第（2）小题中，讯飞星火给出了几何法和向量法两种解法；第18题第（2）小题的两问中，它充分利用了平面几何中三角形面积之间的关系，并借助夹角公式简化了运算。丁益祥还注意到，“MiniMax卷”和“智谱卷”在第18题第（2）小题的第①问上，同样利用了几何中三角形面积关系来处理问题，“都有不错表现”。

韩静波则发现，讯飞星火在数形结合、对图形几何性质的分析上明显优于其他模型，“它在解析第二问几何性质时分析得很好，做法简洁，还有一些题目给出了两种解法。”

其他模型则在解答题中不同程度地出现了步骤失分，原因多为关键推导缺失或逻辑不连贯。

▲各大模型“考生”不同题目分数统计情况。新京报制图/卢子雄

压轴题分出高下，部分模型用了"超纲"知识

压轴题（第18、19题）成为区分模型复杂推理能力的分水岭。大部分模型在第18题中表现尚可，但在第19题上出现了明显的“后继乏力”——有模型仅得到12分（满分17分），暴露出部分大模型在处理多步骤、高复杂度逻辑链时仍存在能力短板。

韩静波观察发现，DeepSeek在形式化的代数推导方面比较擅长，能按部就班地完成长逻辑推导，但在数形结合、对图形几何性质的分析上稍显欠缺，利用题目特殊性灵活处理问题的能力也显不足。

值得注意的是，部分模型在解题中动用了超出高中知识范围的方法。丁益祥指出，“DeepSeek卷”“Kimi卷”“ChatGPT卷”“智谱卷”在求解第18题第（2）小题时都使用了向量的叉乘运算，而“DeepSeek卷”在第19题第（2）小题中还动用了“上确界”的概念。丁益祥表示，这些都属于高等数学知识，在解答高考数学试题中一般不宜使用。

▲丁益祥对试卷的批阅记录。

"答卷各有千秋"，仍有改进余地

除了知识运用的问题，丁益祥还指出了大模型在答题呈现上的一些不足。“MiniMax卷”和“智谱卷”中存在字符不统一、不规范的情况，给人的感觉较为凌乱。他还提到，ChatGPT卷第15题第（2）小题的几何法证明较为繁琐，智谱卷第19题第（3）小题的推导也不够简练。

不过，在答题思路的一致性上，六款模型表现出了一定程度的趋同。以第15题第（1）小题为例，六份答卷一致地采用几何法证明；第18题第（1）小题，六份答卷一致地利用参数之间的关系求椭圆的标准方程；第19题第（1）小题，六份答卷也一致地使用直接计算的方法得出结果。丁益祥用“某些思路雷同，答卷各有千秋”来概括六份答卷。

总体而言，测评结果表明，头部大模型在高考数学场景中已展现出一定的解题实力，不仅能算出正确结果，也能以较为规范、严谨的过程呈现推导思路。但部分模型在步骤规范性、复杂压轴题的推理能力以及答题格式的规范呈现上，仍然存在明显的提升空间。正如有专家指出，当前大模型的数学能力竞争，已从“能算出结果”转向了“过程严谨、逻辑完整、复杂问题可拆解”的更高阶段。