高考查分季,大模型也迎来了一年一度的「高考大考」。
今年高考结束后,新京报、澎湃新闻、观察者网、羊城晚报等媒体陆续围绕大模型高考表现展开测评。从数学单科到中英文作文,从全科总分到解题过程盲评,讯飞星火多次进入头部位置。
多项测评中的连续靠前,构成了一种交叉验证。讯飞星火的优势不只体现在某一道题、某一篇作文或某一个科目,而是体现在数学推理、作文表达、英语应用文和全科综合能力上的稳定表现。
为什么在越来越多高考测评中,讯飞星火都能考得靠前?这种考试能力,又如何转化为真实教育场景中的产品价值?
大模型高考测评正在从热闹走向细分。
早期,大模型参加高考更多是为了验证「能不能做题」。如今,随着头部模型能力快速提升,单纯完成答案已经不再稀奇。更关键的问题变成了,模型能不能按照高考评分标准得分,能不能在复杂题目中保持推理完整,能不能在作文中准确审题、形成判断,能不能在全科任务中保持稳定发挥。
从今年多项测评结果看,讯飞星火的表现具有较强一致性。
在新京报的数学测评中,6款主流大模型挑战2026年新高考I卷数学卷。讯飞星火以148分位列第一,Kimi、DeepSeek、智谱、MiniMax、ChatGPT分列其后。基础题部分,各模型差距并不明显,真正拉开分数的是解答题和压轴题。评卷专家提到,讯飞星火推理过程较为清晰,字符规范,在部分题目中还能给出不同解法。尤其在数形结合和几何性质分析上,表现优于其他模型。
新京报6款主流大模型2026年新高考I卷数学卷测评结果
这说明,大模型数学能力的竞争,已经不只是能不能算出结果,而是能不能把过程讲清楚。高考数学评分并不只看最终答案,过程分、推导逻辑和表达规范同样重要。部分模型即便得出结果,也可能因为步骤跳跃、关键推导缺失,或引入高中阶段不宜使用的高等数学方法而被扣分。讯飞星火在这类细节上的稳定表现,体现出更贴近真实阅卷标准的解题能力。
作文测评则提供了另一种观察角度。
在澎湃新闻的上海卷作文测评中,9款国内外主流大模型围绕「科技改造世界时,也改造着我们的想象」这一题目写作。最终,讯飞星火以65.5分排名第一。专家在评语中提到,讯飞星火立意新颖,辩证思维完整,素材有纵深,语言兼具理性与文采。相比一些模型常见的模板化表达,讯飞星火在审题、立意、论证层次和语言表达上更容易获得高分。
澎湃新闻9款主流大模型上海卷作文测评结果
观察者网组织的中英文作文盲评也指向类似结论。语文新课标I卷作文中,讯飞星火选择「冷板凳」作为切口,完成从失意、被忽视到沉潜、深耕的认知转变,既贴合题目中「理解发生变化」的要求,也体现出成长印记。英语新课标I卷应用文写作中,讯飞星火准确处理了「socializing」等语法细节,并在短篇幅内完成观点排序、理由说明和句式组织,最终与GPT同处第一梯队。
观察者网组织的中英文作文盲评结果
如果说数学考验的是复杂推理和过程规范,作文考验的就是审题能力、表达能力和评分标准适配能力。讯飞星火在两类任务中都能进入头部位置,说明高考场景中的优势并不局限于某一个科目。
羊城晚报教育发展研究院的全科测评,则把这种能力放到更完整的考试框架中检验。测评采用2026年高考试题,对8款国内外主流大模型进行横向测试,并按照历史类和物理类两条路线统计总分。最终,讯飞星火X2在历史类总分中排名第一,在物理类总分中与Claude并列第一,成为唯一同时进入历史类、物理类「700分俱乐部」的国产大模型。
全科测评的意义在于,不能只靠单科优势取胜。语文、数学、英语、物理、历史、政治、化学、生物、地理等科目,对模型能力的要求并不相同。语文考验长文本理解和表达组织,数学和物理考验建模与推理,英语考验语言应用,政史地考验材料解读和结构化表达。真正决定总分排名的,是模型能不能在不同学科、不同题型和不同评分标准中保持均衡。
从多项测评看,头部模型之间的差距正在变小,真正拉开差距的关键,不再是某一道压轴题或某一篇作文,而是全科稳定性和场景适配能力。讯飞星火在数学、作文、英语和全科总分测评中多次靠前,反映的是语言理解、数理推理、规范表达和综合分析能力的共同成熟。
这也是为什么,高考正在成为观察教育大模型能力的重要窗口。高考成绩不是唯一标准,但高考试题集中体现了当前教育评价体系对知识、思维、表达和迁移能力的要求。大模型能否在这些测评中取得稳定成绩,背后考验的是对真实教学和考试场景的理解。
与很多通用大模型不同,讯飞星火并不是先有模型、再寻找教育场景,而是在长期扎根教育场景后,逐步形成了面向真实教学需求的大模型能力。
科大讯飞在教育领域已经深耕22年,AI技术深度应用于全国6万余所小学和中学,在真实课堂教学中完成亿万次师生交互,积累了大量课堂、作业、测评、教研和学情数据。这些数据并不是抽象语料,而是来自真实教育现场。学生如何理解一道题,老师如何讲解一个知识点,课堂中哪些环节容易卡住,作业错误背后对应怎样的能力短板,这些长期沉淀共同构成讯飞星火教育能力的重要基础。
这类积累,使讯飞星火对教育的理解不只停留在「答对题」,而是更接近「理解学生为什么错、老师应该如何教、学习路径应该如何调整」。
在产学研合作上,科大讯飞也持续强化教育大模型的专业底座。例如,科大讯飞与中国教育科学研究院联合研发基于问题链的高中数学助手和科学智能导师,在100多个区县试点中,84.3%的教师反馈相关应用有效助力教学模式创新、启发学生深度思考。科大讯飞还与华南师范大学胡小勇教授团队共同研发问课大模型,开展全国千人同课试点,85%的教师认可循证「问课」分析精准有效,为教研提质提供支撑。
在新高考背景下,命题越来越强调素养导向,呈现「无情境不入题、无思维不命题」的特征。传统刷题模式正在失效,题目不再只是知识点的机械复现,而是把知识放到真实情境、跨学科任务和复杂材料中,考查学生的理解、迁移、探究和表达能力。
这对大模型提出了更高要求。一个真正适合教育场景的大模型,不仅要会调用知识、生成答案,还要能拆解问题、识别关键条件、组织推理步骤,并用符合教学规律的方式表达出来。
因此,讯飞进一步构建以「教学思维链」为驱动的教育深度推理大模型。教学思维链强调的不只是模型内部推理能力,而是将知识理解过程、思维形成路径、问题解决逻辑呈现出来,使AI能够在教学和学习场景中承担更接近助教、学伴和教研助手的角色。
这也是讯飞星火高考成绩领先的重要原因。讯飞星火不是简单地更会刷题,而是更接近教育场景中对「会做题」的真实要求。读得懂题,拆得开题,讲得清过程,知道学生可能在哪里出错,也能用循序渐进的方式引导理解。
从这个角度看,讯飞星火高考成绩靠前,并不是因为更会应试,而是因为更理解教育。这也是教育AI与通用AI最大的区别。
对于教育行业来说,大模型高考成绩的真正价值,不在榜单本身,而在于这些能力能否进入课堂、进入学校、进入家庭,最终转化为真实的教学效果和学习效果。
这一点,已经成为全球AI教育领域的共识。
联合国教科文组织在《生成式AI教育指南》中强调,教育场景中的AI应用应坚持以人为中心,关注安全、公平和教学设计。美国教育部也提出,教育AI不能把教学判断完全交给机器,教师仍应参与教学设计、学习评价等关键环节,确保技术真正服务于学生成长,而不是替代教育本身。
因此,教育AI不能只追求模型越来越强,而必须回答三个更现实的问题。教师愿不愿意用,学生能不能真正学会,学校能否放心部署。
过去一年,全球AI教育产品的发展也在印证这一趋势。
全球AI教育产品正在从单点工具走向完整学习链路。Quizlet、Gauth等产品不再只是提供搜题、闪卡或简单问答,而是在向AI辅导、知识图谱、错因分析和个性化学习系统延伸。
早期AI教育产品更多解决「能不能答」的问题,而现在,行业重点正在转向「能不能教」。AI辅导不再直接给答案,而是通过苏格拉底式引导、语音讲解、实时板书、图像识别、动画演示等方式,把答案转化为学习过程。通用大模型与垂直小模型结合、多模态交互、自适应学习,也正在成为教育AI产品的重要方向。
国际教育产品的发展进一步验证了这一方向。Khan Academy推出的Khanmigo,不是一个答案机器人,而是通过追问、提示和分步引导,启发学生继续思考。斯坦福大学与Saga Education联合开展的Tutor CoPilot研究则发现,AI并非替代教师,而是帮助教师提出更好的问题、给予更有效的反馈,尤其能够提升普通教师的教学支持能力。Duolingo Max的实践也进一步说明,在教育场景中,生成内容只是第一步,真正决定产品价值的,是反馈是否促进理解,解释是否符合学生认知水平,学习是否真正发生。
这些案例共同说明,全球AI教育正在从模型能力竞争走向产品能力竞争。
高考测评验证的是模型是否具备知识理解、推理和表达能力,而教育产品考验的,是另一套更加复杂的能力。能否把正确答案转化为学习过程,把一次反馈转化为持续改进,把教师经验转化为可复制的教学支持,把模型能力真正融入教、学、练、测、评的完整闭环。
这一趋势,也正在国内教育产业中不断落地。以科大讯飞为例,依托22年深耕教育积累的数据、教研能力和真实课堂反馈,科大讯飞围绕教、学、考、评、管构建起覆盖校园和家庭的教育产品体系,将大模型能力应用于智慧课堂、智能批改、英语学习和AI学习机等产品应用。无论是课堂中的启发式教学、作业中的错因诊断,还是家庭学习中的精准学与互动辅导,共同目标都不是替学生完成学习,而是帮助学生更高效地学习,帮助教师更高效地教学。
从这个意义上看,高考成绩只是教育AI的一次能力验证。真正决定行业竞争格局的,是能否把模型能力持续沉淀为教育产品能力。未来,教育AI竞争的不只是模型参数,也不只是榜单排名,而是谁能够真正理解教育规律,把技术转化为课堂效率、学习效果和教育公平。
换句话说,高考能够证明一个大模型会考试,但真正能够决定未来的,是它是否真正懂教育。
热门跟贴