火上热搜！AI高考“翻车”？数学全不及格|ai高考|不及格|数学|正确率|英语|语文

前不久高考结束后，上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日， OpenCompass发布了首个大模型高考全卷评测结果。

语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分，OpenAI的GPT-4o排名第二，得分296分，上海人工智能实验室的书生·浦语2.0排名第三，三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

6月19日，“Al高考测试最高分303”话题也因此火上热搜，引发了社会各界对AI教育能力的深入思考和讨论。

此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型，以及来自OpenAI的闭源模型GPT-4o。实验室表示，因无法确定闭源模型的更新时间，为公平起见，此次评测没有纳入商用闭源模型，仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前（2024年4月-6月）开源，避免了“刷题风险”。

从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分，来自书生·浦语2.0，其次是GPT-4o，得分73分。语文最高分是通义千问，英语最高分是GPT-4o。

在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力，这是大模型普遍面临的难题，也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。

对于此次测试细节，上海人工智能实验室介绍，评测采用全国新课标I卷，“语数外”三科全卷测试，包括客观题与主观题。成绩由具备高考评卷经验的老师匿名人工判分，阅卷开始前，阅卷教师未被告知答卷均由模型生成，使阅卷教师完全以面对真实考生的标准评判回答效果。

值得注意的是，大模型犯错误的方式和人类考生有差异，从实践上来看阅卷老师们不完全适应给大模型评分，因此存在有题目误判的可能。实验室表示，每个题目都邀请了至少三位老师评阅取均分，团队对分差较大的题目还进行了再次审核，贴近高考真实阅卷标准。

阅卷教师眼中的大模型“考生”

语文：

模型的现代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。

大模型作文更像问答题，虽然有针对性但缺乏修饰，几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。

多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”，大模型尚无法完全理解。

数学：

大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。

大模型的公式记忆能力较强，但是无法在解题过程中灵活引用。

英语：

英语整体表现良好，但部分模型由于不适应题型，在七选五、完形填空等题型得分率较低。

大模型英语作文普遍存在因超出字数限制而扣分的情况，而人类考生多因为字数不够扣分。

除了司南评测体系OpenCompass，新京报也选取了4名有代表性的大模型“考生”，分别是九章大模型、星火大模型（v3.5版本）、文心一言（3.5版）、智谱清言（GLM-4），选取2024全国高考数学新课标I卷客观题部分进行了测评。

据新京报记者统计，14道题目中，九章大模型共答对11道，星火大模型共答对12道，二者不相上下。而另外两位差别较大，文心一言共答对1道，智谱清言共答对4道。

四位“考生”表现参差不齐

最终统计结果显示，四位“考生”此次作答正确率从高到低依次为星火大模型（85.71%）、九章大模型（78.57%）、智谱清言（28.57%）、文心一言（7.14%）。

从不同题目类型的答题情况来看，九章大模型8道单选题全部答对，3道多选题答错2道，3道填空题答错1道；星火大模型单选题全部答对，多选题答错2道，填空题全部答对；文心一言仅答对1道单选题；智谱清言仅答对3道单选、1道多选（另有3道题目因大模型提示无法识别图片未参与作答）。

需要指出的是，由于测试的是客观题，上述正确率仅根据大模型作答的最终选项进行判断和统计，不涉及解题过程。但记者在测评过程中注意到，的确存在不少选项正确、但解题过程存在差错及瑕疵的情况。

有数学教研专家对四个大模型的表现分别作出点评。他认为，九章大模型回答较为简单，缺少深入分析，部分题目的表达力度也比较低，回答也不够全面。星火大模型的分析有一定的深度和见解，但有些地方的回答不够简洁，有的题目的回答不够准确，在表述和数学符号的应用上存在一些问题。文心一言（3.5版）思考比较全面，方方面面都会涵盖，由此推测前期建模分类分得比较细，语言表达相对来说也比较流畅。但回答特别冗长，也没有重点，答案也存在一些偏差。智谱清言的解答比较简洁，一般会直接回应题目，也有一定的逻辑性和条理性，但答案不是特别详细，也没有深入分析。有些题目的回答和标准答案的匹配度不高，有些题目虽然答对了，但会漏掉一些关键点。

大模型的数学能力取决于算法和数据量

中国社科院新闻与传播研究所所长胡正荣指出，大模型虽然是语言模型，但这个语言不是人们通常理解的字面意思，音频、解题等都是大模型可以做的。从理论上看，数学大模型这个技术方向是可行的，但最终结果如何，取决于两个因素，一是算法是不是足够好，二是是否有足够量的数据做支撑。

数据是大模型最基本的要素之一，如果要让大模型解题精准，那么训练大模型的数据量需要足够大。“正确率的差别，一方面是因为输入的数据量的差别造成的。”之所以大模型解数学题会出错、没有达到理想效果，就是因为训练的题库不够大，数据量越大、质量越高，精准度就会越好。

另一方面，胡正荣也强调了算法的重要性。“如果大模型的算法不够聪明，不是真正的数学思维，也会影响到答题的正确率。”