前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。

语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

6月19日,“Al高考测试最高分303”话题也因此火上热搜,引发了社会各界对AI教育能力的深入思考和讨论。

此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型,以及来自OpenAI的闭源模型GPT-4o。实验室表示,因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前(2024年4月-6月)开源,避免了“刷题风险”。

从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。

数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。

对于此次测试细节,上海人工智能实验室介绍,评测采用全国新课标I卷,“语数外”三科全卷测试,包括客观题与主观题。成绩由具备高考评卷经验的老师匿名人工判分,阅卷开始前,阅卷教师未被告知答卷均由模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。

值得注意的是,大模型犯错误的方式和人类考生有差异,从实践上来看阅卷老师们不完全适应给大模型评分,因此存在有题目误判的可能。实验室表示,每个题目都邀请了至少三位老师评阅取均分,团队对分差较大的题目还进行了再次审核,贴近高考真实阅卷标准。

阅卷教师眼中的大模型“考生”

语文:

模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。

大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法 。

多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。

数学:

大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。

大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。

英语:

英语整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。

大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。

除了司南评测体系OpenCompass,新京报也选取了4名有代表性的大模型“考生”,分别是九章大模型、星火大模型(v3.5版本)、文心一言(3.5版)、智谱清言(GLM-4),选取2024全国高考数学新课标I卷客观题部分进行了测评。

据新京报记者统计,14道题目中,九章大模型共答对11道,星火大模型共答对12道,二者不相上下。而另外两位差别较大,文心一言共答对1道,智谱清言共答对4道。

四位“考生”表现参差不齐

最终统计结果显示,四位“考生”此次作答正确率从高到低依次为星火大模型(85.71%)、九章大模型(78.57%)、智谱清言(28.57%)、文心一言(7.14%)。

从不同题目类型的答题情况来看,九章大模型8道单选题全部答对,3道多选题答错2道,3道填空题答错1道;星火大模型单选题全部答对,多选题答错2道,填空题全部答对;文心一言仅答对1道单选题;智谱清言仅答对3道单选、1道多选(另有3道题目因大模型提示无法识别图片未参与作答)。

需要指出的是,由于测试的是客观题,上述正确率仅根据大模型作答的最终选项进行判断和统计,不涉及解题过程。但记者在测评过程中注意到,的确存在不少选项正确、但解题过程存在差错及瑕疵的情况。

有数学教研专家对四个大模型的表现分别作出点评。他认为,九章大模型回答较为简单,缺少深入分析,部分题目的表达力度也比较低,回答也不够全面。星火大模型的分析有一定的深度和见解,但有些地方的回答不够简洁,有的题目的回答不够准确,在表述和数学符号的应用上存在一些问题。 文心一言(3.5版)思考比较全面,方方面面都会涵盖,由此推测前期建模分类分得比较细,语言表达相对来说也比较流畅。但回答特别冗长,也没有重点,答案也存在一些偏差。智谱清言的解答比较简洁,一般会直接回应题目,也有一定的逻辑性和条理性,但答案不是特别详细,也没有深入分析。有些题目的回答和标准答案的匹配度不高,有些题目虽然答对了,但会漏掉一些关键点。

大模型的数学能力取决于算法和数据量

中国社科院新闻与传播研究所所长胡正荣指出,大模型虽然是语言模型,但这个语言不是人们通常理解的字面意思,音频、解题等都是大模型可以做的。从理论上看,数学大模型这个技术方向是可行的,但最终结果如何,取决于两个因素,一是算法是不是足够好,二是是否有足够量的数据做支撑。

数据是大模型最基本的要素之一,如果要让大模型解题精准,那么训练大模型的数据量需要足够大。“正确率的差别,一方面是因为输入的数据量的差别造成的。”之所以大模型解数学题会出错、没有达到理想效果,就是因为训练的题库不够大,数据量越大、质量越高,精准度就会越好。

另一方面,胡正荣也强调了算法的重要性。“如果大模型的算法不够聪明,不是真正的数学思维,也会影响到答题的正确率。”

版权声明:【我们尊重原创,本文转自数学大师。文字美图素材,版权均属于原作者。部分文章推送时因种种原因未能与原作者联系上,若我司推广的内容涉及版权问题,请及时联系,我们将在第一时间删除,谢谢】