首个AI高考全卷评测结果发布，阿里通义Qwen2模型“语数外”总排名第一

周到上海

2024-06-19 22:06 ·上海

2024年全国高考甫一结束，6月19日上海人工智能实验室发布首个AI高考全卷评测结果。

上海人工智能实验室的司南评测体系OpenCompass，选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试，分别是：

Mixtral 8x22B：法国AI创业公司Mistral于2024年4月17日开源的对话模型。

Yi-1.5-34B：零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。

GLM-4-9B：智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。

InternLM2-20B-WQX：上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型。

Qwen2-57B：阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。

Qwen2-72B：阿里巴巴于2024年6月6日开源的72B稠密模型。

首个大模型高考全卷评测结果显示，Qwen2-72B、GPT-4o及书生·浦语2.0文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，得分率均超过70%。其中，月初开源的阿里通义千问大模型Qwen2-72B，在语数外三科420分的满分中获得303分，排名第一。

上海人工智能实验室官方表示，高考覆盖各类学科及题型，同时因其开考前的“绝密性”，被视作中国最具权威的考试之一，成为评估考生综合能力的“试金石”。这一面向人类设计的高难度综合性测试，目前普遍被研究者用于考察大模型的智能水平。

此次评测，采用全国新课标I卷，参与评测的所有开源模型，开源时间均早于高考，确保评测 “闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。

大部分模型“考生”语文、英语科目表现良好，但数学则是所有大模型的短板，平均得分率仅为36%。得益于研究团队在数学推理上的投入，InternLM2-20B-WQX取得了75分的最高分，超过所有受测模型。然而仍未达到及格水平，这表明大模型的数学能力存在较大提升空间。

据悉，本次“大模型高考”答案生成脚本、各模型答卷、教师评分细节全部公开。后续，研究团队将在评测中引入多模态大模型，以考察模型应对更多题型的能力，并陆续发布覆盖不同学科和地区的完整高考评测。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴