上海人工智能实验室近期公布了首个针对人工智能模型的高考全卷评测结果。这次评测涵盖了语文、数学和英语三门科目,总分满分为420分。根据评测结果,参与测试的人工智能模型在语文英语方面表现较好,但在数学部分则全部不及格,最高分仅为75分。

评测背景与目的: 评测由上海人工智能实验室旗下司南评测体系OpenCompass进行,旨在评估AI模型在高考“语数外”三科全卷的能力。

参与评测的模型包括6个开源模型及OpenAI的GPT-4o,确保所有模型在高考前已开源,保证评测的“闭卷”性。

评测方法与标准: 评测采用全国新课标I卷,确保与真实高考具有相同的难度和考察范围。

成绩由具有高考评卷经验的教师人工评判,以更接近真实阅卷标准。

模型测评分别为:

阿里通义千问2-72B模型在综合评测中排名第一,总分达到了303分。

OpenAI的GPT-4o模型紧随其后,获得了296分。

上海人工智能实验室自家的“书生·浦语”2.0模型位列第三。

这三个模型的得分率均超过了70%,显示出它们在语文和英语方面的强大理解与生成能力。

法国大模型初创公司Mistral的模型在这次评测中排名最末。

所有模型在数学部分的表现不佳,没有一个模型能够达到及格线。

详细分析: 语文与英语:大部分模型在这两科中表现良好,语文平均得分率为67%,英语更是达到了81%。

数学: 成为所有大模型的短板,平均得分率仅为36%,且无一及格。其中,书生·浦语2.0文曲星(InternLM2-20B-WQX)取得了75分的最高分,但仍未达到及格水平(及格分数通常为90分或满分的60%)。

其他参与模型:法国AI创业公司Mistral的Mixtral 8x22B模型、零一万物公司的Yi-1.5-34B模型、智谱AI的GLM-4-9B、阿里巴巴的通义千问Qwen2系列的混合专家(MoE)模型Qwen2-57B-A14B也参与了评测,但得分相对较低。

版权声明: 图片和内容 来源互联网