OpenAI长期霸榜的SuperCLUE(中文大模型测评基准),有了新“头雁”。

自SuperCLUE问世以来,GPT-4、GPT-4 Turbo先后六次占据榜首位置。最近,商汤日日新5.0(SenseChat V5)“申请出战”,以总分80.03分的优异成绩刷新国内最好成绩,并且在中文综合成绩上超越GPT-4-Turbo-0125——这也是国内大模型首次在SuperCLUE中文基准测试中超越GPT-4 Turbo实现登顶。

打开网易新闻 查看精彩图片

采访对象供图(下同)

SuperCLUE综合性测评基准4月评测集,含2194道多轮简答题,覆盖理科与文科两大能力,包括计算、逻辑推理、代码、长文本在内的基础十大任务。在本次测评中,SenseChat V5在各项能力上表现较为均衡,尤其在长文本、生成创作、角色扮演、安全能力、工具使用上处于全球领先位置——

SenseChat V5在文科任务上表现出色,取得82.20的高分,国内外模型中排名第一,较GPT-4-Turbo-0125高4.40分。其中,知识百科(82.4)、长文本(79.2)、角色扮演(80.4)、语义理解(81.6)、生成创作(79.4)、传统安全(90.2)均刷新国内最好成绩。

SenseChat V5在理科任务上表现不俗,取得76.78分,国内模型中排名第一,较GPT-4-Turbo-0125低4.35分,还有一定提升空间。其中,计算(80.6)、逻辑推理(73.8)、工具使用(80.8)均刷新国内最好成绩;在代码能力上还有一定优化空间。

打开网易新闻 查看精彩图片

SuperCLUE工作组发现:将SenseChat V5与国内大模型平均得分对比,SenseChat V5在所有能力上均高于平均线,展现出较均衡的综合能力,尤其在计算(+16.15)、逻辑推理(+18.89)、代码(+19.06)、长文本(+21.16)能力上远高出平均线15分以上。

在与国外代表大模型对比时SuperCLUE的工作组发现,SenseChat V5在文科类中文任务上好于国外大模型,尤其在长文本、生成创作能力较为领先。

打开网易新闻 查看精彩图片

4月23日,商汤科技正式发布全新大模型日日新5.0(SenseChat V5),采用混合专家架构(MoE),参数量高达6000亿,支持200K的上下文窗口。此次SenseChat V5模型能力显著提升,其背后是训练数据的全面升级与训练方法的有效提升,以及商汤AI大装置算力设施与算法设计的联合调优。

新民晚报记者 郜阳