2023年4月,商汤首次推出 “日日新大模型1.0”版本,迅速成为了当时国内最全面的大模型之一;随后的8月份,商汤继续发力,发布了“日日新2.0”版本,在国内首次实现了性能上超越GPT-3.5-Turbo。同年12月,“日日新3.0”版本进一步提升,开创了支持不同模态工具调用的先河。同时,文生图模型“秒画”也获得了重大升级,不仅在语义理解和图像质感上有了显著提升,还在推理速度上实现了十倍的加速效果。

进入2024年,商汤在AI领域的迭代更为迅速。2月份推出的“日日新4.0”在性能上大幅跃升,在代码编写、数据分析和医疗问答等多个应用场景中,展现出了与GPT-4相匹敌的能力。4月23日,商汤科技正式发布全新大模型日日新5.0(SenseChat V5),采用混合专家架构(MoE),参数量高达6000亿,支持200K的上下文窗口。据官方披露,SenseChat V5具备更强的知识、数学、推理及代码能力,综合性能全面对标GPT-4 Turbo。

来源于SuperClue公众号
打开网易新闻 查看精彩图片
来源于SuperClue公众号

SuperCLUE是2019年于CLUE学术社区最新发布的中文通用大模型综合性评测基准,是被行业广泛认可的AI大模型权威评测榜单。

那么,SenseChat V5在SuperCLUE中文基准上的表现如何呢?与国内外代表性大模型相比处于什么位置?在各项基础能力上如计算推理、长文本、代码生成、生成创作上会有怎样的表现?

SuperCLUE团队对SenseChat V5在SuperCLUE通用大模型综合性中文测评基准上,进行了全方位综合性测评。

来源于SuperClue公众号
打开网易新闻 查看精彩图片
来源于SuperClue公众号

在SuperCLUE通用综合测评基准上,SenseChat V5取得80.03分,表现非常出色,刷新国内大模型最好成绩。并且,SenseChat V5在中文综合能力上较GPT-4-Turbo-0125高0.9分。

打开网易新闻 查看精彩图片
来源于SuperClue公众号
打开网易新闻 查看精彩图片
来源于SuperClue公众号

SenseChat V5在理科任务上表现不俗,取得76.78分,国内模型中排名第一,不过较GPT-4-Turbo-0125低4.35分,还有一定提升空间。其中,计算(80.6)、逻辑推理(73.8)、工具使用(80.8)均刷新国内最好成绩;在代码能力上还有一定优化空间。

SenseChat V5在文科任务上表现的很出色,取得了82.20的高分,国内外模型中排名第一,较GPT-4-Turbo-0125高4.40分。其中,知识百科(82.4)、长文本(79.2)、角色扮演(80.4)、语义理解(81.6)、生成创作(79.4)、传统安全(90.2)均刷新国内最好成绩。

来源于SuperClue公众号
打开网易新闻 查看精彩图片
来源于SuperClue公众号

从数据结果来看,SenseChat V5在各项能力上表现较为均衡,尤其在长文本、生成创作、角色扮演、安全能力、工具使用上处于全球领先位置,适用于智能体、内容创作、长程对话等应用场景,由此可见,SenseChat V5已经终结 GPT-4Turbo 评测霸榜的历史。

相信在未来,人工智能领域仍有着广阔的应用前景和巨大的发展潜力。同时,我们也期待更多的企业和研究机构能够加入到这一领域的研究和探索中来,共同推动人工智能技术的创新和应用。