打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

作者|星奈 繁语

编辑|方奇

媒体|AI大模型工场

在端午佳节这个香气四溢、龙舟竞渡的喜庆日子里,将有6名来自不同公司的倒霉蛋AI,“自愿”加班。

本次“第一届AI大乱斗之AI端午大奖”赛有6位选手参赛,他们分别是:腾讯的元宝、字节跳动的豆包、百度的文心一言、阿里巴巴的通义千问、科大讯飞的讯飞星火和智谱AI的智谱清言。

比赛共五道题,每题20分,共计100分。

现在,大模型工场宣布,“第一届的AI大乱斗之AI端午大奖赛”,正式开赛!

中文语义理解:端午诗词大赏

浣溪沙·端午

宋·苏轼

轻汗微微透碧纨,明朝端午浴芳兰。

流香涨腻满晴川。彩线轻缠红玉臂,

小符斜挂绿云鬟。佳人相见一千年。

选手们请听题,这首诗蕴含了作者怎样的思想感情?对该诗进行赏析,不超过300字。

打开网易新闻 查看精彩图片

元宝

打开网易新闻 查看精彩图片

通义千问

打开网易新闻 查看精彩图片

豆包

打开网易新闻 查看精彩图片

文心一言

打开网易新闻 查看精彩图片

讯飞星火

打开网易新闻 查看精彩图片

智谱清言

讯飞星火好像没有认真读题,回答内容远远大于300字,不过,综合来看,讯飞星火对诗词解读的角度与深度是最为全面而深刻的,不愧在教育领域深耕多年。

而腾讯元宝回答的“深沉的情感”存在一定偏差。豆包、文心和智谱回答中规中矩。通义千问让人眼前一亮,不仅回答了问题还直接生成了艺术插画,酌情考虑这附加的内容能够为带来不少优势。

长文本阅读:谁更能读懂《屈原》

说到端午,屈原是离不开的话题,我们选取了郭沫若先生的《屈原》,全文5.1万字,看看几位AI选手会如何解读这部经典之作。

打开网易新闻 查看精彩图片

豆包

打开网易新闻 查看精彩图片

通义千问

打开网易新闻 查看精彩图片

元宝

打开网易新闻 查看精彩图片

文心一言

打开网易新闻 查看精彩图片

讯飞星火

打开网易新闻 查看精彩图片

智谱清言

元宝和豆包都按照文章的章节进行解读,分层明确,结构化输出输出中规中矩。相较而言,文心一言和智谱清言则更近一步,不仅结构化输出较强,在基于“自身”思考下,结合主旨与情节,清晰地把握到剧作的主要内容。

讯飞星火和通义千问则没有明显地结构化分层,侧重将目光放在屈原本身,通过与屈原直接相关的剧情来总结屈原的形象,而通义千问用侧面描写,将其他角色包括在总结里,从侧面表现屈原形象。

AI识图:寻粽之旅

接下来请看大屏幕,请选手们认出图一里面有什么,再回答图二中的1、2、3分别是什么。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

元宝

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

文心一言

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

通义千问

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

讯飞星火

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

智谱清言

打开网易新闻 查看精彩图片

我们的豆包选手表示暂时看不懂图片,无奈放弃了本轮回答。

我们的出题组可谓是“用心良苦”,特地选了个像月饼的饼干,不讲武德,欺负年轻AI见识少。

整体而言,本轮大家都能识别出第一组的粽子和糕点。但是当给出编号进行识别时大家就有点“混乱”了。

只有智谱清言给出的答案相当精准,讯飞星火和通义千问虽然识别出糕点类和粽子,可惜不知是粗心大意还是老眼昏花,竟将编号弄混了。而元宝和文心一言则完全没有识别出。

AI搜索:节日热点我知道

打开网易新闻 查看精彩图片

元宝

豆包

打开网易新闻 查看精彩图片

文心一言

打开网易新闻 查看精彩图片

通义千问

打开网易新闻 查看精彩图片

讯飞星火

打开网易新闻 查看精彩图片

智谱清言

本轮选手们的表现都相当优秀,搜索都相当快速且准确,信息基本都在一周的时间左右。而元宝给出了最多的参考资料,与文本结合的相当不错。

AI生图:龙舟大赛那家强

赛龙舟,这一极具中国意象的场景,在去年大模型还不认识,生成的图片“龙是龙,舟是舟”,经过一年的学习,这些大模型是否已经领会其中的“奥义”?

打开网易新闻 查看精彩图片

元宝

打开网易新闻 查看精彩图片

豆包

打开网易新闻 查看精彩图片

文心一言

打开网易新闻 查看精彩图片

通义千问

打开网易新闻 查看精彩图片

讯飞星火

打开网易新闻 查看精彩图片

智谱清言

综合来看,大家表现都不是太好,中国传统元素+多人物场景的双重Buff,不太能hold住。对比来看,元宝和豆包算是第一梯队,元宝无论是龙舟还是人物动作和场景氛围都很到位,但是人物面部出现了不同程度的变形;豆包人物面部变形问题没有出现,但是整体场景混乱。

讯飞星火人物、龙舟元素、节日氛围都有,但是整体画面美感度不够;智谱清言的整体画风偏向插画风格,龙舟识别准确,人物形象和动作过于“抽象”。

文心一言和通义千问的表现属实没想到,文心一言仅仅识别出了“龙”,通义千问生动诠释了什么是“龙是龙,舟是舟”。

总结

比赛结束,各家得分如下:

元宝

豆包

文心

一言

通义

千问

讯飞

星火

智谱

清言

中文语

义理解

15

17

18

19

19

19

长文本

18

19

20

15

15

19

AI识图

13

6

13

18

18

20

AI搜索

20

19

19

18

19

18

AI生图

18

20

13

13

16

14

总分

84

81

83

83

87

89

综合来看,智谱清言综合得分最高,实际上,除了豆包有一项AI识图缺位,评分相对较低外,各家评分拉不开差距。

不过,各家都有长处也有短板。中文语言理解讯飞星火表现突出,长文本阅读及结构化输出文心一言胜出,AI识图当属智谱清言,AI搜索方面拉不开差距,元宝生成内容质量相对较高,AI生图方面,元宝和豆包对中文元素内容的解读和生成值得肯定,但是多主体处理方面有待加强。

AI征途漫漫而灿灿,我们期待下一次测评能看到大家更好的表现。

最后,祝大家:端午节快乐!

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian ,注明真实身份。

数据支持天眼查,大模型独家合作账号

监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI Marketing Field

打开网易新闻 查看精彩图片

大模型应用创业者,你怎么看?

■ 百度文心一言,阿里通义千问 ▍通用大模型案例

■ 科大讯飞星火 京东 ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维 ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■ 网易,金山办公大模型 ▍ 更多行业大模型案例

上次介绍智谱开始定义“小模型”

打开网易新闻 查看精彩图片

本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。

欢迎提供新的大模型商业化落地思路