诗词大赏、寻粽之旅、龙舟大赛......第一届AI端午大奖，谁摘桂冠？

AI大模型工场

2024-06-10 10:43 ·北京

作者｜星奈繁语

编辑｜方奇

媒体｜AI大模型工场

在端午佳节这个香气四溢、龙舟竞渡的喜庆日子里，将有6名来自不同公司的倒霉蛋AI，“自愿”加班。

本次“第一届AI大乱斗之AI端午大奖”赛有6位选手参赛，他们分别是：腾讯的元宝、字节跳动的豆包、百度的文心一言、阿里巴巴的通义千问、科大讯飞的讯飞星火和智谱AI的智谱清言。

比赛共五道题，每题20分，共计100分。

现在，大模型工场宣布，“第一届的AI大乱斗之AI端午大奖赛”，正式开赛！

中文语义理解：端午诗词大赏

浣溪沙·端午

宋·苏轼

轻汗微微透碧纨，明朝端午浴芳兰。

流香涨腻满晴川。彩线轻缠红玉臂，

小符斜挂绿云鬟。佳人相见一千年。

选手们请听题，这首诗蕴含了作者怎样的思想感情？对该诗进行赏析，不超过300字。

元宝

通义千问

文心一言

讯飞星火

智谱清言

讯飞星火好像没有认真读题，回答内容远远大于300字，不过，综合来看，讯飞星火对诗词解读的角度与深度是最为全面而深刻的，不愧在教育领域深耕多年。

而腾讯元宝回答的“深沉的情感”存在一定偏差。豆包、文心和智谱回答中规中矩。通义千问让人眼前一亮，不仅回答了问题还直接生成了艺术插画，酌情考虑这附加的内容能够为带来不少优势。

长文本阅读：谁更能读懂《屈原》

说到端午，屈原是离不开的话题，我们选取了郭沫若先生的《屈原》，全文5.1万字，看看几位AI选手会如何解读这部经典之作。

豆包

通义千问

元宝

文心一言

讯飞星火

智谱清言

元宝和豆包都按照文章的章节进行解读，分层明确，结构化输出输出中规中矩。相较而言，文心一言和智谱清言则更近一步，不仅结构化输出较强，在基于“自身”思考下，结合主旨与情节，清晰地把握到剧作的主要内容。

讯飞星火和通义千问则没有明显地结构化分层，侧重将目光放在屈原本身，通过与屈原直接相关的剧情来总结屈原的形象，而通义千问用侧面描写，将其他角色包括在总结里，从侧面表现屈原形象。

AI识图：寻粽之旅

接下来请看大屏幕，请选手们认出图一里面有什么，再回答图二中的1、2、3分别是什么。

元宝

文心一言

通义千问

讯飞星火

智谱清言

我们的豆包选手表示暂时看不懂图片，无奈放弃了本轮回答。

我们的出题组可谓是“用心良苦”，特地选了个像月饼的饼干，不讲武德，欺负年轻AI见识少。

整体而言，本轮大家都能识别出第一组的粽子和糕点。但是当给出编号进行识别时大家就有点“混乱”了。

只有智谱清言给出的答案相当精准，讯飞星火和通义千问虽然识别出糕点类和粽子，可惜不知是粗心大意还是老眼昏花，竟将编号弄混了。而元宝和文心一言则完全没有识别出。

AI搜索：节日热点我知道

元宝

豆包

文心一言

通义千问

讯飞星火

智谱清言

本轮选手们的表现都相当优秀，搜索都相当快速且准确，信息基本都在一周的时间左右。而元宝给出了最多的参考资料，与文本结合的相当不错。

AI生图：龙舟大赛那家强

赛龙舟，这一极具中国意象的场景，在去年大模型还不认识，生成的图片“龙是龙，舟是舟”，经过一年的学习，这些大模型是否已经领会其中的“奥义”？

元宝

豆包

文心一言

通义千问

讯飞星火

智谱清言

综合来看，大家表现都不是太好，中国传统元素+多人物场景的双重Buff，不太能hold住。对比来看，元宝和豆包算是第一梯队，元宝无论是龙舟还是人物动作和场景氛围都很到位，但是人物面部出现了不同程度的变形；豆包人物面部变形问题没有出现，但是整体场景混乱。

讯飞星火人物、龙舟元素、节日氛围都有，但是整体画面美感度不够；智谱清言的整体画风偏向插画风格，龙舟识别准确，人物形象和动作过于“抽象”。

文心一言和通义千问的表现属实没想到，文心一言仅仅识别出了“龙”，通义千问生动诠释了什么是“龙是龙，舟是舟”。

总结

比赛结束，各家得分如下：

元宝

豆包

文心

一言

通义

千问

讯飞

星火

智谱

清言

中文语

义理解

15

17

18

19

19

19

长文本

18

19

20

15

15

19

AI识图

13

6

13

18

18

20

AI搜索

20

19

19

18

19

18

AI生图

18

20

13

13

16

14

总分

84

81

83

83

87

89

综合来看，智谱清言综合得分最高，实际上，除了豆包有一项AI识图缺位，评分相对较低外，各家评分拉不开差距。

不过，各家都有长处也有短板。中文语言理解讯飞星火表现突出，长文本阅读及结构化输出文心一言胜出，AI识图当属智谱清言，AI搜索方面拉不开差距，元宝生成内容质量相对较高，AI生图方面，元宝和豆包对中文元素内容的解读和生成值得肯定，但是多主体处理方面有待加强。

AI征途漫漫而灿灿，我们期待下一次测评能看到大家更好的表现。

最后，祝大家：端午节快乐！

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」，覆盖超1000位AIGC圈，百度大模型业务负责人，京东大模型业务负责人，腾讯大模型业务人，阿里云大模型技术负责人，科大讯飞大模型公关，商汤大模型业务，阅文大模型公关，360大模型公关负责人都在群里啦，欢迎大模型业务负责人加入。请加微信fqq2000nian ，注明真实身份。

数据支持天眼查，大模型独家合作账号

监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI Marketing Field

大模型应用创业者，你怎么看？

■ 百度文心一言，阿里通义千问 ▍通用大模型案例

■ 科大讯飞星火京东 ▍产业大模型案例

■ 商汤日日新、腾讯，昆仑万维 ▍ 金融大模型案例

■ 盘古大模型，中国电信，医联 ▍医疗大模型案例

■阅文大模型，腾讯音乐大模型 ▍ 文娱大模型案例

■知乎，360大模型，火山引擎 ▍ 教育大模型案例

■ 网易，金山办公大模型 ▍ 更多行业大模型案例

上次介绍智谱开始定义“小模型”

本文由大模型领域垂直媒体「AI大模型工场」

原创出品，未经许可，请勿转载。

欢迎提供新的大模型商业化落地思路

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴