作者|星奈 繁语
编辑|方奇
媒体|AI大模型工场
在端午佳节这个香气四溢、龙舟竞渡的喜庆日子里,将有6名来自不同公司的倒霉蛋AI,“自愿”加班。
本次“第一届AI大乱斗之AI端午大奖”赛有6位选手参赛,他们分别是:腾讯的元宝、字节跳动的豆包、百度的文心一言、阿里巴巴的通义千问、科大讯飞的讯飞星火和智谱AI的智谱清言。
比赛共五道题,每题20分,共计100分。
现在,大模型工场宣布,“第一届的AI大乱斗之AI端午大奖赛”,正式开赛!
中文语义理解:端午诗词大赏
浣溪沙·端午
宋·苏轼
轻汗微微透碧纨,明朝端午浴芳兰。
流香涨腻满晴川。彩线轻缠红玉臂,
小符斜挂绿云鬟。佳人相见一千年。
选手们请听题,这首诗蕴含了作者怎样的思想感情?对该诗进行赏析,不超过300字。
元宝
通义千问
文心一言
讯飞星火
智谱清言
讯飞星火好像没有认真读题,回答内容远远大于300字,不过,综合来看,讯飞星火对诗词解读的角度与深度是最为全面而深刻的,不愧在教育领域深耕多年。
而腾讯元宝回答的“深沉的情感”存在一定偏差。豆包、文心和智谱回答中规中矩。通义千问让人眼前一亮,不仅回答了问题还直接生成了艺术插画,酌情考虑这附加的内容能够为带来不少优势。
长文本阅读:谁更能读懂《屈原》
说到端午,屈原是离不开的话题,我们选取了郭沫若先生的《屈原》,全文5.1万字,看看几位AI选手会如何解读这部经典之作。
豆包
通义千问
元宝
文心一言
讯飞星火
智谱清言
元宝和豆包都按照文章的章节进行解读,分层明确,结构化输出输出中规中矩。相较而言,文心一言和智谱清言则更近一步,不仅结构化输出较强,在基于“自身”思考下,结合主旨与情节,清晰地把握到剧作的主要内容。
讯飞星火和通义千问则没有明显地结构化分层,侧重将目光放在屈原本身,通过与屈原直接相关的剧情来总结屈原的形象,而通义千问用侧面描写,将其他角色包括在总结里,从侧面表现屈原形象。
AI识图:寻粽之旅
接下来请看大屏幕,请选手们认出图一里面有什么,再回答图二中的1、2、3分别是什么。
元宝
文心一言
通义千问
讯飞星火
智谱清言
我们的豆包选手表示暂时看不懂图片,无奈放弃了本轮回答。
我们的出题组可谓是“用心良苦”,特地选了个像月饼的饼干,不讲武德,欺负年轻AI见识少。
整体而言,本轮大家都能识别出第一组的粽子和糕点。但是当给出编号进行识别时大家就有点“混乱”了。
只有智谱清言给出的答案相当精准,讯飞星火和通义千问虽然识别出糕点类和粽子,可惜不知是粗心大意还是老眼昏花,竟将编号弄混了。而元宝和文心一言则完全没有识别出。
AI搜索:节日热点我知道
元宝
豆包
文心一言
通义千问
讯飞星火
智谱清言
本轮选手们的表现都相当优秀,搜索都相当快速且准确,信息基本都在一周的时间左右。而元宝给出了最多的参考资料,与文本结合的相当不错。
AI生图:龙舟大赛那家强
赛龙舟,这一极具中国意象的场景,在去年大模型还不认识,生成的图片“龙是龙,舟是舟”,经过一年的学习,这些大模型是否已经领会其中的“奥义”?
元宝
豆包
文心一言
通义千问
讯飞星火
智谱清言
综合来看,大家表现都不是太好,中国传统元素+多人物场景的双重Buff,不太能hold住。对比来看,元宝和豆包算是第一梯队,元宝无论是龙舟还是人物动作和场景氛围都很到位,但是人物面部出现了不同程度的变形;豆包人物面部变形问题没有出现,但是整体场景混乱。
讯飞星火人物、龙舟元素、节日氛围都有,但是整体画面美感度不够;智谱清言的整体画风偏向插画风格,龙舟识别准确,人物形象和动作过于“抽象”。
文心一言和通义千问的表现属实没想到,文心一言仅仅识别出了“龙”,通义千问生动诠释了什么是“龙是龙,舟是舟”。
总结
比赛结束,各家得分如下:
元宝
豆包
文心
一言
通义
千问
讯飞
星火
智谱
清言
中文语
义理解
15
17
18
19
19
19
长文本
18
19
20
15
15
19
AI识图
13
6
13
18
18
20
AI搜索
20
19
19
18
19
18
AI生图
18
20
13
13
16
14
总分
84
81
83
83
87
89
综合来看,智谱清言综合得分最高,实际上,除了豆包有一项AI识图缺位,评分相对较低外,各家评分拉不开差距。
不过,各家都有长处也有短板。中文语言理解讯飞星火表现突出,长文本阅读及结构化输出文心一言胜出,AI识图当属智谱清言,AI搜索方面拉不开差距,元宝生成内容质量相对较高,AI生图方面,元宝和豆包对中文元素内容的解读和生成值得肯定,但是多主体处理方面有待加强。
AI征途漫漫而灿灿,我们期待下一次测评能看到大家更好的表现。
最后,祝大家:端午节快乐!
AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian ,注明真实身份。
数据支持天眼查,大模型独家合作账号
监制 / 刘老师
编辑 / AIGCCCCC
视觉 / 大模型
微博 / @AI大模型工场
TG/AI Marketing Field
大模型应用创业者,你怎么看?
■ 百度文心一言,阿里通义千问 ▍通用大模型案例
■ 科大讯飞星火 京东 ▍产业大模型案例
■ 商汤日日新、腾讯,昆仑万维 ▍ 金融大模型案例
■ 盘古大模型,中国电信,医联 ▍医疗大模型案例
■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例
■知乎,360大模型,火山引擎 ▍ 教育大模型案例
■ 网易,金山办公大模型 ▍ 更多行业大模型案例
上次介绍智谱开始定义“小模型”
本文由大模型领域垂直媒体「AI大模型工场」
原创出品,未经许可,请勿转载。
欢迎提供新的大模型商业化落地思路
热门跟贴