最近很火的一个dy节目,是几个AI大模型大战狼人杀;

模型选取均是各大平台最近三个月内的最强模型(含付费版)。

参战的模型包括:

deepseek、claude、grok、chatgpt、gemini、kimi、豆包、智谱、通义前问、讯飞星火、腾讯元宝、文心一言共计12个大模型。

看了半天,各种演技,推理也是逻辑链拉满,极其精彩,强烈推荐大家去看看。

结果就不说了,看热评差点笑死:

1: 什么时候让deepseek、chatgpt、gemini组队,我要看炸鱼局。

2: 下一把让豆包、文心一言、通义千问、讯飞星火当队友,就要看这四个菜鸡怎么玩。

3: deepseek拿到狼人后,看到chatgpt是队友,爽哉爽哉。

4: 和文心一言在同一边,直接投降算了。

5: deepseek和chatgpt一队几乎没输过,甚至AI之间玩多了之后,把把预言家查它们,导致策划设计了一条新规则:不能首轮查这俩。

6: 热评:来一场中美AI狼人杀大战,热评回复:那不用看了,deepseek也带不动...

7: MVP、SVP基本由deepseek、chatgpt、gemini、grok轮流拿。

从无数局实战的狼人杀游戏中,可以说ai大模型的推理能力毫无悬念的被划分成了四档:

T0级别:gemini、chatgpt、deepseek、grok(逻辑推理能力断档式领先其他)

T1级别:cluade、豆包、通义前问(偶尔有亮眼表现,但不如T0选手)

T2级别:腾讯元宝、KIMI、讯飞星火(水平勉强在线,但很难拿到mvp和svp)

T3级别:智谱、文心一言(文心搞笑第一人,大聪明奖斩获最多,各种离谱操作,承担全场笑点)

所以大家纠结AI的话,选择哪个,就不用我多说了。

国外模型,gemini、chatgpt、grok都很强,但gemini个人感觉最强,也是我用的最多的模型...

只是没想到claude作为今年营收暴增30倍,同时拿到谷歌、微软、亚马逊、英伟达巨额投资的超级网红,竟然在这里只能排在T1,算不上T0。
国内模型来说,deepseek依旧第一,其次豆包和通义也凑合。

文心一言,哈哈哈哈哈….

打开网易新闻 查看精彩图片