最近很火的一个dy节目,是几个AI大模型大战狼人杀;
模型选取均是各大平台最近三个月内的最强模型(含付费版)。
参战的模型包括:
deepseek、claude、grok、chatgpt、gemini、kimi、豆包、智谱、通义前问、讯飞星火、腾讯元宝、文心一言共计12个大模型。
看了半天,各种演技,推理也是逻辑链拉满,极其精彩,强烈推荐大家去看看。
结果就不说了,看热评差点笑死:
1: 什么时候让deepseek、chatgpt、gemini组队,我要看炸鱼局。
2: 下一把让豆包、文心一言、通义千问、讯飞星火当队友,就要看这四个菜鸡怎么玩。
3: deepseek拿到狼人后,看到chatgpt是队友,爽哉爽哉。
4: 和文心一言在同一边,直接投降算了。
5: deepseek和chatgpt一队几乎没输过,甚至AI之间玩多了之后,把把预言家查它们,导致策划设计了一条新规则:不能首轮查这俩。
6: 热评:来一场中美AI狼人杀大战,热评回复:那不用看了,deepseek也带不动...
7: MVP、SVP基本由deepseek、chatgpt、gemini、grok轮流拿。
从无数局实战的狼人杀游戏中,可以说ai大模型的推理能力毫无悬念的被划分成了四档:
T0级别:gemini、chatgpt、deepseek、grok(逻辑推理能力断档式领先其他)
T1级别:cluade、豆包、通义前问(偶尔有亮眼表现,但不如T0选手)
T2级别:腾讯元宝、KIMI、讯飞星火(水平勉强在线,但很难拿到mvp和svp)
T3级别:智谱、文心一言(文心搞笑第一人,大聪明奖斩获最多,各种离谱操作,承担全场笑点)
所以大家纠结AI的话,选择哪个,就不用我多说了。
国外模型,gemini、chatgpt、grok都很强,但gemini个人感觉最强,也是我用的最多的模型...
只是没想到claude作为今年营收暴增30倍,同时拿到谷歌、微软、亚马逊、英伟达巨额投资的超级网红,竟然在这里只能排在T1,算不上T0。
国内模型来说,deepseek依旧第一,其次豆包和通义也凑合。
文心一言,哈哈哈哈哈….
热门跟贴