AI狼人杀决战，谁是国内推理天花板....

思哲与创富

2026-04-27 10:28 ·浙江 ·优质财经领域创作者

最近很火的一个dy节目，是几个AI大模型大战狼人杀；

模型选取均是各大平台最近三个月内的最强模型（含付费版）。

参战的模型包括：

deepseek、claude、grok、chatgpt、gemini、kimi、豆包、智谱、通义前问、讯飞星火、腾讯元宝、文心一言共计12个大模型。

看了半天，各种演技，推理也是逻辑链拉满，极其精彩，强烈推荐大家去看看。

结果就不说了，看热评差点笑死：

1: 什么时候让deepseek、chatgpt、gemini组队，我要看炸鱼局。

2: 下一把让豆包、文心一言、通义千问、讯飞星火当队友，就要看这四个菜鸡怎么玩。

3: deepseek拿到狼人后，看到chatgpt是队友，爽哉爽哉。

4: 和文心一言在同一边，直接投降算了。

5: deepseek和chatgpt一队几乎没输过，甚至AI之间玩多了之后，把把预言家查它们，导致策划设计了一条新规则：不能首轮查这俩。

6: 热评：来一场中美AI狼人杀大战，热评回复：那不用看了，deepseek也带不动...

7: MVP、SVP基本由deepseek、chatgpt、gemini、grok轮流拿。

从无数局实战的狼人杀游戏中，可以说ai大模型的推理能力毫无悬念的被划分成了四档：

T0级别：gemini、chatgpt、deepseek、grok（逻辑推理能力断档式领先其他）

T1级别：cluade、豆包、通义前问（偶尔有亮眼表现，但不如T0选手）

T2级别：腾讯元宝、KIMI、讯飞星火（水平勉强在线，但很难拿到mvp和svp）

T3级别：智谱、文心一言（文心搞笑第一人，大聪明奖斩获最多，各种离谱操作，承担全场笑点）

所以大家纠结AI的话，选择哪个，就不用我多说了。

国外模型，gemini、chatgpt、grok都很强，但gemini个人感觉最强，也是我用的最多的模型...

只是没想到claude作为今年营收暴增30倍，同时拿到谷歌、微软、亚马逊、英伟达巨额投资的超级网红，竟然在这里只能排在T1，算不上T0。
国内模型来说，deepseek依旧第一，其次豆包和通义也凑合。

文心一言，哈哈哈哈哈….

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴