来源:市场资讯
(来源:AI信息Gap)
DeepSeek-V4 的成绩单,出来了。
这两天,Arena、Vals AI、Artificial Analysis 三个主流第三方榜单陆续更新了数据。
先说结论。
开源榜单前 3。综合榜单冲进前 10。
同为开源模型,DeepSeek-V4-Pro 和 GLM-5.1、Kimi-K2.6 打得有来有回。
01|Arena 大模型竞技场
V4-Pro 非思考模式 1463 分,思考模式 1462 分,分列开源榜第 2、3 名。
在它前面的是 GLM-5.1,1470 分。
Arena 官方评价:
「相较 V3.2 的重大飞跃。」
上一代 V3.2 思考模式 1425 分,已经跌落至综合榜单的第 63 名。V4-Pro 目前第 20 名。
02|Vals AI
Vals AI 有两个榜,Vibe Code Bench 测评代码,Vals Index 测综合智能。
Vibe Code Bench 开源榜,V4 49.93% 排第 1。Kimi K2.6 37.89%,第 2,相差 12 个百分点。GLM 5.1 31.46%,第 3。
上一代 V3.2 思考模式只有 5.11%。V4 翻了快 10 倍。
Vals AI 官方这样说道。
「DeepSeek-V4 现在是我们 Vibe Code Benchmark 上的开源第一,遥遥领先。」
Vals Index 综合指数榜,却是不一样的故事。
开源里 Kimi K2.6 63.94% 排第 1,V4 63.87% 紧跟第 2,差 0.07%。GLM 5.1 63.17% 第 3。
包含闭源模型的综合榜,Claude Opus 4.7 71.47% 第 1,GPT-5.5 69.82% 第 2,Claude Sonnet 4.6 67.74% 第 3。
开源整体比闭源还差一截。这个结果基本符合我们平时的真实体感,也符合 DeepSeek 技术报告里那句很实在的原话。
「我们比最前沿的闭源模型,还落后 3 到 6 个月。」
03|Artificial Analysis
AA(Artificial Analysis)有三个相关榜单。Intelligence 测评综合智能,Coding 测代码,Agentic 测 Agent 能力。
Intelligence Index 综合榜前 4,分别是:GPT-5.5 (xhigh) 60 分。Claude Opus 4.7 (max)、GPT-5.4 (xhigh)、Gemini 3.1 Pro Preview 并列 57 分。
V4-Pro Max 档 52 分,综合第 10。
开源模型里 Kimi K2.6 54 分排第 1,V4-Pro Max 第 2。
Coding Index 上 V4-Pro Max 47 分。在这个单项里开源第 1。
前面是 GPT-5.5 (xhigh) 59、GPT-5.4 Codex (xhigh) 57、Gemini 3.1 Pro Preview 56、Claude Opus 4.7 (max) 53。
Agentic Index 上 V4-Pro Max 67 分,与 GLM-5.1 和 MiMo V2.5 Pro(小米刚刚发布的新模型)并列。
前面是 GPT-5.5 (xhigh) 74 和 Claude Opus 4.7 (max) 71。
DeepSeek-V4 的 API,涨价了。
V4-Pro:原价输入 12 元/百万 token,输出 24 元。
V4-Flash:输入 1 元,输出 2 元。
但和主流闭源模型对比,依然很有性价比。
GPT-5.5 输出 30 美元。Claude Opus 4.7 输出 25 美元。Gemini 3.1 Pro 输出 12 美元。GPT-5.4 输出 15 美元。
V4-Pro 比 GPT-5.5 便宜 8.6 倍,比 Opus 4.7 便宜 7 倍。
还不止这样。
5 月 5 日前,DeepSeek 官宣 V4-Pro 的 API 限时打 2.5 折。
输入从 12 元降到 3。输出从 24 元降到 6。
Django 联合创始人 Simon Willison 在博客里是这么描述的。
「V4-Flash 是目前最便宜的小模型。V4-Pro 是前沿大模型里最便宜的。」
LiveBench 榜单,V4 的数据目前还没更新,过几天应该就能看到了。
最后还是那句话,「没有最强的模型,只有最适合你的模型。」
上图!
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。
热门跟贴