来源:市场资讯

(来源:AI信息Gap)

DeepSeek-V4 的成绩单,出来了。

这两天,Arena、Vals AI、Artificial Analysis 三个主流第三方榜单陆续更新了数据。

先说结论。

开源榜单前 3。综合榜单冲进前 10。

同为开源模型,DeepSeek-V4-Pro 和 GLM-5.1、Kimi-K2.6 打得有来有回。

打开网易新闻 查看精彩图片

01|Arena 大模型竞技场

V4-Pro 非思考模式 1463 分,思考模式 1462 分,分列开源榜第 2、3 名。

在它前面的是 GLM-5.1,1470 分。

打开网易新闻 查看精彩图片

Arena 官方评价:

「相较 V3.2 的重大飞跃。」

上一代 V3.2 思考模式 1425 分,已经跌落至综合榜单的第 63 名。V4-Pro 目前第 20 名。

02|Vals AI

Vals AI 有两个榜,Vibe Code Bench 测评代码,Vals Index 测综合智能。

Vibe Code Bench 开源榜,V4 49.93% 排第 1。Kimi K2.6 37.89%,第 2,相差 12 个百分点。GLM 5.1 31.46%,第 3。

上一代 V3.2 思考模式只有 5.11%。V4 翻了快 10 倍。

Vals AI 官方这样说道。

「DeepSeek-V4 现在是我们 Vibe Code Benchmark 上的开源第一,遥遥领先。」

打开网易新闻 查看精彩图片

Vals Index 综合指数榜,却是不一样的故事。

开源里 Kimi K2.6 63.94% 排第 1,V4 63.87% 紧跟第 2,差 0.07%。GLM 5.1 63.17% 第 3。

打开网易新闻 查看精彩图片

包含闭源模型的综合榜,Claude Opus 4.7 71.47% 第 1,GPT-5.5 69.82% 第 2,Claude Sonnet 4.6 67.74% 第 3。

开源整体比闭源还差一截。这个结果基本符合我们平时的真实体感,也符合 DeepSeek 技术报告里那句很实在的原话。

「我们比最前沿的闭源模型,还落后 3 到 6 个月。」

打开网易新闻 查看精彩图片

03|Artificial Analysis

AA(Artificial Analysis)有三个相关榜单。Intelligence 测评综合智能,Coding 测代码,Agentic 测 Agent 能力。

Intelligence Index 综合榜前 4,分别是:GPT-5.5 (xhigh) 60 分。Claude Opus 4.7 (max)、GPT-5.4 (xhigh)、Gemini 3.1 Pro Preview 并列 57 分。

V4-Pro Max 档 52 分,综合第 10。

开源模型里 Kimi K2.6 54 分排第 1,V4-Pro Max 第 2。

打开网易新闻 查看精彩图片

Coding Index 上 V4-Pro Max 47 分。在这个单项里开源第 1。

前面是 GPT-5.5 (xhigh) 59、GPT-5.4 Codex (xhigh) 57、Gemini 3.1 Pro Preview 56、Claude Opus 4.7 (max) 53。

打开网易新闻 查看精彩图片

Agentic Index 上 V4-Pro Max 67 分,与 GLM-5.1 和 MiMo V2.5 Pro(小米刚刚发布的新模型)并列。

前面是 GPT-5.5 (xhigh) 74 和 Claude Opus 4.7 (max) 71。

打开网易新闻 查看精彩图片

DeepSeek-V4 的 API,涨价了。

V4-Pro:原价输入 12 元/百万 token,输出 24 元。

V4-Flash:输入 1 元,输出 2 元。

但和主流闭源模型对比,依然很有性价比。

GPT-5.5 输出 30 美元。Claude Opus 4.7 输出 25 美元。Gemini 3.1 Pro 输出 12 美元。GPT-5.4 输出 15 美元。

V4-Pro 比 GPT-5.5 便宜 8.6 倍,比 Opus 4.7 便宜 7 倍。

还不止这样。

5 月 5 日前,DeepSeek 官宣 V4-Pro 的 API 限时打 2.5 折。

输入从 12 元降到 3。输出从 24 元降到 6。

打开网易新闻 查看精彩图片

Django 联合创始人 Simon Willison 在博客里是这么描述的。

「V4-Flash 是目前最便宜的小模型。V4-Pro 是前沿大模型里最便宜的。」

LiveBench 榜单,V4 的数据目前还没更新,过几天应该就能看到了。

最后还是那句话,「没有最强的模型,只有最适合你的模型。」

上图!

打开网易新闻 查看精彩图片

我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。