来源:市场资讯
(来源:AI信息Gap)
Codeforces Rating 3206 分,排在人类选手第 23 名。
LiveCodeBench Pass@1 93.5%,全球第一。
这是 DeepSeek V4。
但在这份 58 页的技术报告里,DeepSeek 自己写了这么一句。
Nevertheless, its performance falls marginally short of GPT-5.4 and Gemini-3.1-Pro, suggesting a developmental trajectory that trails state-of-the-art frontier models by approximately 3 to 6 months.
「我们比最前沿的闭源模型,还落后 3 到 6 个月。」
开源最强,但自曝落后闭源 3-6 个月。
DeepSeek 的这份坦诚,值得好好拆解一下。
V4-Pro-Max 是 V4-Pro 的满血推理模式,对应 384K 上下文加无上限的思考预算。
Codeforces Rating 3206 Elo 分,这个分数能排进 Codeforces 全球人类选手的第 23 名。这是 DeepSeek 用 14 场 Division 1 比赛、114 道题目、每道题采样 32 次、组成模拟提交序列跑出来的。
LiveCodeBench v6 Pass@1 93.5%,最高。Gemini-3.1-Pro 91.7%,K2.6 Thinking 89.6%,Opus 4.6 Max 88.8%。
Apex Shortlist 90.2%,也是总榜第一。
Putnam-2025 是美国本科数学竞赛题集,V4-Pro-Max 拿到 120 / 120 满分。
最离谱的是 SimpleQA-Verified。它测试模型的世界知识记忆。V4-Pro-Max 57.9%,同档的开源模型只有一半多一点的分数。
闭源阵营里,V4 也只输给 Gemini-3.1-Pro 的 75.6%。Opus 4.6 Max 只有 46.2%,GPT-5.4 xHigh 45.3%。V4 在纯知识这一项直接反超 Claude 和 GPT。
SWE Verified 80.6%,和 Opus 4.6 Max 的 80.8% 差 0.2 分。
这是技术报告的前菜。
紧接着是反转。
MRCR 1M 这一项,测的是模型在 100 万 token 上下文里的检索能力。V4-Pro-Max 83.5%。Opus 4.6 Max 92.9%。长文检索这一块,Claude 还是领先。
CorpusQA 1M,V4-Pro-Max 62.0%,Opus 4.6 Max 71.7%。
HLE(不带工具),V4-Pro-Max 37.7%,Gemini-3.1-Pro 44.4%,Opus 4.6 Max 40.0%。纯推理加知识的综合测试,V4 还有差距。
Terminal Bench 2.0,V4-Pro-Max 67.9%,GPT-5.4 xHigh 75.1%。终端里干活的能力,GPT-5.4 领先(这一项对于养「龙虾」很重要)。
HLE 带工具场景,V4 48.2%,K2.6 Thinking 反超到 54.0%。
「V4-Pro-Max 落后顶尖闭源模型大约 3 到 6 个月。V4-Flash-Max 在足够的思考预算下,推理能力可以接近 V4-Pro-Max,但在纯知识任务和最复杂的 agent 工作流上,仍然追不上大参数版本。」
中文场景是 V4 的主场。
DeepSeek 组织了一场中文功能性写作评测,3170 个真实任务,覆盖报告、方案、邮件、教育培训、技术文档、招聘、通知公告等等。对手是 Gemini-3.1-Pro。
V4-Pro 胜率 62.7%,Gemini-3.1-Pro 34.1%,3.25% 打平。
DeepSeek 总结,「Gemini 在中文写作里经常让自己的风格偏好盖过用户的明确要求。」
意思是,Gemini 中文写作爱自己加戏。
创意写作差距更大。2837 个任务,小说、同人文、散文、古诗、议论文、歌词、记叙文。指令跟随 V4 胜率 60.0%,写作质量 77.5% 对 22.4%,
「V4 的创意写作质量要高出 Gemini-3.1-Pro 三倍多。」
但碰到 Opus 4.5 就是另一个故事了。复杂指令跟随加多轮写作,V4-Pro vs Opus 4.5,胜率 45.9% vs 52.0%。Opus 4.5 更高。
V4 的成绩,建立在 DeepSeek 技术的创新上。其中最关键的一步是「注意力架构的重写」。
DeepSeek 过去两年的稀疏化路线,几乎都在参数侧。MoE 框架,总参数大,但每个 token 只激活一小部分专家。V3 到 V3.2,一直都在这条路上深耕。
V4 第一次把目光转移到了注意力(Attention)本身。
传统注意力的问题是,每生成一个新 token,模型都要回顾所有历史内容。计算复杂度是平方级别的。百万上下文,根本算不过来。此时,要么引入滑动窗口(只看附近几百字),要么用 RAG(干脆不让模型读长文)。
V4 走了第三条路,「混合压缩」。先把上下文压缩打包,再挑重点精读。
两个新机制,一个 CSA(压缩稀疏注意力,Compressed Sparse Attention),一个 HCA(重度压缩注意力,Heavily Compressed Attention)。
CSA 先把每 4 个 token 打包成 1 条笔记,再从里面挑出最相关的 512 到 1024 条精读。就像先翻目录,再选章节细看。
HCA 更狠。每 128 个 token 压缩成 1 条大纲。像每 128 页只留下一张思维导图。
结果,1M token 上下文下,V4-Pro 的单 token 计算量只有 V3.2 的 27%,显存占用只有 10%。
V4-Flash 更极端,计算量 10%,显存 7%。
粗略估算,同样的算力预算,V4 理论上能多跑三到四倍的长文推理。工程经济学,拉满了。
划重点,这个优化方案,开源的。
除了注意力架构,V4 把 DeepSeek 之前一篇论文里提到的 mHC 用起来了。
1.6T 参数的模型层数很深,信号在层与层之间传着传着就容易失控,要么放大到爆炸,要么衰减到消失。
V4 给信号路径套了一层数学约束,不让它乱飘。相当于给层间信号装了个稳压器。
后训练的改动同样大。
以前训练模型是一个学生什么都学。V4 改成「先分科培养,再合体」。数学、编程、Agent、指令跟随,每个领域先单独训练一个专家模型,再把十几个专家的本事全部蒸馏到同一个学生身上。
这个过程叫 OPD(On-Policy Distillation)。
训练出来的 V4 有三种思考模式。
Non-think 快问快答,8K 上下文,日常闲聊用。
Think High 认真思考,128K 上下文,复杂问题用。
Think Max,死磕到底,384K 上下文。这个模式下 DeepSeek 还会在系统提示词开头塞一句,「别走捷径,用算力给我死磕。」
Think Max 通过 API 参数 reasoning_effort="max" 调用。像 Claude Code、OpenCode 这类 agent 客户端,默认 max 档。
DeepSeek 在公司内部做了一次调查。
85 个 DeepSeek 工程师,全都用 V4-Pro 写代码。调研问题是,「你会不会把 V4-Pro 当成日常工作中的默认编程模型?」
52% 说 yes。
39% 说倾向于 yes。
不到 9% 说 no。
也就是说,DeepSeek 自己团队,一半以上已经把 V4 当作日常编程模型了。剩下的大部分也倾向于用。
这组数据藏在报告的 5.4.4 小节,叫 Code Agent。同一小节还有一张表。V4-Pro-Max 在一组内部真实研发任务上的通过率 67%,高于 Sonnet 4.5 的 47%,接近 Opus 4.5 的 70%,比 Opus 4.5 Thinking 的 73% 差一点。Opus 4.6 Thinking 80%,是评测里的天花板。
V4 离 Claude 当时最强的编程模型,还有大约 13 个百分点(现在可能不止,如果考虑 Opus 4.7 的话)。
通篇读下来,DeepSeek 没说自己天下第一。
它说自己在知识任务上刷新开源记录,但闭源仍然领先。它说 Flash 和 Pro 存在真实差距。它说长文检索仍然输给 Claude。它说多轮复杂写作还在追赶 Opus。它说模型发展轨迹落后前沿闭源 3 到 6 个月。
同时它开源了 1.6T 参数模型的权重,MIT 协议,Hugging Face 上直接下载。
「不诱于誉,不恐于诽,率道而行,端然正己。」
再给他点时间。他还差 3 到 6 个月。
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。