开源最强 + 自曝落后 3-6 个月：DeepSeek V4 这份技术报告有点不一样！|deepseek|max|上下文|人工智能模型|技术报告|编程

来源：市场资讯

（来源：AI信息Gap）

Codeforces Rating 3206 分，排在人类选手第 23 名。

LiveCodeBench Pass@1 93.5%，全球第一。

这是 DeepSeek V4。

但在这份 58 页的技术报告里，DeepSeek 自己写了这么一句。

Nevertheless, its performance falls marginally short of GPT-5.4 and Gemini-3.1-Pro, suggesting a developmental trajectory that trails state-of-the-art frontier models by approximately 3 to 6 months.

「我们比最前沿的闭源模型，还落后 3 到 6 个月。」

开源最强，但自曝落后闭源 3-6 个月。

DeepSeek 的这份坦诚，值得好好拆解一下。

V4-Pro-Max 是 V4-Pro 的满血推理模式，对应 384K 上下文加无上限的思考预算。

Codeforces Rating 3206 Elo 分，这个分数能排进 Codeforces 全球人类选手的第 23 名。这是 DeepSeek 用 14 场 Division 1 比赛、114 道题目、每道题采样 32 次、组成模拟提交序列跑出来的。

LiveCodeBench v6 Pass@1 93.5%，最高。Gemini-3.1-Pro 91.7%，K2.6 Thinking 89.6%，Opus 4.6 Max 88.8%。

Apex Shortlist 90.2%，也是总榜第一。

Putnam-2025 是美国本科数学竞赛题集，V4-Pro-Max 拿到 120 / 120 满分。

最离谱的是 SimpleQA-Verified。它测试模型的世界知识记忆。V4-Pro-Max 57.9%，同档的开源模型只有一半多一点的分数。

闭源阵营里，V4 也只输给 Gemini-3.1-Pro 的 75.6%。Opus 4.6 Max 只有 46.2%，GPT-5.4 xHigh 45.3%。V4 在纯知识这一项直接反超 Claude 和 GPT。

SWE Verified 80.6%，和 Opus 4.6 Max 的 80.8% 差 0.2 分。

这是技术报告的前菜。

紧接着是反转。

MRCR 1M 这一项，测的是模型在 100 万 token 上下文里的检索能力。V4-Pro-Max 83.5%。Opus 4.6 Max 92.9%。长文检索这一块，Claude 还是领先。

CorpusQA 1M，V4-Pro-Max 62.0%，Opus 4.6 Max 71.7%。

HLE（不带工具），V4-Pro-Max 37.7%，Gemini-3.1-Pro 44.4%，Opus 4.6 Max 40.0%。纯推理加知识的综合测试，V4 还有差距。

Terminal Bench 2.0，V4-Pro-Max 67.9%，GPT-5.4 xHigh 75.1%。终端里干活的能力，GPT-5.4 领先（这一项对于养「龙虾」很重要）。

HLE 带工具场景，V4 48.2%，K2.6 Thinking 反超到 54.0%。

「V4-Pro-Max 落后顶尖闭源模型大约 3 到 6 个月。V4-Flash-Max 在足够的思考预算下，推理能力可以接近 V4-Pro-Max，但在纯知识任务和最复杂的 agent 工作流上，仍然追不上大参数版本。」

中文场景是 V4 的主场。

DeepSeek 组织了一场中文功能性写作评测，3170 个真实任务，覆盖报告、方案、邮件、教育培训、技术文档、招聘、通知公告等等。对手是 Gemini-3.1-Pro。

V4-Pro 胜率 62.7%，Gemini-3.1-Pro 34.1%，3.25% 打平。

DeepSeek 总结，「Gemini 在中文写作里经常让自己的风格偏好盖过用户的明确要求。」

意思是，Gemini 中文写作爱自己加戏。

创意写作差距更大。2837 个任务，小说、同人文、散文、古诗、议论文、歌词、记叙文。指令跟随 V4 胜率 60.0%，写作质量 77.5% 对 22.4%，

「V4 的创意写作质量要高出 Gemini-3.1-Pro 三倍多。」

但碰到 Opus 4.5 就是另一个故事了。复杂指令跟随加多轮写作，V4-Pro vs Opus 4.5，胜率 45.9% vs 52.0%。Opus 4.5 更高。

V4 的成绩，建立在 DeepSeek 技术的创新上。其中最关键的一步是「注意力架构的重写」。

DeepSeek 过去两年的稀疏化路线，几乎都在参数侧。MoE 框架，总参数大，但每个 token 只激活一小部分专家。V3 到 V3.2，一直都在这条路上深耕。

V4 第一次把目光转移到了注意力（Attention）本身。

传统注意力的问题是，每生成一个新 token，模型都要回顾所有历史内容。计算复杂度是平方级别的。百万上下文，根本算不过来。此时，要么引入滑动窗口（只看附近几百字），要么用 RAG（干脆不让模型读长文）。

V4 走了第三条路，「混合压缩」。先把上下文压缩打包，再挑重点精读。

两个新机制，一个 CSA（压缩稀疏注意力，Compressed Sparse Attention），一个 HCA（重度压缩注意力，Heavily Compressed Attention）。

CSA 先把每 4 个 token 打包成 1 条笔记，再从里面挑出最相关的 512 到 1024 条精读。就像先翻目录，再选章节细看。

HCA 更狠。每 128 个 token 压缩成 1 条大纲。像每 128 页只留下一张思维导图。

结果，1M token 上下文下，V4-Pro 的单 token 计算量只有 V3.2 的 27%，显存占用只有 10%。

V4-Flash 更极端，计算量 10%，显存 7%。

粗略估算，同样的算力预算，V4 理论上能多跑三到四倍的长文推理。工程经济学，拉满了。

划重点，这个优化方案，开源的。

除了注意力架构，V4 把 DeepSeek 之前一篇论文里提到的 mHC 用起来了。

1.6T 参数的模型层数很深，信号在层与层之间传着传着就容易失控，要么放大到爆炸，要么衰减到消失。

V4 给信号路径套了一层数学约束，不让它乱飘。相当于给层间信号装了个稳压器。

后训练的改动同样大。

以前训练模型是一个学生什么都学。V4 改成「先分科培养，再合体」。数学、编程、Agent、指令跟随，每个领域先单独训练一个专家模型，再把十几个专家的本事全部蒸馏到同一个学生身上。

这个过程叫 OPD（On-Policy Distillation）。

训练出来的 V4 有三种思考模式。

Non-think 快问快答，8K 上下文，日常闲聊用。

Think High 认真思考，128K 上下文，复杂问题用。

Think Max，死磕到底，384K 上下文。这个模式下 DeepSeek 还会在系统提示词开头塞一句，「别走捷径，用算力给我死磕。」

Think Max 通过 API 参数 reasoning_effort="max" 调用。像 Claude Code、OpenCode 这类 agent 客户端，默认 max 档。

DeepSeek 在公司内部做了一次调查。

85 个 DeepSeek 工程师，全都用 V4-Pro 写代码。调研问题是，「你会不会把 V4-Pro 当成日常工作中的默认编程模型？」

52% 说 yes。

39% 说倾向于 yes。

不到 9% 说 no。

也就是说，DeepSeek 自己团队，一半以上已经把 V4 当作日常编程模型了。剩下的大部分也倾向于用。

这组数据藏在报告的 5.4.4 小节，叫 Code Agent。同一小节还有一张表。V4-Pro-Max 在一组内部真实研发任务上的通过率 67%，高于 Sonnet 4.5 的 47%，接近 Opus 4.5 的 70%，比 Opus 4.5 Thinking 的 73% 差一点。Opus 4.6 Thinking 80%，是评测里的天花板。