刚刚！DeepSeek更新V4论文，3000亿独角兽公开算力真相|deepseek|上下文|独角兽|自然语言|论文|调用|路由

就在刚刚，五一休假刚结束，DeepSeek团队悄悄更新了V4模型论文。

尽管这份论文依旧是58页，但增加了大量13天前V4预览版论文中没披露的信息。

我看完之后发现，这份“完整版”DeepSeek V4论文当中，梁文锋藏了半年的算力底牌一次性全曝光。

以下是我总结的完整版论文的更新内容：

1、相比预览版，这次完整版V4论文中，大量增加FP4量化训练过程的细节，以及首次公布独有训练稳定方案：预路由+SwiGLU clamping。

2、新增生成式奖励模型GRM、百万级上下文加速细节，新增更多MegaMoE内核、DeepGEMM开源等信息，以及修正了包括Host Codegen、SMT 整数分析、位精度可复现性，以及KV Cache 异构结构、磁盘缓存策略，预训练/微调的精确超参、学习率、batch size等信息。

3、另外，这次完整版论文，DeepSeek修改了部分真实场景的测评结果，包括中文写作、搜索、白领任务、代码 Agent等。

其中提到，中文写作当中，DeepSeek V4系列模型胜率高达77.5%；白领专业任务下的30项高级任务中，DeepSeek V4完全不输Claude Opus 4.6。

整体来说，新的DeepSeek V4论文更加完整，很多数据更加严谨。

实际上，过去两周，围绕DeepSeek V4的话题不断，一方面新的V4模型接入华为昇腾的算力平台，而导致推迟发布；另一方面，V4两度大幅降价，使得全系列API服务的输入缓存命中价格进一步降至原有价格的1/10，但模型性能比肩GPT-5.5、GLM的水平，引发广泛关注。

就在刚刚，DeepSeek再度被曝出融资消息。

领投方包括半导体大基金（国家集成电路产业投资基金）等，其他入股投资方包括腾讯、阿里等，梁文锋也可能会参与投资，但最终的投资者阵容尚未确定。

最新的DeepSeek的估值达到约450亿美元（约合人民币3000亿元），比两周前曝光的200亿美元估值，翻了一倍。

V4算力秘诀：

如何训的稳、模型跑得快、显存更省

4月24日，DeepSeek-V4的预览版本正式上线并同步开源。

新的DeepSeek-V4拥有百万字超长上下文，在Agent能力、世界知识和推理性能上均实现领先水平，其最大的优势在于同时实现英伟达和华为昇腾算力训练。

此次完整版V4论文，DeepSeek团队进行了大量修正和增加内容。

1、新增最多的一部分就是：FP4量化感知训练信息。

DeepSeek提到，V4在后期训练里直接用上了FP4量化感知训练，目的就是让模型跑起来更快、更省显存。

其中，把最占显存的MoE 专家权重和长文本注意力的QK 计算都压成 FP4 精度，转成FP8计算时完全不损失精度，还能直接兼容现有框架，速度直接快 2 倍，关键信息找回率还能保持 99.7%，而推理时直接用FP4权重运行，又快又省显存，效果还不掉。

具体来说，为了实现推理加速并减少部署时的内存流量，团队将FP4（MXFP4）量化应用于两个组件：（1）、MoE专家权重，这是GPU内存占用的主要来源；（2）、CSA索引器中的查询-键（QK）路径，其中QK激活值以FP4格式进行缓存、加载和乘法运算，从而加速长上下文场景中的注意力分数计算。

此外，在此QAT过程中，团队进一步将索引分数从FP32量化至BF16。这一优化使QK选择器实现了2倍加速，同时保持了KV计算99.7%的召回率。

论文指出，通过采用混合CSA与HCA，并对计算和存储进行精度优化，DeepSeek-V4系列与DeepSeek-V3.2相比，推理FLOPs显著降低，KV缓存大小大幅缩减，在长上下文场景下优势尤为明显。

在1M tokens上下文场景中，即使是激活参数量更大的DeepSeek-V4-Pro，其单FLOPs（以等效FP8 FLOPs计算）仅为DeepSeek-V3.2的27%，KV缓存大小仅为后者的10%。

此外，激活参数量更小的DeepSeek-V4-Flash进一步提升了效率：在1M令牌上下文设置下，它的单FLOPs仅为DeepSeek-V3.2的10%，KV缓存大小仅为后者的7%。

另外，DeepSeek-V4系列的路由专家参数采用FP4精度。目前现有硬件上FP4×FP8运算的峰值FLOPs与FP8×FP8持平，但从理论上来说，未来硬件可以让该运算的效率提升三分之一，这将进一步提高DeepSeek-V4系列的效率。

2、DeepSeek首次公布独有训练稳定方案：预路由+SwiGLU clamping。

DeepSeek提到，训练万亿参数这种超大模型，本身就特别容易出问题 ——训练崩、损失暴涨、训着训着就不稳定，DeepSeek-V4 也没躲开这个行业难题。简单的回滚操作只能临时救场，没法从根上解决反复炸损的问题。

研究人员发现，不稳的根源主要在 MoE 层的异常数值，而且路由机制还会让这种异常越来越严重，形成恶性循环。为了把训练彻底稳住，他们从两个方向下手，最终拿出两套非常实用、能直接落地的稳定方案：

第一个叫预判路由（Anticipatory Routing）。

简单说就是不让主模型和路由模块同步更新，故意 “错开”：当前步用最新参数算特征，但路由分配却用之前的旧参数来算，提前算好、缓存起来，从逻辑上切断恶性循环。这套做法还做了大量工程优化，只会增加大概 20% 的耗时，并且系统会自动监测，只有炸损失时才开启，稳住之后自动切回普通模式，既解决崩溃问题，又几乎不影响训练效率和最终效果。

第二个叫SwiGLU Clamping。直接在激活函数上做限制，把 SwiGLU 的线性部分强行约束在-10到10之间，门控部分上限也设为 10。这么一做，模型里的极端异常值直接被 “按住”，训练瞬间稳了很多，而且不会损伤模型的能力。

靠着一系列关键技术，DeepSeek-V4成功搞定了万亿MoE模型最头疼的训练稳定性难题，让超大模型能稳稳训完。

新增生成式奖励模型GRM能力，

多项显示V4比肩Opus 4.5

过去做模型优化，简单任务用规则检查就行，难验证的复杂任务只能靠RLHF 人类反馈，但这种方法需要大量人工标注，成本高、效率低。

而论文首次提到，DeepSeek-V4直接抛弃了传统的单值奖励模型，改用了一套生成式奖励模型（GRM）。

简单说，就是不用额外训练单独的打分模型，而是让模型自己当裁判：用同一个模型一边生成答案、一边评估答案，把“生成能力”和“评判能力”一起训练、一起变强。

训练时，用带评分标准的数据做引导，让模型自己学会判断回答好不好、对不对、逻辑严不严谨。好处非常明显：

1、只需要很少量的人工标注，模型就能靠自己的推理能力泛化到复杂任务；

2、评判过程自带逻辑思考，打分更稳、更准；

3、生成和评判一体，效果比传统奖励模型强得多。

这套GRM机制，让DeepSeek-V4在没有大量人工标注的情况下，依然把复杂任务的对齐能力拉到了很高水平。

这是DeepSeek-V4系列的工具调用 schema，最终效果层面非常稳定和准确，整个过程也有了更多的思考能力。

同时，完整版DeepSeek-V4论文，还增加了百万级上下文加速等内容：

1、全新工具调用格式与交互机制。完整版公开了 <|DSML|> 格式的 XML 工具调用规范，同时新增交错思考（Interleaved Thinking） 机制，在工具交互场景下全程保留推理链内容，不再因用户新消息清空历史思考；还新增了 Quick Instruction 专用指令体系，通过特殊 token 让模型直接复用 KV 缓存并行完成搜索、分类、标题生成等辅助任务，显著降低首 token 延迟。

2、百万上下文推理工程全套实现。完整版大幅扩充了推理框架与 KV 缓存管理内容，首次公开百万上下文工程化落地的完整方案：包括异构 KV 缓存结构、状态缓存（State Cache）、磁盘缓存（On-disk KV Cache）以及共享前缀复用机制，并提供三种滑动窗口缓存策略用于工程部署。同时补充了上下文并行（Contextual Parallelism）的两阶段通信方案，解决超长序列跨卡压缩与计算问题。 3、真实场景大规模人类评估。完整版新增大量真实业务场景的系统性测评，包括中文写作、搜索增强问答、白领专业任务、代码智能体等大规模人工对比数据，公开了在各类实用场景下 DeepSeek-V4-Pro 对比 Gemini、Claude 的胜率与得分，完整展现模型在真实使用中的落地效果，这些数据在精简版中完全缺失。 4、完整基础设施、作者与附录。完整版将基础设施章节拆分为专家并行、TileLang 内核、批不变与确定性算子、训练框架、推理框架等精细小节，补充大量工程优化细节与加速数据；同时新增完整作者列表、致谢与评估细节附录，是一份可复现、可核查、完全开放的正式技术报告。

此外，完整版DeepSeek V4论文增加了基准测试的最新结果。

其中，在附录提到的搜索增强问答测试中，在DeepSeek网页端和应用端，“非思考”模式采用检索增强搜索（RAG），而“思考”模式则使用智能体搜索。

对于检索增强搜索，在客观和主观问答两个类别中的评估中，DeepSeek-V4-Pro的表现大幅优于DeepSeek-V3.2，在两个类别中均展现出稳定优势，提升最显著的是单值搜索以及规划与策略任务。不过，DeepSeek-V3.2在对比和推荐任务中仍保有相当的竞争力，说明DeepSeek-V4-Pro在需要对搜索结果进行均衡、多视角推理的场景中仍有改进空间。

而智能体搜索上，V4智能体搜索的表现始终优于RAG，在复杂任务上的优势尤为明显。此外，智能体搜索的成本效率依然很高，仅比标准RAG高出微不足道的成本。