打开网易新闻 查看精彩图片

就在刚刚,五一休假刚结束,DeepSeek团队悄悄更新了V4模型论文。

尽管这份论文依旧是58页,但增加了大量13天前V4预览版论文中没披露的信息。

我看完之后发现,这份“完整版”DeepSeek V4论文当中,梁文锋藏了半年的算力底牌一次性全曝光。

以下是我总结的完整版论文的更新内容:

1、相比预览版,这次完整版V4论文中,大量增加FP4量化训练过程的细节,以及首次公布独有训练稳定方案:预路由+SwiGLU clamping。

2、新增生成式奖励模型GRM、百万级上下文加速细节,新增更多MegaMoE内核、DeepGEMM开源等信息,以及修正了包括Host Codegen、SMT 整数分析、位精度可复现性,以及KV Cache 异构结构、磁盘缓存策略,预训练/微调的精确超参、学习率、batch size等信息。

3、另外,这次完整版论文,DeepSeek修改了部分真实场景的测评结果,包括中文写作、搜索、白领任务、代码 Agent等。

其中提到,中文写作当中,DeepSeek V4系列模型胜率高达77.5%;白领专业任务下的30项高级任务中,DeepSeek V4完全不输Claude Opus 4.6。

打开网易新闻 查看精彩图片

整体来说,新的DeepSeek V4论文更加完整,很多数据更加严谨。

实际上,过去两周,围绕DeepSeek V4的话题不断,一方面新的V4模型接入华为昇腾的算力平台,而导致推迟发布;另一方面,V4两度大幅降价,使得全系列API服务的输入缓存命中价格进一步降至原有价格的1/10,但模型性能比肩GPT-5.5、GLM的水平,引发广泛关注。

就在刚刚,DeepSeek再度被曝出融资消息。

领投方包括半导体大基金(国家集成电路产业投资基金)等,其他入股投资方包括腾讯、阿里等,梁文锋也可能会参与投资,但最终的投资者阵容尚未确定。

最新的DeepSeek的估值达到约450亿美元(约合人民币3000亿元),比两周前曝光的200亿美元估值,翻了一倍。

打开网易新闻 查看精彩图片

V4算力秘诀:

如何训的稳、模型跑得快、显存更省

4月24日,DeepSeek-V4的预览版本正式上线并同步开源。

新的DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现领先水平,其最大的优势在于同时实现英伟达和华为昇腾算力训练。

此次完整版V4论文,DeepSeek团队进行了大量修正和增加内容。

1、新增最多的一部分就是:FP4量化感知训练信息。

DeepSeek提到,V4在后期训练里直接用上了FP4量化感知训练,目的就是让模型跑起来更快、更省显存。

其中,把最占显存的MoE 专家权重和长文本注意力的QK 计算都压成 FP4 精度,转成FP8计算时完全不损失精度,还能直接兼容现有框架,速度直接快 2 倍,关键信息找回率还能保持 99.7%,而推理时直接用FP4权重运行,又快又省显存,效果还不掉。

具体来说,为了实现推理加速并减少部署时的内存流量,团队将FP4(MXFP4)量化应用于两个组件:(1)、MoE专家权重,这是GPU内存占用的主要来源;(2)、CSA索引器中的查询-键(QK)路径,其中QK激活值以FP4格式进行缓存、加载和乘法运算,从而加速长上下文场景中的注意力分数计算。

此外,在此QAT过程中,团队进一步将索引分数从FP32量化至BF16。这一优化使QK选择器实现了2倍加速,同时保持了KV计算99.7%的召回率。

打开网易新闻 查看精彩图片

论文指出,通过采用混合CSA与HCA,并对计算和存储进行精度优化,DeepSeek-V4系列与DeepSeek-V3.2相比,推理FLOPs显著降低,KV缓存大小大幅缩减,在长上下文场景下优势尤为明显。

在1M tokens上下文场景中,即使是激活参数量更大的DeepSeek-V4-Pro,其单FLOPs(以等效FP8 FLOPs计算)仅为DeepSeek-V3.2的27%,KV缓存大小仅为后者的10%。

此外,激活参数量更小的DeepSeek-V4-Flash进一步提升了效率:在1M令牌上下文设置下,它的单FLOPs仅为DeepSeek-V3.2的10%,KV缓存大小仅为后者的7%。

另外,DeepSeek-V4系列的路由专家参数采用FP4精度。目前现有硬件上FP4×FP8运算的峰值FLOPs与FP8×FP8持平,但从理论上来说,未来硬件可以让该运算的效率提升三分之一,这将进一步提高DeepSeek-V4系列的效率。

2、DeepSeek首次公布独有训练稳定方案:预路由+SwiGLU clamping。

DeepSeek提到,训练万亿参数这种超大模型,本身就特别容易出问题 ——训练崩、损失暴涨、训着训着就不稳定,DeepSeek-V4 也没躲开这个行业难题。简单的回滚操作只能临时救场,没法从根上解决反复炸损的问题。

研究人员发现,不稳的根源主要在 MoE 层的异常数值,而且路由机制还会让这种异常越来越严重,形成恶性循环。为了把训练彻底稳住,他们从两个方向下手,最终拿出两套非常实用、能直接落地的稳定方案:

第一个叫预判路由(Anticipatory Routing)

简单说就是不让主模型和路由模块同步更新,故意 “错开”:当前步用最新参数算特征,但路由分配却用之前的旧参数来算,提前算好、缓存起来,从逻辑上切断恶性循环。这套做法还做了大量工程优化,只会增加大概 20% 的耗时,并且系统会自动监测,只有炸损失时才开启,稳住之后自动切回普通模式,既解决崩溃问题,又几乎不影响训练效率和最终效果。

第二个叫SwiGLU Clamping。直接在激活函数上做限制,把 SwiGLU 的线性部分强行约束在-10到10之间,门控部分上限也设为 10。这么一做,模型里的极端异常值直接被 “按住”,训练瞬间稳了很多,而且不会损伤模型的能力。

靠着一系列关键技术,DeepSeek-V4成功搞定了万亿MoE模型最头疼的训练稳定性难题,让超大模型能稳稳训完。

打开网易新闻 查看精彩图片

新增生成式奖励模型GRM能力,

多项显示V4比肩Opus 4.5

过去做模型优化,简单任务用规则检查就行,难验证的复杂任务只能靠RLHF 人类反馈,但这种方法需要大量人工标注,成本高、效率低。

而论文首次提到,DeepSeek-V4直接抛弃了传统的单值奖励模型,改用了一套生成式奖励模型(GRM)

简单说,就是不用额外训练单独的打分模型,而是让模型自己当裁判:用同一个模型一边生成答案、一边评估答案,把“生成能力”和“评判能力”一起训练、一起变强。

训练时,用带评分标准的数据做引导,让模型自己学会判断回答好不好、对不对、逻辑严不严谨。好处非常明显:

1、只需要很少量的人工标注,模型就能靠自己的推理能力泛化到复杂任务;

2、评判过程自带逻辑思考,打分更稳、更准;

3、生成和评判一体,效果比传统奖励模型强得多。

这套GRM机制,让DeepSeek-V4在没有大量人工标注的情况下,依然把复杂任务的对齐能力拉到了很高水平。

打开网易新闻 查看精彩图片

这是DeepSeek-V4系列的工具调用 schema,最终效果层面非常稳定和准确,整个过程也有了更多的思考能力。

同时,完整版DeepSeek-V4论文,还增加了百万级上下文加速等内容:

1、全新工具调用格式与交互机制。完整版公开了 <|DSML|> 格式的 XML 工具调用规范,同时新增交错思考(Interleaved Thinking) 机制,在工具交互场景下全程保留推理链内容,不再因用户新消息清空历史思考;还新增了 Quick Instruction 专用指令体系,通过特殊 token 让模型直接复用 KV 缓存并行完成搜索、分类、标题生成等辅助任务,显著降低首 token 延迟。

2、百万上下文推理工程全套实现。完整版大幅扩充了推理框架与 KV 缓存管理内容,首次公开百万上下文工程化落地的完整方案:包括异构 KV 缓存结构、状态缓存(State Cache)、磁盘缓存(On-disk KV Cache)以及共享前缀复用机制,并提供三种滑动窗口缓存策略用于工程部署。同时补充了上下文并行(Contextual Parallelism)的两阶段通信方案,解决超长序列跨卡压缩与计算问题。 3、真实场景大规模人类评估。完整版新增大量真实业务场景的系统性测评,包括中文写作、搜索增强问答、白领专业任务、代码智能体等大规模人工对比数据,公开了在各类实用场景下 DeepSeek-V4-Pro 对比 Gemini、Claude 的胜率与得分,完整展现模型在真实使用中的落地效果,这些数据在精简版中完全缺失。 4、完整基础设施、作者与附录。完整版将基础设施章节拆分为专家并行、TileLang 内核、批不变与确定性算子、训练框架、推理框架等精细小节,补充大量工程优化细节与加速数据;同时新增完整作者列表、致谢与评估细节附录,是一份可复现、可核查、完全开放的正式技术报告。

此外,完整版DeepSeek V4论文增加了基准测试的最新结果。

其中,在附录提到的搜索增强问答测试中,在DeepSeek网页端和应用端,“非思考”模式采用检索增强搜索(RAG),而“思考”模式则使用智能体搜索。

打开网易新闻 查看精彩图片

对于检索增强搜索,在客观和主观问答两个类别中的评估中,DeepSeek-V4-Pro的表现大幅优于DeepSeek-V3.2,在两个类别中均展现出稳定优势,提升最显著的是单值搜索以及规划与策略任务。不过,DeepSeek-V3.2在对比和推荐任务中仍保有相当的竞争力,说明DeepSeek-V4-Pro在需要对搜索结果进行均衡、多视角推理的场景中仍有改进空间。

而智能体搜索上,V4智能体搜索的表现始终优于RAG,在复杂任务上的优势尤为明显。此外,智能体搜索的成本效率依然很高,仅比标准RAG高出微不足道的成本。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在中文写作中,结果显示,DeepSeek-V4-Pro以62.7%对34.1%的整体胜率,优于基准模型Gemini-3.1-Pro,这主要是因为Gemini在中文写作场景中偶尔会因其固有的风格偏好而覆盖用户的明确要求。

创意写作方面,与Gemini-3.1-Pro相比,DeepSeek-V4-Pro在指令遵循方面取得了60.0%的胜率,在写作质量方面取得了77.5%的胜率,表明其在指令遵循上略有提升,而在写作质量上则有显著进步。

打开网易新闻 查看精彩图片

尽管DeepSeek-V4-Pro在整体用户案例分析中表现更优,但针对最具挑战性的提示词(特别是涉及高复杂度约束或多轮场景)的评估显示,Claude Opus 4.5以52.0%对45.9%的胜率领先。

打开网易新闻 查看精彩图片

白领任务层,DeepSeek构建了一套包含30项高级中文专业任务的综合评测套件,覆盖13个关键行业如金融、教育、法律与科技等。

结果显示,DeepSeek-V4-Pro-Max在各类中文任务上的表现优于Opus-4.6-Max,取得了63%的出色不败率,且在分析、生成与编辑类任务中均展现出稳定优势。

打开网易新闻 查看精彩图片

最后,DeepSeek还修改了编码智能体测试结果。

结果显示,DeepSeek-V4-Pro编码智能体能力显著优于Claude Sonnet 4.5,并接近Claude Opus 4.5的水平。

当被问及与其他前沿模型相比,DeepSeek-V4-Pro是否已准备好作为他们的默认首选编码模型时,52%的人表示肯定,39%的人倾向于肯定,而表示否定的人数不足9%。

受访者认为DeepSeek-V4-Pro在大多数任务中能提供令人满意的结果,但也指出其存在细微错误、对模糊提示的误解以及偶尔过度思考的问题。

总结就是,DeepSeek-V4-Pro的性能和能力不输给Claude和GPT能力,甚至中文写作能力要高于谷歌Gemini-3.1,但距离Opus 4.5还略有一些差距。

打开网易新闻 查看精彩图片

总结

照例我还是要总结一下这篇文章。

五一之前,DeepSeek多模态模型论文突然删了,引发广泛关注,也让我们等待DeepSeek带来新的moment。

DeepSeek连夜删新论文,梁文锋到底怕什么|深度

然而,五一之后,我们终于等来了DeepSeek-V4的论文更新:藏了半年的算力底牌一次性全曝光,核心技术全公开。

我看完 DeepSeek-V4 完整版论文才真正明白,如今大模型的竞争早已不只是参数和效果,更是效率、稳定性、工程化的全面较量。

从FP4量化到百万上下文加速,从训练防崩机制到生成式奖励模型,每一处细节都在把“不可能”变成“可落地”,让人真切感受到DeepSeek-V4大模型正在从追赶走向引领。

然而,从我们感知上来说,DeepSeek-V4虽然没引发去年R1时候的“DeepSeek时刻”,但V4再度巩固了国产AI大模型在高性价比层面的重要优势,令AI和投资行业印象深刻。

这波,DeepSeek直接把开源大模型的效率天花板捅破了!

据报道,一位考虑投资DeepSeek的人士透露,DeepSeek的编码能力名列前茅,其同行公司如智谱、MiniMax预计营收将持续飙升,市值超过3000亿。

因此,鉴于 DeepSeek 的估值已大幅上涨,梁文锋可能会考虑筹集更多资金,以增加未来投资计算能力的资金储备。

显然,DeepSeek有望成为国内另一家AI大模型“巨龙”。

我们有理由相信,随着资源、人才、技术的进一步聚集和迭代,梁文锋的下一代更轻、更快、更强的DeepSeek大模型,已经近在眼前。