DeepSeek V4：架构极度聪明，黄仁勋担心的事也许就此开始|deepseek|gpu|算法|黄仁勋

作者：王兆洋 + DeepSeek V4 专家模式

V4 终于终于终于终于是来了。

而且它不在假期，不在深夜，而是突然就发了。模型，开源权重，技术报告和官方的文章同时发给所有人。

官方给出的亮点是“百万上下文的普惠”。但显然，这个模型里DeepSeek做的创新工作还是非常的多。

一如既往的，它的技术报告是今天比读任何新闻都过瘾的存在。

这一次V4最让人欣喜的是，它的架构依然在进化，且依然极度聪明。它告诉整个 AI 圈一件事：不用堆参数，不用买更多卡，仅靠对注意力机制和训练方式的重新发明，就能把百万 token 长文本的门槛踩到地板上。

而且，外界一直在关注的用“华为芯片”训练的问题，也终于有所揭晓：这次华为昇腾的名字，是和 NVIDIA 并列写在验证平台里的。虽然从技术报告来看，训练部分依然大概率用的英伟达芯片，但在与昇腾的适配上，它显然达到了前所未有的“原生”水平。这后面的意味，比跑分更有意思。

而在官方文档里，API价格的地方有一行小字：

受限于高端算力，目前Pro的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调。

这同样让人浮想联翩，且让人对未来更加期待。

27% 和 10%，这两个数字定义了什么叫“效率革命”

看看技术报告里的硬数据。基准是 DeepSeek-V3.2——本身已经是一个效率很高的模型。

在 100 万 token 上下文下（大约能装三部《三体》），DeepSeek-V4-Pro——1.6 万亿参数，激活 49B——处理一个新 token 需要的算力只有 V3.2 的 27%，KV 缓存只占 10%。

而小杯 DeepSeek-V4-Flash：284B 参数，激活仅 13B，算力只要 10%，缓存只要 7%。

一个容易被忽略的细节：报告明确标注，单 token 推理算力的单位是等效 FP8 FLOPs。这不是拿低精度取巧，而是已经换算到和 V3.2 相同的精度标准去比。而且，V4 系列的路由专家权重还用了 FP4 精度，报告特别指出，现有硬件上 FP4 和 FP8 的峰值算力相同，但未来硬件上 FP4 可以再高出三分之一的效率。换句话说，现在的数字还不是天花板，等昇腾 950 这类新硬件到位，还有一波可挖的潜力。

长上下文，正在从奢侈品变成日用品。

凭什么能做到？两大压缩注意力，从根源上做手术

传统 Transformer 处理长文本的死穴：序列长度加 N 倍，注意力计算量平方级爆炸，KV 缓存线性膨胀。这个瓶颈不破，百万 token 就只是论文里的数字。

DeepSeek V4 的办法不是凑合，而是直接改造注意力机制本身。总体架构上，注意力层采用 CSA 和 HCA 交错配置，前馈层沿用 DeepSeekMoE，残差连接用 mHC 加强。核心是两种新注意力。

CSA——压缩稀疏注意力

CSA 的数据流分三路并行。KV token 的隐藏状态同时进入三个模块：一个 Token-Level Compressor 负责把每 4 个 token 的 KV 缓存压缩成一个条目；一个 Lightning Indexer 生成“索引键”，用于后续的匹配打分；同一个索引器还生成“索引分数”。查询 token 的隐藏状态则单独进入 Lightning Indexer，生成查询侧的索引分数。两边一合，送入 Top-k 选择器，从所有压缩块中只挑出最相关的 512 个（Pro 版是 1024 个）。最后，这些选中的压缩块和滑动窗口里保留的 128 个原始 token 拼在一起，送进核心的多查询注意力计算。

索引器的实现细节：查询端先降维到 dc=1024，减少参数量，再升维到多头索引查询，配合 ReLU 激活后与压缩索引键计算分数。这一整套不是简单的“截断”，是学出来的动态筛选——哪些信息重要、哪些可以忽略，由模型自己在训练中决定。

HCA——重度压缩注意力

和 CSA 不同，HCA 去掉了整个稀疏选择链路——没有 Lightning Indexer，没有 Top-k Selector。数据流非常直接：KV token 隐藏状态经过 Token-Level Compressor 压缩（压缩比 m'=128，远大于 CSA 的 4），得到的压缩条目直接与滑动窗口 KV 拼在一起，送进 MQA。因为每条目覆盖 128 个 token，条目总量已经很少，全量算也不贵，省掉了筛选环节。这是为了抓全局结构，避免模型“只见树木不见森林”。

两种注意力都额外配了一个滑动窗口，保留最近 128 个 token 的原始 KV 不压缩，确保局部依赖没有精度损失。同时还用了注意力沉降技术——给每个头一个可学习的 sink logit，加到注意力的分母里，让每个头可以选择“什么都不关注”。

另外，报告透露了一个重要的工程决定：CSA 和 HCA 在 Query 和 KV 上只对最后 64 个维度施加 RoPE 位置编码，其他维度不编码。同时 KV 缓存采用混合精度存储——RoPE 维度用 BF16，其余维度用 FP8——又把缓存砍掉近一半。

而这套注意力架构要真正落地，缓存管理也必须重新设计。V4 的 KV 缓存被拆成两大块：一块是“状态缓存”，每个请求分一个固定大小的区域，存滑动窗口最近 128 个 token 的 KV，以及 CSA/HCA 中还没攒够 4 个或 128 个 token、暂时无法压缩的“尾料”。

另一块是“经典缓存”，存已经压缩好的条目。经典缓存里，每个块覆盖的原始 token 数是两种压缩比（4 和 128）的最小公倍数，这样同一块里 CSA 和 HCA 的压缩结果都能对齐——CSA 产 32 个压缩条目，HCA 产 1 个——不会因为两种压缩率不一致导致碎片化管理。这套缓存布局，是百万上下文能从实验室走进生产环境的关键工程基础设施。

所以这套方案是压缩、稀疏化、混合精度、滑动窗口、注意力沉降、精细缓存管理多管齐下。局部细节、中段关联、全局脉络，全抓住了，算力开销断崖式下降。

也就是说，传统注意力机制要求每个 token 和历史上所有 token 都做一次交互，历史多长，活儿就多沉。DeepSeek V4 做的，是把“记忆”本身先整理成层次化的摘要——有些是每一小段的凝练，有些是每一章的概括，再加上眼前几句话的原文。需要调用哪一层、哪一段，由模型自己根据当前要解决的问题即场判断。内存里不再存一座山，算力不用翻整座山，百万上下文的成本自然下来了。

Muon 和 mHC：训练上的降本增效

架构的聪明不止在推理侧。报告用专门章节讲了两项训练优化。

一个是此前已经被放出来过的 Muon 优化器。

大多数优化器拿到梯度，一个参数一个参数地调。Muon 不这么干。它把整个梯度矩阵做一步“捋正”运算，让各行更新方向相互独立、不打架。效果就是每次更新都踩在最干净的方向上，同样步数学到更多，变相省算力。为了配合 Muon，分布式策略也改了：稠密参数限制切分，每个 GPU 最多管五个完整矩阵；MoE 参数直接拼成大向量等分，不切单个矩阵。梯度通信还做了 BF16 量化，砍掉一半通信量。

另一个是 mHC——流形约束超连接。

深层网络的老大难是信号穿几十层，要么逐层放大到溢出，要么衰减到消失。mHC 的解法是给残差连接加个数学笼子——强制每层的混合矩阵满足“每行每列和为 1，元素非负”。这保证了无论怎么传，幅度不发散。

实现上，DeepSeek V4 拿到参数后，做 20 次交替的行归一化和列归一化，硬把矩阵拉回约束集合。报告承认万亿参数训练遇到了损失尖峰，但用两招解决了：“预判路由”打破路由和主网络的同步更新循环，“SwiGLU 截断”把激活值钳在 [-10,10]。

一如既往的，数学上很干净，工程上训练不崩。

后训练更绝：分头训专才，再无损蒸馏

DeepSeek V4 的后训练流程也很有想法，报告用第五章详述了这套“先分后合”的工艺。

第一步，分别对代码、数学、智能体、指令遵循等方向独立训练专家模型。每个专家都先做 SFT 打底，再用 GRPO 强化学习，配合领域专属的奖励模型。连奖励模型本身也是生成式的——让模型同时学会“判卷”和“答卷”，减少对人类标注的依赖。

报告中很有意思的一点是为不同推理模式设了三种档位：Non-think（无思考标签，快速回答）、Think High（显式思维链但受控长度）、Think Max（极限思维模式，给特殊系统提示同时放宽长度惩罚）。三种模式在 RL 训练时分别用不同的上下文窗口和惩罚系数，让同一套权重能根据场景切推理深度。

第二步，用在策略蒸馏把所有专才的知识融合到一个统一模型里。关键是，他们做的不是 token 级近似，而是全词表级别的反向 KL 散度——保持教师完整的 logit 分布。这带来了巨大的计算压力：词表 128K，十多个老师，每个都是万亿参数级别。报告给出的解决路径是：教师权重从中心化存储按需加载；不存完整 logits，只缓最后一层隐藏状态，训练时即时重算；按教师索引排序样本，保证同一时刻 GPU 上只有一个教师头。这些都是生产环境才会碰到的硬问题。

效果直接反映在基准上。Pro Max 在知识基准 SimpleQA 拿下 57.9，比开源最佳高出 20 个点；数学 Putnam 2025 做到 120/120 满分；Codeforces 评分在人类选手中排第 23。这三个分属不同类型的任务同时冲顶，背后的路线选择是被验证了的。

“细粒度通信-计算重叠”和昇腾“原生”

报告里另一个让所有人都非常关注的事情，就是：它和华为昇腾到底是什么关系。

报告 3.1 节原文是：“我们在 NVIDIA GPU 和华为昇腾 NPU 两个平台上验证了这个细粒度的专家并行方案。”两个平台并列，写在验证结论里。

这套方案的核心是把 MoE 的通信和计算切成更细的颗粒，按“波”调度。每个波只含一小部分专家，这个波的通信一完成立刻开始计算，同一时刻，下一个波的通信和上一个波的结果回传同步进行。报告里的加速比数据是：通用推理 1.50–1.73 倍，RL 长尾小批次最高 1.96 倍。

报告还给了硬件设计公式：每 GBps 通信带宽对应 6.1 TFLOP/s 算力，通信就能被完全隐藏。这意味着 DeepSeek 在用架构告诉硬件厂商：不用卷带宽，按这个比例配算力就行。这比适配某个具体型号高一个维度——是定义需求。昇腾 950 如果按这个配比来设计，跑 V4 就能把利用率拉到满。

你可以这样理解，MoE 每次计算都要在不同 GPU 之间搬运中间结果，以前是搬完才算，搬运时长全在等。现在是把搬运拆碎，搬一小批就算一小批，算的同时继续搬下一批。结果就是搬运时间被计算时间吃掉了，用户感觉不到等。这套机制不挑硬件，只要算力和带宽的比例到位，NVIDIA 还是昇腾都能跑出高利用率。

报告也提到了用 TileLang 做算子开发，配合 Z3 SMT 求解器自动验证和优化；同时要求训练推理“批次不变”和“确定性”——同一个 token 无论和谁一批、在什么硬件上，输出比特级一致。这对昇腾这种新硬件的调试和部署是基础设施级的支持。

虽然开源 MegaMoE 内核还是 CUDA 版，主力训练集群大概率仍是 NVIDIA，但架构上已经把适配昇腾的土壤翻松了、路铺平了。

加上报告公开说 FP4 在未来硬件上还能再提效三分之一，以及官方文档里那句“预计下半年昇腾 950 超节点批量上市后 Pro 价格大幅下调”，信号已经不能更明确了。

看完V4的报告，感触它想得够清楚。

过去两年，行业解决长文本问题的主流思路本质上是在堆资源。要么堆显存，把KV缓存硬塞进去；要么堆算力，让芯片更快一点。这条路走到现在，边际效益已经很明显了。

DeepSeek V4换了一个完全不同的方向——不再追着“怎么能扛住”不放，而是问“这东西真的需要全记住吗”。CSA和HCA本质上是让模型在记忆的时候就有了层次感，细颗粒的、粗颗粒的、最近的原文，各存各的。这不再是工程上的妥协，而是架构层面对“什么值得记住”这个问题的重新回答。思路一旦转过来了，效率的提升就是数量级的。

而这套东西还有一个容易被低估的价值，就是它让硬件的选择权回到了算法这边。

过去芯片决定模型能跑多长的上下文，带宽不够就不行。V4这套压缩加波浪调度的方案出来后，算和搬的比例被一个公式定义清楚了。这意味着不是算法去适配硬件，而是算法在告诉硬件应该怎么设计。昇腾被写进验证平台、FP4留出三分之一效率冗余，这些细节放在一起看，就知道它从一开始就没打算绑定某一家。这种独立性，在现在这个时间点，比性能本身更有分量。

V4的神就在这里。

它再次给大家提供了一个更聪明的选择。

而这正是前不久黄仁勋在播客里有些失去耐心时表达的担心：当所有人都在去CUDA，都在摆脱硬件主导的限制，当DeepSeek这类开源模型有一天可以原生长在华为等其他芯片生态里。今天AI格局的根基会迅速动摇。

现在看，他的担心不无道理。

「不诱于誉，不恐于诽，率道而行，端然正己。」这是DeepSeek官方公告里的一句与其他内容都不同的话，这句话也几乎是V4的特质，它让人继续对DeepSeek接下来的目标充满期待。