打开网易新闻 查看精彩图片

作者:王兆洋 + DeepSeek V4 专家模式

V4 终于终于终于终于是来了。

而且它不在假期,不在深夜,而是突然就发了。模型,开源权重,技术报告和官方的文章同时发给所有人。

官方给出的亮点是“百万上下文的普惠”。但显然,这个模型里DeepSeek做的创新工作还是非常的多。

打开网易新闻 查看精彩图片

一如既往的,它的技术报告是今天比读任何新闻都过瘾的存在。

这一次V4最让人欣喜的是,它的架构依然在进化,且依然极度聪明。它告诉整个 AI 圈一件事:不用堆参数,不用买更多卡,仅靠对注意力机制和训练方式的重新发明,就能把百万 token 长文本的门槛踩到地板上。

而且,外界一直在关注的用“华为芯片”训练的问题,也终于有所揭晓:这次华为昇腾的名字,是和 NVIDIA 并列写在验证平台里的。虽然从技术报告来看,训练部分依然大概率用的英伟达芯片,但在与昇腾的适配上,它显然达到了前所未有的“原生”水平。这后面的意味,比跑分更有意思。

而在官方文档里,API价格的地方有一行小字:

受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。

打开网易新闻 查看精彩图片

这同样让人浮想联翩,且让人对未来更加期待。

1

27% 和 10%,这两个数字定义了什么叫“效率革命”

看看技术报告里的硬数据。基准是 DeepSeek-V3.2——本身已经是一个效率很高的模型。

在 100 万 token 上下文下(大约能装三部《三体》),DeepSeek-V4-Pro——1.6 万亿参数,激活 49B——处理一个新 token 需要的算力只有 V3.2 的 27%,KV 缓存只占 10%

而小杯 DeepSeek-V4-Flash:284B 参数,激活仅 13B,算力只要 10%,缓存只要 7%。

一个容易被忽略的细节:报告明确标注,单 token 推理算力的单位是等效 FP8 FLOPs。这不是拿低精度取巧,而是已经换算到和 V3.2 相同的精度标准去比。而且,V4 系列的路由专家权重还用了 FP4 精度,报告特别指出,现有硬件上 FP4 和 FP8 的峰值算力相同,但未来硬件上 FP4 可以再高出三分之一的效率。换句话说,现在的数字还不是天花板,等昇腾 950 这类新硬件到位,还有一波可挖的潜力。

长上下文,正在从奢侈品变成日用品。

打开网易新闻 查看精彩图片

1

凭什么能做到?两大压缩注意力,从根源上做手术

传统 Transformer 处理长文本的死穴:序列长度加 N 倍,注意力计算量平方级爆炸,KV 缓存线性膨胀。这个瓶颈不破,百万 token 就只是论文里的数字。

DeepSeek V4 的办法不是凑合,而是直接改造注意力机制本身。总体架构上,注意力层采用 CSA 和 HCA 交错配置,前馈层沿用 DeepSeekMoE,残差连接用 mHC 加强。核心是两种新注意力。

CSA——压缩稀疏注意力

CSA 的数据流分三路并行。KV token 的隐藏状态同时进入三个模块:一个 Token-Level Compressor 负责把每 4 个 token 的 KV 缓存压缩成一个条目;一个 Lightning Indexer 生成“索引键”,用于后续的匹配打分;同一个索引器还生成“索引分数”。查询 token 的隐藏状态则单独进入 Lightning Indexer,生成查询侧的索引分数。两边一合,送入 Top-k 选择器,从所有压缩块中只挑出最相关的 512 个(Pro 版是 1024 个)。最后,这些选中的压缩块和滑动窗口里保留的 128 个原始 token 拼在一起,送进核心的多查询注意力计算。

打开网易新闻 查看精彩图片

索引器的实现细节:查询端先降维到 dc=1024,减少参数量,再升维到多头索引查询,配合 ReLU 激活后与压缩索引键计算分数。这一整套不是简单的“截断”,是学出来的动态筛选——哪些信息重要、哪些可以忽略,由模型自己在训练中决定。

HCA——重度压缩注意力

和 CSA 不同,HCA 去掉了整个稀疏选择链路——没有 Lightning Indexer,没有 Top-k Selector。数据流非常直接:KV token 隐藏状态经过 Token-Level Compressor 压缩(压缩比 m'=128,远大于 CSA 的 4),得到的压缩条目直接与滑动窗口 KV 拼在一起,送进 MQA。因为每条目覆盖 128 个 token,条目总量已经很少,全量算也不贵,省掉了筛选环节。这是为了抓全局结构,避免模型“只见树木不见森林”。

两种注意力都额外配了一个滑动窗口,保留最近 128 个 token 的原始 KV 不压缩,确保局部依赖没有精度损失。同时还用了注意力沉降技术——给每个头一个可学习的 sink logit,加到注意力的分母里,让每个头可以选择“什么都不关注”。

打开网易新闻 查看精彩图片

另外,报告透露了一个重要的工程决定:CSA 和 HCA 在 Query 和 KV 上只对最后 64 个维度施加 RoPE 位置编码,其他维度不编码。同时 KV 缓存采用混合精度存储——RoPE 维度用 BF16,其余维度用 FP8——又把缓存砍掉近一半。

而这套注意力架构要真正落地,缓存管理也必须重新设计。V4 的 KV 缓存被拆成两大块:一块是“状态缓存”,每个请求分一个固定大小的区域,存滑动窗口最近 128 个 token 的 KV,以及 CSA/HCA 中还没攒够 4 个或 128 个 token、暂时无法压缩的“尾料”。

打开网易新闻 查看精彩图片

另一块是“经典缓存”,存已经压缩好的条目。经典缓存里,每个块覆盖的原始 token 数是两种压缩比(4 和 128)的最小公倍数,这样同一块里 CSA 和 HCA 的压缩结果都能对齐——CSA 产 32 个压缩条目,HCA 产 1 个——不会因为两种压缩率不一致导致碎片化管理。这套缓存布局,是百万上下文能从实验室走进生产环境的关键工程基础设施。

打开网易新闻 查看精彩图片

所以这套方案是压缩、稀疏化、混合精度、滑动窗口、注意力沉降、精细缓存管理多管齐下。局部细节、中段关联、全局脉络,全抓住了,算力开销断崖式下降。

也就是说, 传统注意力机制要求每个 token 和历史上所有 token 都做一次交互,历史多长,活儿就多沉。DeepSeek V4 做的,是把“记忆”本身先整理成层次化的摘要——有些是每一小段的凝练,有些是每一章的概括,再加上眼前几句话的原文。需要调用哪一层、哪一段,由模型自己根据当前要解决的问题即场判断。内存里不再存一座山,算力不用翻整座山,百万上下文的成本自然下来了。

1

Muon 和 mHC:训练上的降本增效

架构的聪明不止在推理侧。报告用专门章节讲了两项训练优化。

一个是此前已经被放出来过的 Muon 优化器。

大多数优化器拿到梯度,一个参数一个参数地调。Muon 不这么干。它把整个梯度矩阵做一步“捋正”运算,让各行更新方向相互独立、不打架。效果就是每次更新都踩在最干净的方向上,同样步数学到更多,变相省算力。为了配合 Muon,分布式策略也改了:稠密参数限制切分,每个 GPU 最多管五个完整矩阵;MoE 参数直接拼成大向量等分,不切单个矩阵。梯度通信还做了 BF16 量化,砍掉一半通信量。

另一个是 mHC——流形约束超连接。

深层网络的老大难是信号穿几十层,要么逐层放大到溢出,要么衰减到消失。mHC 的解法是给残差连接加个数学笼子——强制每层的混合矩阵满足“每行每列和为 1,元素非负”。这保证了无论怎么传,幅度不发散。

实现上,DeepSeek V4 拿到参数后,做 20 次交替的行归一化和列归一化,硬把矩阵拉回约束集合。报告承认万亿参数训练遇到了损失尖峰,但用两招解决了:“预判路由”打破路由和主网络的同步更新循环,“SwiGLU 截断”把激活值钳在 [-10,10]。

一如既往的,数学上很干净,工程上训练不崩。

1

后训练更绝:分头训专才,再无损蒸馏

DeepSeek V4 的后训练流程也很有想法,报告用第五章详述了这套“先分后合”的工艺。

第一步,分别对代码、数学、智能体、指令遵循等方向独立训练专家模型。每个专家都先做 SFT 打底,再用 GRPO 强化学习,配合领域专属的奖励模型。连奖励模型本身也是生成式的——让模型同时学会“判卷”和“答卷”,减少对人类标注的依赖。

报告中很有意思的一点是为不同推理模式设了三种档位:Non-think(无思考标签,快速回答)、Think High(显式思维链但受控长度)、Think Max(极限思维模式,给特殊系统提示同时放宽长度惩罚)。三种模式在 RL 训练时分别用不同的上下文窗口和惩罚系数,让同一套权重能根据场景切推理深度。

第二步,用在策略蒸馏把所有专才的知识融合到一个统一模型里。关键是,他们做的不是 token 级近似,而是全词表级别的反向 KL 散度——保持教师完整的 logit 分布。这带来了巨大的计算压力:词表 128K,十多个老师,每个都是万亿参数级别。报告给出的解决路径是:教师权重从中心化存储按需加载;不存完整 logits,只缓最后一层隐藏状态,训练时即时重算;按教师索引排序样本,保证同一时刻 GPU 上只有一个教师头。这些都是生产环境才会碰到的硬问题。

效果直接反映在基准上。Pro Max 在知识基准 SimpleQA 拿下 57.9,比开源最佳高出 20 个点;数学 Putnam 2025 做到 120/120 满分;Codeforces 评分在人类选手中排第 23。这三个分属不同类型的任务同时冲顶,背后的路线选择是被验证了的。

打开网易新闻 查看精彩图片

1

“细粒度通信-计算重叠”和昇腾“原生”

报告里另一个让所有人都非常关注的事情,就是:它和华为昇腾到底是什么关系。

报告 3.1 节原文是:“我们在 NVIDIA GPU 和华为昇腾 NPU 两个平台上验证了这个细粒度的专家并行方案。”两个平台并列,写在验证结论里。

打开网易新闻 查看精彩图片

这套方案的核心是把 MoE 的通信和计算切成更细的颗粒,按“波”调度。每个波只含一小部分专家,这个波的通信一完成立刻开始计算,同一时刻,下一个波的通信和上一个波的结果回传同步进行。报告里的加速比数据是:通用推理 1.50–1.73 倍,RL 长尾小批次最高 1.96 倍。

打开网易新闻 查看精彩图片

报告还给了硬件设计公式:每 GBps 通信带宽对应 6.1 TFLOP/s 算力,通信就能被完全隐藏。这意味着 DeepSeek 在用架构告诉硬件厂商:不用卷带宽,按这个比例配算力就行。这比适配某个具体型号高一个维度——是定义需求。昇腾 950 如果按这个配比来设计,跑 V4 就能把利用率拉到满。

你可以这样理解,MoE 每次计算都要在不同 GPU 之间搬运中间结果,以前是搬完才算,搬运时长全在等。现在是把搬运拆碎,搬一小批就算一小批,算的同时继续搬下一批。结果就是搬运时间被计算时间吃掉了,用户感觉不到等。这套机制不挑硬件,只要算力和带宽的比例到位,NVIDIA 还是昇腾都能跑出高利用率。

报告也提到了用 TileLang 做算子开发,配合 Z3 SMT 求解器自动验证和优化;同时要求训练推理“批次不变”和“确定性”——同一个 token 无论和谁一批、在什么硬件上,输出比特级一致。这对昇腾这种新硬件的调试和部署是基础设施级的支持。

虽然开源 MegaMoE 内核还是 CUDA 版,主力训练集群大概率仍是 NVIDIA,但架构上已经把适配昇腾的土壤翻松了、路铺平了。

加上报告公开说 FP4 在未来硬件上还能再提效三分之一,以及官方文档里那句“预计下半年昇腾 950 超节点批量上市后 Pro 价格大幅下调”,信号已经不能更明确了。

看完V4的报告,感触它想得够清楚。

过去两年,行业解决长文本问题的主流思路本质上是在堆资源。要么堆显存,把KV缓存硬塞进去;要么堆算力,让芯片更快一点。这条路走到现在,边际效益已经很明显了。

DeepSeek V4换了一个完全不同的方向——不再追着“怎么能扛住”不放,而是问“这东西真的需要全记住吗”。CSA和HCA本质上是让模型在记忆的时候就有了层次感,细颗粒的、粗颗粒的、最近的原文,各存各的。这不再是工程上的妥协,而是架构层面对“什么值得记住”这个问题的重新回答。思路一旦转过来了,效率的提升就是数量级的。

而这套东西还有一个容易被低估的价值,就是它让硬件的选择权回到了算法这边。

过去芯片决定模型能跑多长的上下文,带宽不够就不行。V4这套压缩加波浪调度的方案出来后,算和搬的比例被一个公式定义清楚了。这意味着不是算法去适配硬件,而是算法在告诉硬件应该怎么设计。昇腾被写进验证平台、FP4留出三分之一效率冗余,这些细节放在一起看,就知道它从一开始就没打算绑定某一家。这种独立性,在现在这个时间点,比性能本身更有分量。

V4的神就在这里。

它再次给大家提供了一个更聪明的选择。

而这正是前不久黄仁勋在播客里有些失去耐心时表达的担心:当所有人都在去CUDA,都在摆脱硬件主导的限制,当DeepSeek这类开源模型有一天可以原生长在华为等其他芯片生态里。今天AI格局的根基会迅速动摇。

现在看,他的担心不无道理。

「不诱于誉,不恐于诽,率道而行,端然正己。」这是DeepSeek官方公告里的一句与其他内容都不同的话,这句话也几乎是V4的特质,它让人继续对DeepSeek接下来的目标充满期待。

打开网易新闻 查看精彩图片

点个爱心,再走 吧