这几天,AI圈子又炸了。

打开网易新闻 查看精彩图片

DeepSeek-V4,终于来了。

说实话,这段时间行业节奏已经快到有些失真。新模型一波接一波,参数、榜单、价格、长上下文、Agent、推理强度,几乎每隔几天就要重排一次座次。

越是在这种密集更新里,DeepSeek的沉默就越容易被放大。

所以,V4这次上线,大家真正想知道的其实是两件事:

第一,DeepSeek还在不在第一梯队里。

第二,它这次到底拿出了什么新东西。

先说结论:V4不是一代靠"能力全面跃升"来定义自己的模型。

它做了一件更狠的事——把长上下文的成本结构彻底重写了一遍。

100万token上下文成为标配,但单token的算力消耗反而大幅下降。

打开网易新闻 查看精彩图片

两个版本、百万上下文、三档推理

这次V4一共两个版本。

打开网易新闻 查看精彩图片

V4-Pro是旗舰版,总参数1.6T,激活参数49B;V4-Flash是轻量版,总参数284B,激活参数13B。

两者都原生支持1M上下文,同时支持非思考模式和思考模式。

每个模型又分成三档推理强度:Non-think、Think High、Think Max。

Pro负责冲能力上限,Flash负责铺性价比;非思考负责效率,Max负责榨干推理能力。

打开网易新闻 查看精彩图片

DeepSeek不是想把1M当成一个展示参数,而是想把它做成标准配置。

这次最狠的还是价格

在1M上下文设置下,V4-Pro的单token推理FLOPs只有V3.2的27%,KV Cache只有10%;V4-Flash更激进,分别压到10%和7%。

打开网易新闻 查看精彩图片

虽然上下文从128K拉到了1M,理论上放大接近8倍,但单token的推理成本并没有跟着爆炸,反而被打了下来。

V4这次真正想证明的是,长上下文不一定只能做成贵族配置,它可以被改造成可供大规模调用的基础能力。

V4-Pro每百万token输入价格是1元,输出是12元;V4-Flash每百万token输入0.2元,输出2元。

打开网易新闻 查看精彩图片

便宜,而且强。

技术上动了三刀

V4最核心的技术改动在注意力层。

传统Transformer的注意力机制里,每个token要和前面所有token算一遍相似度。上下文从10万拉到100万,计算量增长的不是10倍,是100倍。

V4的做法是把注意力拆成两种,交替叠用。一种叫CSA(压缩稀疏注意力),一种叫HCA(重压缩注意力)。

这是DeepSeek第一次把"稀疏化"的刀动到Transformer的核心结构里。

同时动注意力、残差、优化器三处核心结构,在DeepSeek的历史上是第一次。

后训练方法的切换

比架构改动更值得注意的是后训练方法的切换。

V4换成了"分化再统一"的两步走。

第一步,针对数学、代码、Agent、指令跟随等不同领域,每个领域单独训练一个专家模型。

第二步,用On-Policy Distillation(OPD,在策略蒸馏)把十多个领域专家"合成"回一个统一的学生模型。

通俗地讲,就是把一堆尖子生的本事蒸馏进同一个人脑袋里。

Agent能力与算力现实

在Agent方向,V4做了几处专项优化,在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平。

但V4这次发布,另一个绕不开的话题,是算力。

DeepSeek在说明里提到,受限于高端算力,当前Pro的服务吞吐仍然有限,预计下半年昇腾950超节点批量上市之后,Pro的价格还会进一步大幅下调。

打开网易新闻 查看精彩图片

它基本等于确认了两件事:

第一,DeepSeek这次确实已经把国产算力协同放进正式路线里了。

第二,V4当前的能力释放,还没有完全到位,背后依然受制于算力供给。

此前有消息称,DeepSeek正以超过100亿美元估值寻求外部融资。

怎么理解这次V4?

如果说过去外界对DeepSeek的期待,是它还能不能再做出一个"便宜又强"的模型;

那么V4给出的回答是:

它不仅还在这么做,而且正在试图把"便宜又强"这件事,进一步做成一种结构性的能力。

但至少现在,V4已经证明了一件事:

DeepSeek,还在牌桌上。

而且,它手里还有牌。