这几天,AI圈子又炸了。
DeepSeek-V4,终于来了。
说实话,这段时间行业节奏已经快到有些失真。新模型一波接一波,参数、榜单、价格、长上下文、Agent、推理强度,几乎每隔几天就要重排一次座次。
越是在这种密集更新里,DeepSeek的沉默就越容易被放大。
所以,V4这次上线,大家真正想知道的其实是两件事:
第一,DeepSeek还在不在第一梯队里。
第二,它这次到底拿出了什么新东西。
先说结论:V4不是一代靠"能力全面跃升"来定义自己的模型。
它做了一件更狠的事——把长上下文的成本结构彻底重写了一遍。
100万token上下文成为标配,但单token的算力消耗反而大幅下降。
两个版本、百万上下文、三档推理
这次V4一共两个版本。
V4-Pro是旗舰版,总参数1.6T,激活参数49B;V4-Flash是轻量版,总参数284B,激活参数13B。
两者都原生支持1M上下文,同时支持非思考模式和思考模式。
每个模型又分成三档推理强度:Non-think、Think High、Think Max。
Pro负责冲能力上限,Flash负责铺性价比;非思考负责效率,Max负责榨干推理能力。
DeepSeek不是想把1M当成一个展示参数,而是想把它做成标准配置。
这次最狠的还是价格
在1M上下文设置下,V4-Pro的单token推理FLOPs只有V3.2的27%,KV Cache只有10%;V4-Flash更激进,分别压到10%和7%。
虽然上下文从128K拉到了1M,理论上放大接近8倍,但单token的推理成本并没有跟着爆炸,反而被打了下来。
V4这次真正想证明的是,长上下文不一定只能做成贵族配置,它可以被改造成可供大规模调用的基础能力。
V4-Pro每百万token输入价格是1元,输出是12元;V4-Flash每百万token输入0.2元,输出2元。
便宜,而且强。
技术上动了三刀
V4最核心的技术改动在注意力层。
传统Transformer的注意力机制里,每个token要和前面所有token算一遍相似度。上下文从10万拉到100万,计算量增长的不是10倍,是100倍。
V4的做法是把注意力拆成两种,交替叠用。一种叫CSA(压缩稀疏注意力),一种叫HCA(重压缩注意力)。
这是DeepSeek第一次把"稀疏化"的刀动到Transformer的核心结构里。
同时动注意力、残差、优化器三处核心结构,在DeepSeek的历史上是第一次。
后训练方法的切换
比架构改动更值得注意的是后训练方法的切换。
V4换成了"分化再统一"的两步走。
第一步,针对数学、代码、Agent、指令跟随等不同领域,每个领域单独训练一个专家模型。
第二步,用On-Policy Distillation(OPD,在策略蒸馏)把十多个领域专家"合成"回一个统一的学生模型。
通俗地讲,就是把一堆尖子生的本事蒸馏进同一个人脑袋里。
Agent能力与算力现实
在Agent方向,V4做了几处专项优化,在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平。
但V4这次发布,另一个绕不开的话题,是算力。
DeepSeek在说明里提到,受限于高端算力,当前Pro的服务吞吐仍然有限,预计下半年昇腾950超节点批量上市之后,Pro的价格还会进一步大幅下调。
它基本等于确认了两件事:
第一,DeepSeek这次确实已经把国产算力协同放进正式路线里了。
第二,V4当前的能力释放,还没有完全到位,背后依然受制于算力供给。
此前有消息称,DeepSeek正以超过100亿美元估值寻求外部融资。
怎么理解这次V4?
如果说过去外界对DeepSeek的期待,是它还能不能再做出一个"便宜又强"的模型;
那么V4给出的回答是:
它不仅还在这么做,而且正在试图把"便宜又强"这件事,进一步做成一种结构性的能力。
但至少现在,V4已经证明了一件事:
DeepSeek,还在牌桌上。
而且,它手里还有牌。
热门跟贴