DeepSeek V4发布后,最值得看的不是跑分,而是价格表下面一行小字。
在V4的定价说明中,DeepSeek提到,受限于高端算力,目前Pro版服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。
这句话比很多技术参数更有信息量。它说明DeepSeek的低价已经不再只是模型工程优化的结果,而开始和国产算力的供给节奏绑定。过去,模型公司降价,外界通常理解为算法效率提升、厂商补贴或新一轮价格战。但这一次,DeepSeek把未来降价的前提,直接指向了昇腾950超节点的规模化部署。
过去一年,DeepSeek 改变了中国大模型行业的定价方式。V3和R1发布后,国内外模型厂商被迫重新计算API价格、训练成本和商业化路径。到了V4,问题变得更复杂。DeepSeek不只是继续降价,而是把降价的下一步,压到了国产算力的规模化部署上。在笔者看来,这意味着中国大模型的竞争正在从“谁的模型能力更强”,进入“谁能把模型、芯片、工程系统和商业组织连成闭环”的阶段。
4月24日上午,DeepSeek宣布全新系列模型DeepSeek-V4预览版正式上线并同步开源。
这次不是单一模型,而是两个版本同时推出:DeepSeek-V4-Pro和DeepSeek-V4-Flash。根据 DeepSeek披露的信息,V4-Pro总参数为1.6万亿,激活参数490亿,定位高性能任务;V4-Flash 总参数2840亿,激活参数130亿,主打低成本和高吞吐。两款模型均采用MoE架构,也就是“混合专家模型”。
知名科技产业时评人彭德宇对笔者分析到:MoE的逻辑并不复杂。一个大模型内部可以有很多“专家”,但每次回答问题时,不需要所有专家同时工作,只调用最相关的一部分。这样既能做大模型容量,又不会让每一次调用都背上完整参数的算力负担。对用户来说,感知到的是模型更便宜、更快;对模型公司来说,关键是单位推理成本被压低。
价格延续了DeepSeek一贯的打法。按照V4公布的API定价,Pro版输入缓存命中价格为1元/百万token,输出24元/百万token;Flash版输入缓存命中价格为0.2元/百万token,输出2元/百万token。梳理对比来看,目前智谱GLM-5.1输入缓存命中价格约为1.3-2元/百万token,Kimi-K2.6输入缓存命中价格约为1.1元/百万token。也就是说,V4的输入价格仍然处在国内主流模型低位。
但这并不意味着V4已经全面拉开差距。企业战略定位专家吴玉兴如此对笔者分析:V4的性能突破相比R1当时带来的冲击要小一些。它依然处于第一梯队,但在部分复杂Agent任务和最广泛的世界知识上,与最顶尖闭源模型仍有差距。
V4最关键的点,不在参数表,而在那句关于昇腾950的说明。
DeepSeek在定价说明中明确提到,受限于高端算力,目前Pro版服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。一个模型公司把未来降价和某一类算力集群的上市节奏直接绑定,这在行业里并不常见。它说明模型价格开始被算力结构决定。
过去DeepSeek便宜,更多被理解为模型架构和工程效率的胜利。V2用MoE降低激活参数规模;R1用更高效的训练和推理路线冲击行业对算力堆叠的依赖;那么V3则以极致成本控制与工程优化,瓦解了通用大模型的传统定价逻辑。V3和R1之后,国内大模型被迫进入新一轮价格重估。但V4的不同之处在于,DeepSeek开始把低价的下一步,放到国产算力的规模化部署上。
根据DeepSeek技术报告,V4在系统底层做了细粒度专家并行,也就是EP方案。用通俗的话说,就是优化模型在芯片上的调度方式,让计算和通信像流水线一样重叠起来,减少芯片等待时间。同样一批芯片,如果能处理更多请求,单位推理成本自然会下降。
技术报告提到,这套EP方案已经在英伟达GPU和华为昇腾NPU两套体系上完成验证,通用推理任务可实现1.5-1.73倍加速,在对延迟敏感的场景(如RL推演和高速代理服务)最高可达1.96倍。华为昇腾方面也在V4发布后宣布,超节点全系列产品支持DeepSeek V4系列模型,据了解,昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理部署。
彭德宇对笔者说到:这组信息的意义不只是“推理更快”。它意味着 DeepSeek的工程优化开始具备跨平台能力。过去,大模型公司大多围绕英伟达CUDA体系开发。CUDA不只是一个编程工具,更像AI时代的底层操作系统。全球大量开发者、算子库、框架和模型代码都围绕CUDA构建,一旦离开这个体系,很多底层代码需要重写,工程成本和测试成本都很高。这也是英伟达真正的护城河。
DeepSeek现在做的,不是马上推翻CUDA,而是尝试给自己留出第二条路。综合媒体报道信息来看,DeepSeek通过TileLang、Tile Kernels等方式,把部分底层算子逻辑从单一CUDA路径中抽象出来,用更通用的语言表达计算逻辑,再由编译器生成适配不同硬件的底层代码。这样一来,开发者不必为每一种GPU或NPU完全重写一套代码,而可以先写通用逻辑,再针对具体硬件做优化。
这对国产芯片很重要。国产AI芯片过去面临的不只是纸面算力问题,更是软件生态和有效利用率问题。芯片能不能用好,取决于模型、算子、编译器、通信、显存管理等多个环节。DeepSeek如果能在华为昇腾上跑通前沿模型,并把推理成本打下来,它带来的不只是一个模型的适配案例,而是一次软硬件协同的技术验证。
但DeepSeek并没有马上摆脱英伟达,短期内,CUDA仍然是最成熟、最稳定的路径。V4释放出的信号是,国产算力已经开始进入DeepSeek的关键成本结构,并在一定程度上影响未来定价。它还没有推翻CUDA,但它让CUDA不再显得完全不可替代。
这正是黄仁勋担心的地方。英伟达创始人黄仁勋近期在接受Dwarkesh Patel专访时曾表示,如果DeepSeek先在华为平台上发布,对美国而言将是灾难性的。李睿指出,这个判断并不是因为DeepSeek某一项跑分超过了谁,而是因为一旦顶级开源模型能够在非英伟达体系上稳定运行,开发者就有可能开始改变习惯。模型足够好,价格足够低,工具链逐渐成熟,迁移就不再只是政治选择或供应链选择,而会变成商业选择。
所以,V4的第二层意义,是DeepSeek的低价逻辑正在从“模型优化驱动”,转向“模型优化+算力体系驱动”。过去,大模型价格主要由算法效率、训练成本和厂商补贴决定;现在,价格开始和芯片供给、超节点部署、软硬件协同效率绑定。对DeepSeek来说,这是一条通向更低成本的路;对英伟达来说,这是一道暂时不大、但必须警惕的裂缝。
只是,软硬件协同不是轻资产生意。模型越深地嵌入芯片和基础设施,DeepSeek要承担的成本、组织压力和商业化压力也越大。
据新浪科技报道,近期DeepSeek还曝出了计划融资500亿元的消息,有接近DeepSeek的知情人士透露,DeepSeek融前估值为3000亿元,约合440亿美元,目前腾讯控股、阿里巴巴集团均正在洽谈投资DeepSeek。不过,对于融资相关事宜,DeepSeek方面至今未正面回应媒体问询。
具体估值不是最重要的。关键的是DeepSeek开始打开外部融资窗口。这意味着它面对的竞争已经不只是模型能力,而是延伸到了算力投入、人才稳定、员工激励和商业化能力。
第一重压力来自算力。V4越往国产算力深处走,越需要基础设施投入。模型参数从千亿级走向万亿级,训练和推理成本都会抬升。如果还要围绕昇腾体系做更多适配、调优和部署,DeepSeek就不能只是一家轻资产模型公司。当前DeepSeek已经在内蒙古乌兰察布招聘数据中心运维工程师,这是其首次招聘直接负责计算基础设施运营的人才,这也被外界视为其向更重的算力基础设施方向移动的信号。
对一家总共不到200人的公司来说,这类流动不是普通人员变化。媒体报道称,DeepSeek核心研发团队约100多人,几乎不社招,主要依靠应届生和实习生留任。在这样的团队里,一个核心研究员离开,可能影响的不是一个岗位,而是一条技术线的连续性。
这并不意味着DeepSeek的组织不好。相反,外界对DeepSeek的长期印象,正是它有一套大厂很难复制的组织方式:不打卡、不设 KPI,研究员可以自由组队,也可以独自钻研新想法。这种组织方式适合早期技术突破,也解释了为什么DeepSeek能在过去几年不断做出反常识的工程创新。但当行业进入更重的阶段,问题就变了。顶级人才不只看工作自由度,也看技术方向、资源投入和落地场景。大厂能同时给钱、算力、产品场景和更大的团队。
第三重压力来自商业化。V4发布前,DeepSeek App已在4月8日改版,上线支持复杂推理的“专家模式”和处理简单任务的“快速模式”。随着V4发布,外界才知道,专家模式对应的是1.6万亿参数的 V4-Pro,快速模式对应的是2840亿参数的V4-Flash。这个变化说明,DeepSeek 不再只是把模型放出来让开发者使用,而是在开始打磨面向用户的产品分层。
彭德宇指出,这与开源路线之间存在天然张力。开源可以快速建立技术声量,也能让开发者和生态伙伴更快复用DeepSeek 的路线。但开源通常意味着更薄的利润空间,更高的成本敏感度。OpenAI、Anthropic 这类闭源公司可以通过订阅、API、企业服务建立更直接的商业闭环;谷歌、亚马逊、微软可以把模型成本消化在云计算和生态体系里。DeepSeek没有这些现成的商业缓冲层。如果它要继续坚持低价、开源和前沿模型研发,就必须找到新的资金、算力和商业化支撑。
在笔者看来,这也是V4真正暴露出来的深层问题。它证明中国大模型已经有能力在模型能力、推理价格和国产算力适配上同时向前走一步;但它也证明,大模型竞争已经不再是少数天才写出更好算法的比赛。下一阶段拼的是算力基础设施、工程系统、产品转化、融资能力和人才密度。
热门跟贴