一行小字，刺痛整个行业！模型降价竟与国产芯片供给深度绑定？|cuda|算力基础设施|算法

DeepSeek V4发布后，最值得看的不是跑分，而是价格表下面一行小字。

在V4的定价说明中，DeepSeek提到，受限于高端算力，目前Pro版服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro价格会大幅下调。

这句话比很多技术参数更有信息量。它说明DeepSeek的低价已经不再只是模型工程优化的结果，而开始和国产算力的供给节奏绑定。过去，模型公司降价，外界通常理解为算法效率提升、厂商补贴或新一轮价格战。但这一次，DeepSeek把未来降价的前提，直接指向了昇腾950超节点的规模化部署。

过去一年，DeepSeek 改变了中国大模型行业的定价方式。V3和R1发布后，国内外模型厂商被迫重新计算API价格、训练成本和商业化路径。到了V4，问题变得更复杂。DeepSeek不只是继续降价，而是把降价的下一步，压到了国产算力的规模化部署上。在笔者看来，这意味着中国大模型的竞争正在从“谁的模型能力更强”，进入“谁能把模型、芯片、工程系统和商业组织连成闭环”的阶段。

4月24日上午，DeepSeek宣布全新系列模型DeepSeek-V4预览版正式上线并同步开源。

这次不是单一模型，而是两个版本同时推出：DeepSeek-V4-Pro和DeepSeek-V4-Flash。根据 DeepSeek披露的信息，V4-Pro总参数为1.6万亿，激活参数490亿，定位高性能任务；V4-Flash 总参数2840亿，激活参数130亿，主打低成本和高吞吐。两款模型均采用MoE架构，也就是“混合专家模型”。

知名科技产业时评人彭德宇对笔者分析到：MoE的逻辑并不复杂。一个大模型内部可以有很多“专家”，但每次回答问题时，不需要所有专家同时工作，只调用最相关的一部分。这样既能做大模型容量，又不会让每一次调用都背上完整参数的算力负担。对用户来说，感知到的是模型更便宜、更快；对模型公司来说，关键是单位推理成本被压低。

价格延续了DeepSeek一贯的打法。按照V4公布的API定价，Pro版输入缓存命中价格为1元/百万token，输出24元/百万token；Flash版输入缓存命中价格为0.2元/百万token，输出2元/百万token。梳理对比来看，目前智谱GLM-5.1输入缓存命中价格约为1.3-2元/百万token，Kimi-K2.6输入缓存命中价格约为1.1元/百万token。也就是说，V4的输入价格仍然处在国内主流模型低位。

但这并不意味着V4已经全面拉开差距。企业战略定位专家吴玉兴如此对笔者分析：V4的性能突破相比R1当时带来的冲击要小一些。它依然处于第一梯队，但在部分复杂Agent任务和最广泛的世界知识上，与最顶尖闭源模型仍有差距。

V4最关键的点，不在参数表，而在那句关于昇腾950的说明。

DeepSeek在定价说明中明确提到，受限于高端算力，目前Pro版服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro价格会大幅下调。一个模型公司把未来降价和某一类算力集群的上市节奏直接绑定，这在行业里并不常见。它说明模型价格开始被算力结构决定。

过去DeepSeek便宜，更多被理解为模型架构和工程效率的胜利。V2用MoE降低激活参数规模；R1用更高效的训练和推理路线冲击行业对算力堆叠的依赖；那么V3则以极致成本控制与工程优化，瓦解了通用大模型的传统定价逻辑。V3和R1之后，国内大模型被迫进入新一轮价格重估。但V4的不同之处在于，DeepSeek开始把低价的下一步，放到国产算力的规模化部署上。

根据DeepSeek技术报告，V4在系统底层做了细粒度专家并行，也就是EP方案。用通俗的话说，就是优化模型在芯片上的调度方式，让计算和通信像流水线一样重叠起来，减少芯片等待时间。同样一批芯片，如果能处理更多请求，单位推理成本自然会下降。

技术报告提到，这套EP方案已经在英伟达GPU和华为昇腾NPU两套体系上完成验证，通用推理任务可实现1.5-1.73倍加速，在对延迟敏感的场景（如RL推演和高速代理服务）最高可达1.96倍。华为昇腾方面也在V4发布后宣布，超节点全系列产品支持DeepSeek V4系列模型，据了解，昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销，大幅提升推理性能，结合多种量化算法，实现了高吞吐、低时延的DeepSeek V4模型推理部署。

彭德宇对笔者说到：这组信息的意义不只是“推理更快”。它意味着 DeepSeek的工程优化开始具备跨平台能力。过去，大模型公司大多围绕英伟达CUDA体系开发。CUDA不只是一个编程工具，更像AI时代的底层操作系统。全球大量开发者、算子库、框架和模型代码都围绕CUDA构建，一旦离开这个体系，很多底层代码需要重写，工程成本和测试成本都很高。这也是英伟达真正的护城河。

DeepSeek现在做的，不是马上推翻CUDA，而是尝试给自己留出第二条路。综合媒体报道信息来看，DeepSeek通过TileLang、Tile Kernels等方式，把部分底层算子逻辑从单一CUDA路径中抽象出来，用更通用的语言表达计算逻辑，再由编译器生成适配不同硬件的底层代码。这样一来，开发者不必为每一种GPU或NPU完全重写一套代码，而可以先写通用逻辑，再针对具体硬件做优化。

这对国产芯片很重要。国产AI芯片过去面临的不只是纸面算力问题，更是软件生态和有效利用率问题。芯片能不能用好，取决于模型、算子、编译器、通信、显存管理等多个环节。DeepSeek如果能在华为昇腾上跑通前沿模型，并把推理成本打下来，它带来的不只是一个模型的适配案例，而是一次软硬件协同的技术验证。

但DeepSeek并没有马上摆脱英伟达，短期内，CUDA仍然是最成熟、最稳定的路径。V4释放出的信号是，国产算力已经开始进入DeepSeek的关键成本结构，并在一定程度上影响未来定价。它还没有推翻CUDA，但它让CUDA不再显得完全不可替代。

这正是黄仁勋担心的地方。英伟达创始人黄仁勋近期在接受Dwarkesh Patel专访时曾表示，如果DeepSeek先在华为平台上发布，对美国而言将是灾难性的。李睿指出，这个判断并不是因为DeepSeek某一项跑分超过了谁，而是因为一旦顶级开源模型能够在非英伟达体系上稳定运行，开发者就有可能开始改变习惯。模型足够好，价格足够低，工具链逐渐成熟，迁移就不再只是政治选择或供应链选择，而会变成商业选择。

所以，V4的第二层意义，是DeepSeek的低价逻辑正在从“模型优化驱动”，转向“模型优化+算力体系驱动”。过去，大模型价格主要由算法效率、训练成本和厂商补贴决定；现在，价格开始和芯片供给、超节点部署、软硬件协同效率绑定。对DeepSeek来说，这是一条通向更低成本的路；对英伟达来说，这是一道暂时不大、但必须警惕的裂缝。

只是，软硬件协同不是轻资产生意。模型越深地嵌入芯片和基础设施，DeepSeek要承担的成本、组织压力和商业化压力也越大。

据新浪科技报道，近期DeepSeek还曝出了计划融资500亿元的消息，有接近DeepSeek的知情人士透露，DeepSeek融前估值为3000亿元，约合440亿美元，目前腾讯控股、阿里巴巴集团均正在洽谈投资DeepSeek。不过，对于融资相关事宜，DeepSeek方面至今未正面回应媒体问询。

具体估值不是最重要的。关键的是DeepSeek开始打开外部融资窗口。这意味着它面对的竞争已经不只是模型能力，而是延伸到了算力投入、人才稳定、员工激励和商业化能力。

第一重压力来自算力。V4越往国产算力深处走，越需要基础设施投入。模型参数从千亿级走向万亿级，训练和推理成本都会抬升。如果还要围绕昇腾体系做更多适配、调优和部署，DeepSeek就不能只是一家轻资产模型公司。当前DeepSeek已经在内蒙古乌兰察布招聘数据中心运维工程师，这是其首次招聘直接负责计算基础设施运营的人才，这也被外界视为其向更重的算力基础设施方向移动的信号。

对一家总共不到200人的公司来说，这类流动不是普通人员变化。媒体报道称，DeepSeek核心研发团队约100多人，几乎不社招，主要依靠应届生和实习生留任。在这样的团队里，一个核心研究员离开，可能影响的不是一个岗位，而是一条技术线的连续性。

这并不意味着DeepSeek的组织不好。相反，外界对DeepSeek的长期印象，正是它有一套大厂很难复制的组织方式：不打卡、不设 KPI，研究员可以自由组队，也可以独自钻研新想法。这种组织方式适合早期技术突破，也解释了为什么DeepSeek能在过去几年不断做出反常识的工程创新。但当行业进入更重的阶段，问题就变了。顶级人才不只看工作自由度，也看技术方向、资源投入和落地场景。大厂能同时给钱、算力、产品场景和更大的团队。

第三重压力来自商业化。V4发布前，DeepSeek App已在4月8日改版，上线支持复杂推理的“专家模式”和处理简单任务的“快速模式”。随着V4发布，外界才知道，专家模式对应的是1.6万亿参数的 V4-Pro，快速模式对应的是2840亿参数的V4-Flash。这个变化说明，DeepSeek 不再只是把模型放出来让开发者使用，而是在开始打磨面向用户的产品分层。

彭德宇指出，这与开源路线之间存在天然张力。开源可以快速建立技术声量，也能让开发者和生态伙伴更快复用DeepSeek 的路线。但开源通常意味着更薄的利润空间，更高的成本敏感度。OpenAI、Anthropic 这类闭源公司可以通过订阅、API、企业服务建立更直接的商业闭环；谷歌、亚马逊、微软可以把模型成本消化在云计算和生态体系里。DeepSeek没有这些现成的商业缓冲层。如果它要继续坚持低价、开源和前沿模型研发，就必须找到新的资金、算力和商业化支撑。

在笔者看来，这也是V4真正暴露出来的深层问题。它证明中国大模型已经有能力在模型能力、推理价格和国产算力适配上同时向前走一步；但它也证明，大模型竞争已经不再是少数天才写出更好算法的比赛。下一阶段拼的是算力基础设施、工程系统、产品转化、融资能力和人才密度。