作者|Hayward
原创首发|蓝字计划
英伟达CEO黄仁勋的噩梦成真了。
4月17 日,黄仁勋在一个采访中罕见发飙:
主持人问他,如果美国“卖芯片给中国,中国算力增强了,不就是帮对手变强吗?”
但老黄却愤怒地说:“芯片又不是浓缩铀!卖给中国怎么了?“
“如果DeepSeek这种中国顶尖大模型,以后首发跑在华为芯片上,对美国来说就是可怕的结果!”
七天之后,老黄一语成箴。
4月24日,在DeepSeek V3/R1爆火了一年多之后,在众人的翘首期盼之下,DeepSeek终于掏出了一个大版本号更新的新模型。
但比起DeepSeek V4的性能提升,更引人注目的是另一件事:
相比英伟达,DeepSeek这次选择和华为走到了一起。
第二个华为?
按照官方的说法,这次DeepSeek V4和华为方堪称“深度融合”,而这种融合,就体现在芯模协同的芯片+模型层面。
DeepSeek在V4开发过程中,专门花了几个月时间与华为(以及寒武纪)密切合作,重写了模型底层代码的部分模块,从原本更依赖CUDA的技术路径,开始向华为CANN生态做深度适配。
这打破了行业惯例——以往大模型通常优先给英伟达/AMD提供早期访问权限进行优化,而DeepSeek这次把优先期给了国产芯片,确保V4在华为昇腾950系列芯片上高效运行。
几乎与此同时,华为计算官方明确表示,昇腾超节点系列产品已全面支持DeepSeek-V4。
通过双方芯模技术紧密协同,实现了在昇腾硬件上的低时延推理。例如在8K输入场景下,昇腾950超节点可实现V4-Pro TPOT约20ms、V4-Flash TPOT约10ms的单token解码时延,非常出色。
正是基于这个消息,这次DeepSeek V4的发布,除了满足吃瓜群众等来“下一个DeepSeek R1”的朴素愿望外,还被视为中国AI产业链“从依赖到自主”的重要一步。
之所以会被赋予如此重大的意义,看看过去一年里关于DeepSeek的讨论都离不开英伟达就知道了。
V3也好,R1也好,无论成本再低,性能再好,但都绕不开一个现实:
买得到什么卡、能不能稳定供货、美国什么时候再加一道禁令、CUDA生态能不能继续用,始终都在有形无形地掐着国产大模型的脖子。
而在今天,至少在推理端,中国大模型已经开始突破重围。
一个中国最顶尖的大模型,至少在推理服务上,已经不必完全依赖英伟达的卡。
过去美国一边卡中国的高端AI芯片,一边又想让英伟达继续卖H20这种“特供残血卡”的历史,也一去不复返了。
性能冲击国产顶尖
当然,DeepSeek V4能让人兴奋,除了华为,还在于它确实非常能打。
从目前公开信息看,DeepSeek V4的成绩,确实把DeepSeek又送回了国内大模型的最前排。
先看基础能力。
DeepSeek官方称,V4-Pro在世界知识、数学、STEM、代码等方向上,已经超过当前开源模型,并接近全球顶级闭源模型水平;V4-Flash的推理能力也接近V4-Pro,在简单Agent任务上表现接近旗舰版。
另一方面,针对当前行业大热的Agent能力,DeepSeek V4也迎来了“史诗级”加强。
官方明确强调V4面向Agent能力做了专门优化,已经接入Claude Code、OpenClaw、OpenCode等主流AI Agent工具,并且正在驱动DeepSeek自己内部的agentic coding。
然后还有上下文能力,DeepSeek V4支持100万token上下文,并且是所有模型的默认能力,实现近7.8倍提升。
有了这样强大的上下文能力,新模型就能轻松支持超长上下文场景,如长文档分析、复杂Agent任务,还是为未来的AI工具实用性落地、Agent工具接入做准备。
只不过,在价格方方面,这次可能就不再是DeepSeek的优势了。
官方价格表显示,V4-Flash每百万输入token是0.14美元,每百万输出token是0.28美元;V4-Pro每百万输入token是1.74美元,每百万输出token是3.48美元。
缓存命中时,输入价格还能进一步降到0.028美元和0.145美元。
相比DeepSeek过去那种“便宜到让同行怀疑人生”的打法,V4-Pro明显贵了不少;但也从另一方面说明,DeepSeek不是单纯靠低价冲市场了,他们也有信心,抬高价格后依然有大把人买单。
无论是从能力还是价格定位来看,DeepSeek V4显然有着改写市场秩序的野心。
只不过,距离 DeepSeek V4 的完全胜利,可惜还差一步。
模型训练,还是难题
DeepSeek V4跑在华为昇腾上,当然是一个标志性事件。
可它目前最确定的部分,还是推理和适配;对于真正能鼓舞士气的“用昇腾芯片训练出DeepSeek V4” ,却还没有一个明确的答案。
根据路透社的报道,DeepSeek V4适配了华为芯片技术,华为也称昇腾超节点产品线支持V4系列模型;但DeepSeek并没有披露训练这款最新模型使用了哪些处理器。
此前Reuters曾援引美国官员称,DeepSeek最新模型使用Nvidia Blackwell训练。到目前为止,V4的训练硬件仍没有明确答案。
另一方面,这次频繁路面的华为昇腾950系列芯片被定位为推理专用芯片,FP8/FP4等低精度算力强劲,单卡性能在某些场景下据称可达英伟达H20的2.87倍左右,真正能用来训练的,实际上是今年下半年才实现量产的950DT。
所以,DeepSeek V4只能算是部分摆脱了英伟达CUDA生态的依赖,距离“全链路国产”,还有一些距离。
不过好在,这次昇腾官方披露了一个值得注意的细节:CANN已基于A3 64卡超节点,完成DeepSeek V4-Flash模型续训练(CPT)的0-day适配支持,实测模型吞吐量最高达到1100 tokens/p/s。
这个细节的价值在于,尽管V4-Flash只是轻量版本,但DeepSeek V4已经可以在国产算力上跑通续训练流程。
这意味着,国产算力在大模型链路里的角色,正在从推理部署继续往训练侧推进:先跑通推理,再完成续训练适配,最后攻克最难的完整预训练。
说不定到了今年下半年,昇腾950DT可以实现大规模出货,我们就真的可以看到“训练—推理”全链路跑在国产算力上的国产大模型了。
热门跟贴