DeepSeek+华为，黄仁勋：我们的噩梦来了！

蓝字计划

2026-04-24 19:59 ·广东 ·网易号生活内容作者

作者｜Hayward

原创首发｜蓝字计划

英伟达CEO黄仁勋的噩梦成真了。

4月17 日，黄仁勋在一个采访中罕见发飙：

主持人问他，如果美国“卖芯片给中国，中国算力增强了，不就是帮对手变强吗？”

但老黄却愤怒地说：“芯片又不是浓缩铀！卖给中国怎么了？“

“如果DeepSeek这种中国顶尖大模型，以后首发跑在华为芯片上，对美国来说就是可怕的结果！”

七天之后，老黄一语成箴。

4月24日，在DeepSeek V3/R1爆火了一年多之后，在众人的翘首期盼之下，DeepSeek终于掏出了一个大版本号更新的新模型。

但比起DeepSeek V4的性能提升，更引人注目的是另一件事：

相比英伟达，DeepSeek这次选择和华为走到了一起。

第二个华为？

按照官方的说法，这次DeepSeek V4和华为方堪称“深度融合”，而这种融合，就体现在芯模协同的芯片+模型层面。

DeepSeek在V4开发过程中，专门花了几个月时间与华为（以及寒武纪）密切合作，重写了模型底层代码的部分模块，从原本更依赖CUDA的技术路径，开始向华为CANN生态做深度适配。

这打破了行业惯例——以往大模型通常优先给英伟达/AMD提供早期访问权限进行优化，而DeepSeek这次把优先期给了国产芯片，确保V4在华为昇腾950系列芯片上高效运行。

几乎与此同时，华为计算官方明确表示，昇腾超节点系列产品已全面支持DeepSeek-V4。

通过双方芯模技术紧密协同，实现了在昇腾硬件上的低时延推理。例如在8K输入场景下，昇腾950超节点可实现V4-Pro TPOT约20ms、V4-Flash TPOT约10ms的单token解码时延，非常出色。

正是基于这个消息，这次DeepSeek V4的发布，除了满足吃瓜群众等来“下一个DeepSeek R1”的朴素愿望外，还被视为中国AI产业链“从依赖到自主”的重要一步。

之所以会被赋予如此重大的意义，看看过去一年里关于DeepSeek的讨论都离不开英伟达就知道了。

V3也好，R1也好，无论成本再低，性能再好，但都绕不开一个现实：

买得到什么卡、能不能稳定供货、美国什么时候再加一道禁令、CUDA生态能不能继续用，始终都在有形无形地掐着国产大模型的脖子。

而在今天，至少在推理端，中国大模型已经开始突破重围。

一个中国最顶尖的大模型，至少在推理服务上，已经不必完全依赖英伟达的卡。

过去美国一边卡中国的高端AI芯片，一边又想让英伟达继续卖H20这种“特供残血卡”的历史，也一去不复返了。

性能冲击国产顶尖

当然，DeepSeek V4能让人兴奋，除了华为，还在于它确实非常能打。

从目前公开信息看，DeepSeek V4的成绩，确实把DeepSeek又送回了国内大模型的最前排。

先看基础能力。

DeepSeek官方称，V4-Pro在世界知识、数学、STEM、代码等方向上，已经超过当前开源模型，并接近全球顶级闭源模型水平；V4-Flash的推理能力也接近V4-Pro，在简单Agent任务上表现接近旗舰版。

另一方面，针对当前行业大热的Agent能力，DeepSeek V4也迎来了“史诗级”加强。

官方明确强调V4面向Agent能力做了专门优化，已经接入Claude Code、OpenClaw、OpenCode等主流AI Agent工具，并且正在驱动DeepSeek自己内部的agentic coding。

然后还有上下文能力，DeepSeek V4支持100万token上下文，并且是所有模型的默认能力，实现近7.8倍提升。

有了这样强大的上下文能力，新模型就能轻松支持超长上下文场景，如长文档分析、复杂Agent任务，还是为未来的AI工具实用性落地、Agent工具接入做准备。

只不过，在价格方方面，这次可能就不再是DeepSeek的优势了。

官方价格表显示，V4-Flash每百万输入token是0.14美元，每百万输出token是0.28美元；V4-Pro每百万输入token是1.74美元，每百万输出token是3.48美元。

缓存命中时，输入价格还能进一步降到0.028美元和0.145美元。

相比DeepSeek过去那种“便宜到让同行怀疑人生”的打法，V4-Pro明显贵了不少；但也从另一方面说明，DeepSeek不是单纯靠低价冲市场了，他们也有信心，抬高价格后依然有大把人买单。

无论是从能力还是价格定位来看，DeepSeek V4显然有着改写市场秩序的野心。

只不过，距离 DeepSeek V4 的完全胜利，可惜还差一步。

模型训练，还是难题

DeepSeek V4跑在华为昇腾上，当然是一个标志性事件。

可它目前最确定的部分，还是推理和适配；对于真正能鼓舞士气的“用昇腾芯片训练出DeepSeek V4” ，却还没有一个明确的答案。

根据路透社的报道，DeepSeek V4适配了华为芯片技术，华为也称昇腾超节点产品线支持V4系列模型；但DeepSeek并没有披露训练这款最新模型使用了哪些处理器。

此前Reuters曾援引美国官员称，DeepSeek最新模型使用Nvidia Blackwell训练。到目前为止，V4的训练硬件仍没有明确答案。

另一方面，这次频繁路面的华为昇腾950系列芯片被定位为推理专用芯片，FP8/FP4等低精度算力强劲，单卡性能在某些场景下据称可达英伟达H20的2.87倍左右，真正能用来训练的，实际上是今年下半年才实现量产的950DT。

所以，DeepSeek V4只能算是部分摆脱了英伟达CUDA生态的依赖，距离“全链路国产”，还有一些距离。

不过好在，这次昇腾官方披露了一个值得注意的细节：CANN已基于A3 64卡超节点，完成DeepSeek V4-Flash模型续训练（CPT）的0-day适配支持，实测模型吞吐量最高达到1100 tokens/p/s。

这个细节的价值在于，尽管V4-Flash只是轻量版本，但DeepSeek V4已经可以在国产算力上跑通续训练流程。

这意味着，国产算力在大模型链路里的角色，正在从推理部署继续往训练侧推进：先跑通推理，再完成续训练适配，最后攻克最难的完整预训练。

说不定到了今年下半年，昇腾950DT可以实现大规模出货，我们就真的可以看到“训练—推理”全链路跑在国产算力上的国产大模型了。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴