最近两年除了航天之外,我还特别关注AI,那就离不开算力了。咱们把时间拉回到2025年9月18日,华为全联接大会上海世博中心。华为轮值董事长徐直军站在台上,宣布了一件让全球AI算力圈震动的大事:华为即将推出一台由8192颗昇腾950DT芯片组成的超节点:Atlas 950 SuperPoD,总算力达8 EFLOPS(FP8训练精度),互联带宽超过当前全球互联网峰值带宽的10倍。
台下掌声响起。台上的徐直军说了一句很坦然的话:「受美国制裁,我们拿不到台积电的先进制程,单颗芯片算力与英伟达有差距。但我们有30多年联接技术的积累。」这句话,是一个工程师面对现实的诚实,也是一张宣战书。
一、先把概念说清楚:我们到底在比什么?
很多媒体在报道这件事时,把华为和英伟达的对比搞乱了。我先帮大家厘清一个关键问题。英伟达目前有两条产品线要分清楚:一是Blackwell Ultra NVL72,这是2025年现货,72颗GPU+36颗CPU,是当下能买到的产品;二是Vera Rubin NVL144,这是2026年下半年将要推出的下一代产品,144颗Rubin GPU+72颗Vera CPU,单颗Rubin GPU的FP4算力达50 PFLOPS。
华为Atlas 950 SuperPoD,2026年Q4上市,与Vera Rubin NVL144是同一时代的产品。所以,这场对决是:2026年到来的华为8192卡超节点,PK同年到来的英伟达144卡旗舰。这才是公平的比法。
英伟达NVL144内存容量为144颗GPU×288GB HBM4(约41TB)加系统内存估算;*数据来源:华为全联接大会2025官方发布,英伟达GTC 2025大会官方数据。
二、华为的优势是真实的,但要搞清楚是哪种优势
看到上面这张表,有人可能会想:华为全面碾压英伟达?先别急,有几个重要的背景必须说清楚。
第一,这是系统级对比,不是芯片级对比。
华为的8192 EFLOPS是8192颗芯片的总和,英伟达的3.6 EFLOPS是144颗芯片的总和。如果单看每颗芯片,一颗Rubin GPU的FP4算力是50 PFLOPS,而昇腾950DT的FP4算力约为2 PFLOPS:差距仍然明显。徐直军自己也坦承这一点。
第二,华为真正的核心突破在互联,而不只是堆芯片数量。
把8192颗芯片堆在一起,谁都会,但让这8192颗芯片像一台计算机一样协同工作,这才是难的。英伟达NVLink的机柜内带宽达到260 TB/s,这已经是业界顶级水平;但华为的灵衢2.0全光互联实现了16.3 PB/s的总带宽,是英伟达的62倍。这不是通过简单扩大规模能做到的,背后是华为30多年光通信技术积累的结晶。
第三,互联带宽决定了集群能否真正被用好。
AI大模型训练有个核心瓶颈:通信墙。无论计算单元有多强,一旦芯片之间传递数据的速度跟不上,整个集群就会被通信拖慢,大量算力浪费在等待上。英伟达NVLink是封闭架构,跨机柜后带宽骤降;华为的全光互联采用UB-Mesh递归直连拓扑,8192卡可以无收敛全互联,理论上8192颗芯片的算力可以被充分调用,而不是让大多数芯片在等待数据。这是华为的真正护城河。
三、为什么国内关注度远低于英伟达?
这是一个很有意思的现象。2025年3月,英伟达发布Vera Rubin概念,国内科技圈和资本市场热议了好一阵;而9月华为发布的Atlas 950,关注度却低得出奇。原因是多方面的。
一是认知惯性。英伟达CUDA生态十余年深入人心,开发者、投资人、媒体都形成了「GPU=英伟达」的思维定式。华为昇腾虽然在算力数字上表现亮眼,但「生态兼容性」和「软件可用性」仍是外界存疑的核心痛点。
二是比较框架的错位。很多人拿一颗昇腾950和一颗Rubin GPU比,自然觉得华为差远了;如果换一个框架:用相同投资建设一套AI算力基础设施,华为超节点能提供多少有效算力:结论就完全不同了。框架决定结论,而大多数人用了不利于华为的框架。
三是时间窗口的误判。华为Atlas 950要到2026年Q4才上市。中国AI产业当前最紧迫的算力需求,还是要靠昇腾910C来满足。远水解不了近渴,市场对未来一年多以后的产品热情自然打折扣。但这不代表它不重要:恰恰相反,它正在定义下一代AI基础设施的标准。
四、这场竞争,真正的意义在哪里?
从航天人的视角来看这场竞争,我有几点想分享。
第一,制程受限倒逼的系统创新,往往比制程升级更有价值。
在航天领域,我们经常看到这样的故事:被限制获得某个关键零件的国家,反而因此被迫开发出了更先进的替代方案。华为拿不到台积电3nm,于是把精力押注在互联架构上,做出了超越英伟达62倍带宽的全光互联系统。这不是安慰奖,这是弯道超车的经典路径。
第二,AI竞争的焦点已从单卡转向集群基础设施。
当大模型参数规模从千亿向万亿迈进,单卡性能的重要性在下降,集群的组网效率和互联带宽变得越来越关键。这个方向,恰恰是华为的优势所在。换句话说,历史的风口转向了华为。
第三,软件生态是华为必须跨过的坎。
硬件的胜利不等于市场的胜利。英伟达的真正护城河从来不是GPU本身,而是CUDA:十几年培育出来的开发者生态、框架适配、工具链。华为已经在用CANN全面开源、优先支持PyTorch和vLLM等主流框架来补这块短板,但生态的积累需要时间,这是一场持久战。
五、科技竞赛
我一直认为,评价一场科技竞赛,最忌讳的两件事:一是用己方视角选择对自己有利的指标;二是在别人走了弯路之后,假装那条弯路从来不存在。华为在集群算力上确实实现了令人震惊的突破,而且这种突破是建立在真实技术积累之上的,不是PPT上的数字游戏。但英伟达在单芯片性能、制程工艺、全球软件生态方面的优势同样是真实存在的。
这场竞争最重要的意义,不是「谁赢了谁」,而是:中国AI算力第一次在系统级能力上站在了全球第一梯队,并且找到了一条在制程受限条件下的可持续发展路径。对于任何关注中国科技产业的人来说,这件事,值得被认真对待。
【数据引用与说明】本文所有数据均经过交叉核实,来源于华为全联接大会2025(2025年9月18日)官方公告、英伟达GTC 2025大会发布信息及权威科技媒体报道。两款产品均处于研发/预售阶段,华为Atlas 950预计2026年Q4上市,英伟达Vera Rubin NVL144预计2026年下半年量产。
作者介绍:蒋鹏飞,科普中国专家、中国科普作家、北京神飞航天应用技术研究院副院长。长期从事商业卫星系统研制与航天科普工作,《你好人类:逆光行动》首部航天科幻小说作者,蒋院长讲航天科普新媒体矩阵主理人,在人民日报、顶端新闻、抖音、视频号等20个平台开设专栏,累计触达受众超1.5亿人次。
热门跟贴