华为8192张芯片算力巨兽，正在重写AI计算的规则|gpu|台积电|知名企业|算力|英伟达

最近两年除了航天之外，我还特别关注AI，那就离不开算力了。咱们把时间拉回到2025年9月18日，华为全联接大会上海世博中心。华为轮值董事长徐直军站在台上，宣布了一件让全球AI算力圈震动的大事：华为即将推出一台由8192颗昇腾950DT芯片组成的超节点：Atlas 950 SuperPoD，总算力达8 EFLOPS（FP8训练精度），互联带宽超过当前全球互联网峰值带宽的10倍。

台下掌声响起。台上的徐直军说了一句很坦然的话：「受美国制裁，我们拿不到台积电的先进制程，单颗芯片算力与英伟达有差距。但我们有30多年联接技术的积累。」这句话，是一个工程师面对现实的诚实，也是一张宣战书。

一、先把概念说清楚：我们到底在比什么？

很多媒体在报道这件事时，把华为和英伟达的对比搞乱了。我先帮大家厘清一个关键问题。英伟达目前有两条产品线要分清楚：一是Blackwell Ultra NVL72，这是2025年现货，72颗GPU+36颗CPU，是当下能买到的产品；二是Vera Rubin NVL144，这是2026年下半年将要推出的下一代产品，144颗Rubin GPU+72颗Vera CPU，单颗Rubin GPU的FP4算力达50 PFLOPS。

华为Atlas 950 SuperPoD，2026年Q4上市，与Vera Rubin NVL144是同一时代的产品。所以，这场对决是：2026年到来的华为8192卡超节点，PK同年到来的英伟达144卡旗舰。这才是公平的比法。

英伟达NVL144内存容量为144颗GPU×288GB HBM4（约41TB）加系统内存估算；*数据来源：华为全联接大会2025官方发布，英伟达GTC 2025大会官方数据。

二、华为的优势是真实的，但要搞清楚是哪种优势

看到上面这张表，有人可能会想：华为全面碾压英伟达？先别急，有几个重要的背景必须说清楚。

第一，这是系统级对比，不是芯片级对比。

华为的8192 EFLOPS是8192颗芯片的总和，英伟达的3.6 EFLOPS是144颗芯片的总和。如果单看每颗芯片，一颗Rubin GPU的FP4算力是50 PFLOPS，而昇腾950DT的FP4算力约为2 PFLOPS：差距仍然明显。徐直军自己也坦承这一点。

第二，华为真正的核心突破在互联，而不只是堆芯片数量。

把8192颗芯片堆在一起，谁都会，但让这8192颗芯片像一台计算机一样协同工作，这才是难的。英伟达NVLink的机柜内带宽达到260 TB/s，这已经是业界顶级水平；但华为的灵衢2.0全光互联实现了16.3 PB/s的总带宽，是英伟达的62倍。这不是通过简单扩大规模能做到的，背后是华为30多年光通信技术积累的结晶。

第三，互联带宽决定了集群能否真正被用好。

AI大模型训练有个核心瓶颈：通信墙。无论计算单元有多强，一旦芯片之间传递数据的速度跟不上，整个集群就会被通信拖慢，大量算力浪费在等待上。英伟达NVLink是封闭架构，跨机柜后带宽骤降；华为的全光互联采用UB-Mesh递归直连拓扑，8192卡可以无收敛全互联，理论上8192颗芯片的算力可以被充分调用，而不是让大多数芯片在等待数据。这是华为的真正护城河。

三、为什么国内关注度远低于英伟达？

这是一个很有意思的现象。2025年3月，英伟达发布Vera Rubin概念，国内科技圈和资本市场热议了好一阵；而9月华为发布的Atlas 950，关注度却低得出奇。原因是多方面的。

一是认知惯性。英伟达CUDA生态十余年深入人心，开发者、投资人、媒体都形成了「GPU=英伟达」的思维定式。华为昇腾虽然在算力数字上表现亮眼，但「生态兼容性」和「软件可用性」仍是外界存疑的核心痛点。

二是比较框架的错位。很多人拿一颗昇腾950和一颗Rubin GPU比，自然觉得华为差远了；如果换一个框架：用相同投资建设一套AI算力基础设施，华为超节点能提供多少有效算力：结论就完全不同了。框架决定结论，而大多数人用了不利于华为的框架。

三是时间窗口的误判。华为Atlas 950要到2026年Q4才上市。中国AI产业当前最紧迫的算力需求，还是要靠昇腾910C来满足。远水解不了近渴，市场对未来一年多以后的产品热情自然打折扣。但这不代表它不重要：恰恰相反，它正在定义下一代AI基础设施的标准。

四、这场竞争，真正的意义在哪里？

从航天人的视角来看这场竞争，我有几点想分享。

第一，制程受限倒逼的系统创新，往往比制程升级更有价值。

在航天领域，我们经常看到这样的故事：被限制获得某个关键零件的国家，反而因此被迫开发出了更先进的替代方案。华为拿不到台积电3nm，于是把精力押注在互联架构上，做出了超越英伟达62倍带宽的全光互联系统。这不是安慰奖，这是弯道超车的经典路径。

第二，AI竞争的焦点已从单卡转向集群基础设施。

当大模型参数规模从千亿向万亿迈进，单卡性能的重要性在下降，集群的组网效率和互联带宽变得越来越关键。这个方向，恰恰是华为的优势所在。换句话说，历史的风口转向了华为。

第三，软件生态是华为必须跨过的坎。

硬件的胜利不等于市场的胜利。英伟达的真正护城河从来不是GPU本身，而是CUDA：十几年培育出来的开发者生态、框架适配、工具链。华为已经在用CANN全面开源、优先支持PyTorch和vLLM等主流框架来补这块短板，但生态的积累需要时间，这是一场持久战。

五、科技竞赛

我一直认为，评价一场科技竞赛，最忌讳的两件事：一是用己方视角选择对自己有利的指标；二是在别人走了弯路之后，假装那条弯路从来不存在。华为在集群算力上确实实现了令人震惊的突破，而且这种突破是建立在真实技术积累之上的，不是PPT上的数字游戏。但英伟达在单芯片性能、制程工艺、全球软件生态方面的优势同样是真实存在的。

这场竞争最重要的意义，不是「谁赢了谁」，而是：中国AI算力第一次在系统级能力上站在了全球第一梯队，并且找到了一条在制程受限条件下的可持续发展路径。对于任何关注中国科技产业的人来说，这件事，值得被认真对待。

【数据引用与说明】本文所有数据均经过交叉核实，来源于华为全联接大会2025（2025年9月18日）官方公告、英伟达GTC 2025大会发布信息及权威科技媒体报道。两款产品均处于研发/预售阶段，华为Atlas 950预计2026年Q4上市，英伟达Vera Rubin NVL144预计2026年下半年量产。

作者介绍：蒋鹏飞，科普中国专家、中国科普作家、北京神飞航天应用技术研究院副院长。长期从事商业卫星系统研制与航天科普工作，《你好人类：逆光行动》首部航天科幻小说作者，蒋院长讲航天科普新媒体矩阵主理人，在人民日报、顶端新闻、抖音、视频号等20个平台开设专栏，累计触达受众超1.5亿人次。