文︱陆弃

2025年以来,“超节点”这个原本只存在于工程师讨论中的概念,开始频繁出现在算力产业的公共视野中。昇腾384超节点的发布,让很多人第一次直观感受到算力基础设施的尺度变化:384颗芯片通过高速互联,被组织成一个逻辑上的“整体”,在算力规模、网络带宽、内存总带宽等关键指标上,直接对标甚至超越国际主流方案。随之而来的争论也迅速发酵——这究竟是一次真正的技术突破,还是简单的“堆芯片”?如果只是规模扩张,那它的意义究竟在哪里?

打开网易新闻 查看精彩图片

疑问并非没有现实依据。过去十年,算力提升的主要路径始终围绕着更先进的制程、更高的主频、更密集的晶体管展开。英伟达的NVL72之所以被视为旗舰级产品,正是因为它在单机柜内将72颗GPU的协同效率推到了极限。在这种语境下,华为直接将规模扩展到384颗芯片,自然会被解读为一种“暴力堆砌”。但问题在于,如果算力瓶颈真的只取决于芯片数量,那么当下全球大模型训练中频繁出现的效率塌陷,又该如何解释?

现实的数据给出了截然不同的答案。Meta公开的研究显示,在万卡规模的传统集群中,算力利用率往往只有38%左右,超过一半的计算资源在等待通信。这意味着,在大模型时代,制约效率的早已不是单颗芯片的算力,而是节点之间如何交换数据、如何协同工作。模型越大、结构越复杂,这一问题就越尖锐。像DeepSeek这样的混合专家模型,本质上是将计算任务分散给大量“专家”,如果通信效率跟不上,再多的芯片也只会彼此空转。

正是在这一背景下,超节点的意义才逐渐显现。它并不是对传统集群的小修小补,而是对计算架构的重新组织。以昇腾超节点为例,其核心变化在于打破了以CPU为中心的层级结构,让CPU、NPU和内存单元处于平等互联的状态,数据不再需要绕行“中枢”,而是通过全新的互联协议和总线能力直接流动。这种变化看似抽象,却直接决定了算力是否会被通信“卡住”。

打开网易新闻 查看精彩图片

真正拉开差距的,是统一内存编址能力。传统集群中,数据传输更像是一次次独立的“投递”,每次计算前都需要定位、封装、转发,这种机制在小规模下尚可接受,一旦扩展到数百乃至上千颗芯片,延迟和损耗便成倍放大。超节点的目标,则是将分散的内存资源组织成一个逻辑整体,使计算单元像访问本地内存一样获取数据。只有做到这一点,内存池化和高效调度才有可能成立,算力才能真正被释放出来。

从效率角度看,这种架构带来的提升并非渐进,而是结构性的。在制程进步放缓的现实条件下,单代芯片性能提升往往不足20%,而通过超节点架构,将算力利用率从30%提升到45%,等同于在不改变制程的情况下获得近50%的有效算力增长。这并不是对芯片能力的替代,而是对其价值的“解锁”。当摩尔定律不再是唯一依靠,系统级创新的重要性被前所未有地放大。

但也正因为如此,真正的超节点极难复制。一个最直观的对比是形态差异:英伟达的NVL72被限制在单一机柜内,而昇腾384超节点则跨越了多个计算柜和总线柜。限制并不来自设计意愿,而是物理条件。全铜线架构下,电信号在高速传输时的距离极为有限,这决定了系统规模的上限。华为之所以能够突破这一限制,关键在于将光通信技术引入算力互联,用光模块替代铜缆,重构了数据传输的“物理层”。

打开网易新闻 查看精彩图片

光的优势显而易见,但难度同样巨大。光模块对环境极其敏感,灰尘、温度波动都可能引发不稳定,要让其达到服务器级别的可靠性,本身就是一项系统工程。这种能力并非一蹴而就,而是建立在长期的通信技术积累之上。华为在光通信领域的持续投入,使其能够在芯片、器件、协议和工程能力之间形成闭环,这是单点突破型厂商难以复制的优势。

更值得注意的是,华为并未将超节点局限于AI算力,而是延伸至通用计算领域。基于鲲鹏950的通算超节点,指向的是对传统大型机和专用数据库服务器的替代。这一方向的共通逻辑,在于通过超大带宽、超低时延和统一内存编址,将分布式系统组织成“像一台计算机一样工作”。当硬件性能提升遭遇物理极限,通过通信与架构释放系统潜能,成为一条更具确定性的路径。

在更大的视角下,灵衢UB协议的开放,揭示了华为对算力竞争的另一层判断。超节点并非封闭产品,而是一种基础能力。如果只有少数厂商掌握,其生态很难真正壮大。通过开放协议,让更多参与者基于同一套底层规则构建系统,算力基础设施才可能形成规模化、可持续的演进。这种选择既是技术自信的体现,也是一种现实考量:AI时代的复杂度,早已超出单一厂商独立承担的范围。

超节点之所以重要,并不只是因为它更大、更快,而在于它标志着算力竞争逻辑的转变。当芯片制程逐渐逼近物理极限,真正决定效率的,不再是单点指标,而是系统如何被组织、资源如何被调度。华为昇腾超节点的价值,也正在于此。它未必意味着终点,但至少清晰地指出了一条不同于“堆卡竞赛”的技术路线。在未来的算力格局中,谁能率先完成从芯片竞争到系统竞争的跃迁,谁才有可能真正掌握主动权。