当大模型一体机的热度还未褪去,超节点已成为AI算力领域的新焦点。一众科技大厂纷纷布局,行业对其期待值拉满的同时,关于其实际价值、规模边界、技术真伪的争议也随之而来。

那么,超节点究竟是什么?它为何能成为大模型时代的算力刚需呢?又有哪些技术路线正在引领产业发展呢?今天这篇文章,就让七喜为你全面解读这一智算新架构~

超节点是什么?

超节点,英文名为SuperPod,概念最早由英伟达提出,是一种用于构建大规模算力集群的技术架构,凭借大带宽、低时延、高集成的特性,成为突破大规模AI算力瓶颈的核心方案。

打开网易新闻 查看精彩图片

传统算力扩展主要分为Scale Up(纵向扩展)和Scale Out(横向扩展)两种。

打开网易新闻 查看精彩图片

前者是在单台服务器中增加GPU数量,后者是通过网络连接更多服务器节点。然而,单台服务器受空间、功耗、散热限制,GPU数量通常仅能达到8卡、12卡,且传统PCIe协议的通信速率慢、时延高,GPU 间的数据交换存在严重瓶颈;

而单纯的Scale Out,虽能扩大集群规模,却受限于节点间的通信技术,无法满足大模型训练的超高带宽、极低时延要求。

超节点则是强化版的Scale Up方案。英伟达将以超大带宽互联16卡以上GPU的Scale Up系统正式定义为超节点。其核心突破在于采用高速互联协议替代传统PCIe协议,比如英伟达的NVLink总线协议,历经五代迭代后,NVLink 5.0总带宽可达1800GB/s,让GPU间实现点对点高速通信。

打开网易新闻 查看精彩图片

同时,超节点通过超带宽域(HBD)将多台服务器和网络设备整合,实现了物理上多机组成、逻辑上单机运行的特性,从根本上破解了传统算力集群的“通信墙”问题。

超节点有什么优势?

相较于传统的算力集群,超节点在性能、成本、组网、运维等方面展现出了全方位优势,这也是它能成为智算领域主流方案的核心原因。

性能上,超节点实现了算力集群的大带宽、低时延互联。

传统Scale Out采用的Infiniband(IB)、RoCEv2技术仅能提供Tbps级带宽,时延高达10微秒,而超节点可实现数百个GPU间10Tbps 级别的互联,时延控制在百纳秒级别,完美匹配大模型训练中张量并行(TP)、专家并行(EP)的超高要求。

张量并行(TP)、专家并行(EP)对带宽需求达数百至数千GB/s,且要求极低时延,而超节点内部的高速总线可高效支撑这类高负荷任务,加速GPU间的参数交换和数据同步,大幅缩短大模型训练周期。

同时,超节点支持内存语义能力,GPU之间可直接读取对方内存,这是传统Scale Out架构不具备的优势。

成本和效率上,超节点实现了局部提效、全局降本。

超节点的超带宽域越大,内部集成的GPU越多,对外的Scale Out组网就越简单,可大幅降低网络设备的部署成本和组网复杂度。

打开网易新闻 查看精彩图片

组网与运维方面,超节点作为高度集成的小型集群,内部总线已提前部署完成,这不仅降低了网络部署难度、缩短了部署周期,还让后期的运维管理更轻松,更便捷。

同时,超节点的模块化设计可实现弹性扩展,根据实际需求来灵活调整GPU规模,兼顾算力需求与成本控制。

超节点有哪些可选的方案?

拥有显著优势的超节点,受到了业界的广泛关注,许多厂商纷纷加入到了对超节点的研究之中。

目前,超节点产业已形成私有协议和开放标准两大技术路线,国内外厂商各展所长,推动技术方案不断落地。

其中既有私有协议方案,也有开放标准化方案,形成了多元发展的格局。

私有协议方案以高性能、高集成度为核心优势,代表厂商为英伟达和华为。

英伟达作为超节点概念的提出者,2024 年3月发布了NVL72超节点解决方案,将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,可实现720 PFLOPs的AI训练性能或1440 PFLOPs的推理性能,成为私有协议的标杆。

打开网易新闻 查看精彩图片

英伟达GB200 NVL72机柜

华为则推出CloudMatrix 384超节点,以384张昇腾算力卡组成单超节点,是目前商用规模最大的超节点方案,可提供300 PFLOPs的密集BF16算力,接近英伟达NVL72的两倍,且实现万卡线性度> 95%、长稳训练40天不中断,在算力稳定性和规模上均实现了突破。

开放标准方案则以以太网技术为基础,主打低成本、易兼容、生态开放,还能够帮助实现技术平权。目前主流的有ETH-X、ALS、OISA等方案。

其中,由中国信通院与腾讯牵头、ODCC主导的ETH-X是最具代表性的开放方案,这个方案一共有30余家产学研机构共同参与。

其不仅支持Scale Up,还兼容Scale Out。

打开网易新闻 查看精彩图片

ETH-X网络架构图(来自ODCC)

ETH-X采用的机柜铜连接方案,通过Cable Tray高速铜缆来实现设备互通,相比光纤降低了光模块成本,且跨卡数据访问时延可降低12.7倍,目前已从技术概念走向商用落地。

此外,阿里牵头的ALS、中国移动主导的OISA,以及AMD、Intel等国际企业联合推出的UA LINK,均以开放架构为核心,推动超节点技术走向普及。

打开网易新闻 查看精彩图片

超节点发展到什么阶段?

超节点的发展并非孤立的硬件架构创新,而是形成了硬件+软件+标准的完整生态体系,从概念提出到规模化应用,仅用数年时间便完成了技术落地与产业布局。

2024年英伟达NVL72的发布,标志着超节点技术走向成熟;

2025年被业界称为超节点“产品元年”,华为、中科曙光、浪潮信息、腾讯、阿里等国内外头部企业纷纷发布相关产品或方案。其中中科曙光推出全球首个单机柜级640卡超节点 scaleX640,华为发布全球首个通用计算超节点TaiShan 950 SuperPoD,开源欧拉更是发布了全球首个面向超节点的操作系统版本openEuler 24.03 LTS SP3,填补了超节点基础软件的空白;

2026年,超节点从实验室走到商用落地,正式迈入规模化应用阶段。

华为昇腾384超节点等产品已在互联网、金融、能源、制造等行业部署数百套,成为千行百业数字化转型的核心算力支撑。

打开网易新闻 查看精彩图片

同时,行业标准也在不断完善。中国信通院等机构牵头编制了《超节点发展报告》,为技术落地提供规范;中兴通讯发布《超节点技术白皮书》,提出以超节点为核心打造标准化“AI工厂”,推动超节点向标准化、产业化方向发展……

超节点的产生有什么意义?

从算力集群的单点堆叠到系统协同,超节点的出现不仅突破了大模型训练的算力瓶颈,也重新定义了大规模算力集群的构建方式。

当然,当前超节点行业仍存在技术标准不统一、伪超节点产品混杂的问题,但随着开放标准的推进、工程技术的成熟,以及以每TOKEN成本为核心的商业化导向愈发清晰,超节点的技术路线将更加明确。

打开网易新闻 查看精彩图片

在AI浪潮的推动下,未来,超节点将向着更大规模、更高能效、更开放生态等方向持续演进,持续满足AI算力不断增长的需求,并将凭借高速度、低成本的优势,推动人工智能与实体经济的深度融合,成为千行百业数字化转型的重要算力底座。

七喜电脑与您携手

共绘AI时代新篇

算力已成为驱动经济发展的新质生产力。作为深耕算力领域的科技先锋企业,七喜电脑将始终站在产业前沿,持续加码AI服务器的研发投入,以技术创新驱动业务发展,扩大边缘计算、国产化服务器等细分领域布局。

打开网易新闻 查看精彩图片

同时,七喜电脑将依托超节点提升大规模算力的有效性、可靠性和经济性,助力构建协同高效、绿色低碳的全国一体化算力网。

七喜电脑期待与您携手,共绘AI时代发展新篇!