伴随着AI的快速崛起,专为AI提供充足算力支撑的“超节点”技术在2025年迅速走红,华为先后推出了基于昇腾芯片的万卡超节点产品和50万卡、百万卡超节点集群产品,阿里、字节、腾讯、浪潮等企业也陆续发布了自己的超节点解决方案。

近日,华为计算产品线营销运作部部长张爱军在接受记者采访时表示,华为正在与合作伙伴一道,通过“集群+超节点”创新,为全球AI产业提供真正大规模、高效、开放合作的算力支撑。

打开网易新闻 查看精彩图片

“超节点”是AI算力的解决之道

当前AI技术演进正呈现出两个大趋势,一是多模态走向融合统一,二是各行各业全面拥抱AI。从单模态大语言模型到多模态融合统一,需要AI能够统一处理文本、图片、视频、声音等不同类型的数据信息,从而像人类一样,更加全面地认识、理解现实世界。不过多模态时代的到来也带来了不少新的挑战,比如AI模型需要理解、生成的上下文长度将从K级迈入兆级,模型训练需要的数据规模将从10TB级增长到100TB级,竞争加剧导致AI模型更新换代周期从半年缩短到一两个月。另一方面,各行各业都在积极引入AI技术,它们对AI算力提出了更多细化的要求,比如金融风控工作期待AI识别、反馈的时延不能高于20毫秒,新兴的AI代理应用需要在执行多任务协同、多轮推理迭代的同时快速响应用户。这两大趋势都对算力基础设施提出了更高的要求。

面对爆炸式增长的算力需求,人们不能继续依赖单颗芯片的性能提升,必须通过发展多芯片互联技术、构造大规模计算节点来解决问题。传统集群计算方案主要利用现成技术,通过服务器堆叠、以太网联接的模式来提升算力规模,不过由于服务器之间带宽不足、时延大,导致集群规模越大,算力的利用率反而越低。与此同时,算力集群的规模扩张还导致系统总体可靠性下降,一个环节出问题就会连累整个集群的运行中断,使得算力设施难以充分释放自身的价值。张爱军表示,这需要引入新的互联协议、计算架构,从而突破服务器扩展的硬件限制,满足未来规模算力供给。“超节点就是为此提供的解决方案,可以让AI训练更高效、时延更短、可靠性更高。”张爱军说。

“大带宽+低时延+内存统一编址”才是真“超节点”

传统的高性能计算设备就是一台以CPU为核心、采用单一操作系统的大型机或服务器,卡间互联采用PCIe或以太网方式,跨服务器互联带宽多为200-400Gb/s,时延一般在几十微秒,难以满足千亿参数AI模型训练所需。“超节点”则是多个分布式设备各自搭载操作系统,通过新的技术互联形成一个逻辑上的整体,各个分布式设备上的计算单元、存储单元、内存单元等形成资源池,供逻辑上的整体统一调用。

张爱军表示,“超节点”方案中的每个CPU、NPU或内存单元都可以平等地进行互联,互联通道不再采用传统的PCIe模式,而是以全新的协议、总线能力来服务AI计算的高需求。因此张爱军认为,真正的超节点应具备三个核心特征,即大带宽、低时延、内存统一编址

超节点借助高效的互联协议打破传统架构限制,支持更大规模AI芯片的高效协同,支持更大范围、更高流量的数据传输。以华为昇腾 384超节点产品为例,系统集成了384个昇腾NPU和192个鲲鹏CPU,与传统服务器架构相比,其通信带宽提升了15倍、RTT通信时延从7微秒降到了3微秒。超节点的大带宽、低时延不仅局限在单台服务器内部,还可以扩展到整机和跨机柜的大规模集群,整个超节点范围内都可以灵活并行切分资源、匹配业务需求。实测表明,在DeepSeek、Qwen等多模态、MoE模型训练中,超节点的性能是传统集群的3倍以上。

“内存统一编址”是指超节点内所有互联设备的内存地址全局唯一,无论数据位于哪台设备、哪块内存,都只有一个“全局地址”,CPU、NPU/GPU之间可以直接通过这个地址访问。这使得大模型训练中频繁的参数同步操作可以直接通过内存语义通信完成,提升小包数据传输、离散随机访存通信效率,并在超节点域内实现更大的共享内存池。昇腾384超节点已经实现了128TB的全局内存统一编址。

大带宽、低时延、内存统一编址三大能力相互协同,才能真正实现让集群像一台计算机一样工作,成为真正的超节点。相比之下,一些AI算力设施仍然在AI处理器间以PCIe+RoCE协议互联,跨服务器带宽、时延受限,且不支持“内存统一编址” 能力,本质上仍然是传统服务器的堆叠,不是真正的“超节点”。

需求无止境,创新才有未来

在已经过去的2025年,业界对AI算力的建设和发展一直存在争议,既有算力不足的呼吁,也有算力过剩的忧虑。张爱军认为,与实际需求相比,现有AI算力还远远不够。“从行业用户到个人用户,使用AI越来越多,token用量一直呈现指数级增长。”张爱军说,“据统计,2025年国内平均每天消耗300万亿token,未来可能突破每日千万亿token。”

要满足快速增长的需求,必须坚持创新。在2025年,华为不仅推出了创新的新一代超节点智算产品,还率先将智能计算的超节点技术引入到了通用计算领域,发布了全球首款通算超节点。张爱军表示,其实通用计算与智算一样,都需要不断提高性能表现,因此也都是大带宽、低时延、统一内存编址等新技术的用武之地。

张爱军告诉记者,华为面向超节点开发的高速互联协议灵衢是完全开放的,有兴趣的企业和个人都可以到灵衢官网下载详尽的技术资料,业界所有开发者都可以获取这项技术,在此基础上打造自己的超节点产品。“华为希望这些新技术、新能力可以为更多的企业选用,从而打造一个完整的产业生态,共同努力为数字化、智能化时代提供坚强的算力支撑。”张爱军说。