国内光纤价格持续上涨。2026年1月,最新的G.652.D散纤价格已超过40元/芯公里,近一年的涨幅超过50%。
涨价的原因,有专家认为主要是由于智算中心建设需求激增导致的。那么,智算中心建设,对光纤的需求到底有多大呢?
本文先分析智算中心楼内的光纤需求。
01
智算中心AI组网的总体架构
根据网络功能的不同,智算中心AI组网通常分为参数面、样本面、业务/带内管理面、带外管理面多个逻辑/物理隔离的子网(不同厂商对各子网的称谓可能不一致)。
AI组网的总体架构如图1所示:
图1 AI组网物理架构
——参数面,又称训练面、AI计算面,实现智算集群内GPU的高速互联。
——样本面,又称存储面,实现智算集群与存储区的高速互联。
——业务面,用于互联网用户访问智算/通算等资源。
——管理面,分为带内管理面和带外管理面,类似于通信设备的带内管理和带外管理,其中带内管理走的是和业务共用的网络。
业务面和管理面的组网与传统数据中心基本相同,但参数面和样本面的组网则有很大区别。这也是智算中心光纤互联需求极大的主要原因。
02
参数面互联光纤需求
参数面网络通过高速无损互联,将多台AI服务器中的GPU组成一个低时延、高带宽的分布式训练集群,以支持大规模模型的协同训练。
通常,一台AI服务器包含8张GPU,每张GPU通过一块高速网卡与参数面网络互联。
2.1 参数面网络架构
参数面的网络可采用Leaf-Spine二层或Leaf-Spine-Core三层架构。Leaf、Spin、Core可理解成接入、汇聚、核心交换机,收敛比为1:1,交换机的上联和下联端口数通常一样,如图2所示。
图2 AI组网中的交换机
采用Leaf-Spine二层架构时的网络拓扑如图3所示。
每台AI服务器的8张GPU通过网卡连接到8台Leaf相同序号的端口,每台Leaf的下联端口分别连接到不同服务器中相同序号的GPU,Leaf的上联端口与Spine的端口全mesh互联。
图3 Leaf-Spine二层架构的拓扑
通常,单台Spine和Leaf的端口数一样,假设均为P个。Spine的数量等于单台Leaf的上行端口数(P/2),Leaf的数量等于单台Spine的端口数(P)。由于交换机的收敛比为1:1,所以,Leaf-Spine二层架构接入的GPU数量为P×P/2 = P2/2,与Spine交换机总的端口数一致。
采用Leaf-Spine-Core架构时的网络拓扑比较复杂,可简单理解为:图3中的所有Spine(台数为P/2)组成一个上联端口为P2/4的组,每个端口连接到不同的Core,如图4所示。所以,Leaf-Spine-Core架构接入的GPU数量为P×P2/2 = P3/4。
图4 Leaf-Spine-Core架构示意图
交换机端口数不同时,二层、三层架构可接入的GPU最大数量见表1。
表1 不同网络架构容纳的GPU数量
2.2 互联光纤需求的影响因素
互联光纤需求通常以光纤总的芯公里数来衡量,主要与互联的光信道(指交换机—交换机、交换机—网卡间的光纤传输通道)条数、每条光信道的光纤数及每条光信道的长度相关。
无论采用二层还是三层架构组网,由于各层均无收敛,所以,各个层面互联的光信道数均一样,等于GPU的数量。
每条光信道的光纤数与光模块的速率和光信道的长度有关。AI服务器-Leaf-Spine段,光模块速率为25Gbit/s和50Gbit/s时,通常采用2芯多模光纤;为100Gbit/s、200Gbit/s或400Gbit/s时,通常采用8芯多模光纤;为800Gbit/s或1.6Tbit/s时,通常采用16芯多模光纤。
Spine-Core段由于光信道的长度较长,通常采用双芯单模光纤。光信道的光纤数与两端光模块的通道数相适配,图5所示为一个4通道(8芯)多模光模块内部结构示意图。
图5 4通道光模块的组成结构
不同层面互联光信道的长度与下列因素有关:
(1)如图3所示的每8台Leaf及其下联的服务器组成一个Pool(也称单元,Unit或Group),每个机架可安装2~4台服务器,Leaf通常设置于机架的顶部。从AI服务器-Leaf的光信道长度与一个Pool的机架数有关,每条长度可为3m~30m。
(2)通常每个楼层会设置一至多个集群(二层架构时)或POD(三层架构时)。POD通常是P/2×P/2架构,容量为二层架构的一个集群的一半,如图6所示(图中SS代表Super-Spine,等同于Core)。从Leaf-Spine的光信道长度与集群或POD内的机架数有关,约为10m~50m。
SSG:Super Spine Group,LSG:Leaf-Spine Group
图6 三层架构组网示意图
(3)一栋建筑内往往包含一至多个算力集群,只有GPU数量较大的集群(三层架构)才需设置Core。从Spine-Core的光纤长度主要与建筑的长、宽尺寸相关,约为30m~90m。
2.3 参数面互联光纤需求估算
以下以GPU最大容量3万张的单体建筑为例,估算参数面楼内的光纤需求。
假设3万卡分成了多个算力集群,其中最大的集群1.5万卡,采用三层组网架构,其余集群均采用二层架构;AI服务器-Leaf的光信道平均长度按10米估算,Leaf-Spine、Spine-Core的光信道平均长度分别按25米和60米估算。
估算结果如表2所示:
表2 参数面互联光纤需求估算表
03
楼内互联光纤总需求
样本面的网络架构与参数面相似,各层的收敛比也为1:1,分为AI侧和存储侧两个部分,组网架构如图1右下部分所示。样本面的纤芯需求可根据互联光信道的数量与参数面的占比进行大致估算。
以某算力集群光信道的实际配置为例,参数面AI服务器通过8条200G信道上联,样本面AI侧和存储侧每台服务器均通过两条光信道上联到Leaf,AI侧光信道的速率为25G,存储侧光信道的速率为100G。
据此,可估算样本面的纤芯需求与参数面的大致占比,如表3所示:
表3 样本面互联光纤需求占比
业务面、管理面网络通常有一定收敛比,纤芯需求一般不足样本面的一半,估算样本面纤芯需求时取一定余量即可。
样本面、业务面、管理面的互联纤芯与参数面的占比与具体业务模型有较大关系(如训练和推理GPU张数比、数据集大小、存储类型等),一般情况下可按参数面的20%估算,即智算中心AI组网的互联纤芯总需求可按参数面的纤芯需求(见表2)乘以1.2系数估算。
04
小结
在数据中心建设阶段,我们无法知道数据中心内部各子网今后的建设需求。但可以根据电力供给情况和建筑的面积,估算出每栋建筑可容纳的GPU数量。根据GPU的数量,可估算出光信道的条数。根据建筑的尺寸和布局,可估算出每条光信道的长度。从而估算出整个数据中心的纤芯需求。
从上文的分析可以看出,智算中心AI组网对多模光纤(主要是OM4)的需求较传统数据中心要大10倍以上,但楼内互联对单模光纤(G.652.D和G.657A)的需求与通信网比显得微不足道。楼间互联部分对单模光纤的需求,有待进一步分析。
参考文献
[1] 光纤荒席卷全产业链, 信息安全风险凸显. 谈纤说缆.
[2] 华为. 星河AI高算效数据中心网络解决方案.
[3] 百度智能云. 智算中心网络架构白皮书.
[4] AI大模型训练与智算中心网络架构及可扩展性设计.西贝吹风.
文章来源:一丁一卯
热门跟贴