打开网易新闻 查看精彩图片

2026 年 2 月 3 日,AI 大模型训练到多模态推理,算力规模持续放大。网络已成为决定 AI 系统上限的关键因素:不仅需要更高带宽,还需更少层级以实现低成本、低时延互联。

基于对超大规模 AI 集群的长期 实践与思考, 火山引擎正式上线 102.4 T 自研交换机 , 并以此支撑新一代 HPN 6.0 架构,可支持十万卡级 GPU 集群的高效互联。

火山引擎 102.4 T 自研交换机

打开网易新闻 查看精彩图片

Lambda OS 是火山引擎自主研发的网络操作系统,它以开源 SONiC 系统为基础,结合业务场景和大规模网络运维经验,进行了深度产品化定制与创新。

内部构成:

打开网易新闻 查看精彩图片

AI 大模型的流量特征呈现为大流(Elephant Flow)和少流(Paucity of Flows),网络负载不均会导致部分链路空闲而部分链路拥塞丢包,使带宽利用率从设计的 90% 降至 50% 以下。传统 Hash 算法的不均可能导致部分链路延迟飙升,拖慢整个集群的参数同步。例如,某链路拥塞导致同步延迟增加 10 ms,迭代 1000 次后总延迟将增加 10s,严重影响模型训练效率及推理用户体感。

为此,火山引擎与芯片厂商深度合作,联合开发了业界首个可扩展的全局网络负载均衡技术 —— SGLB(可扩展且稳健的全局负载均衡)。

SGLB 基于全局拓扑,能够微秒级感知链路拥塞状态,并计算端到端最优路径。实测性能表明,相较于传统 Hash 选路,GPU 网络带宽可提升 40%。

论文:

打开网易新闻 查看精彩图片

基于 102.4T 自研交换机在软硬件一体化方面的能力积累,火山引擎推出了面向训推一体场景的融合网络架构 —— HPN 6.0。围绕“规模、融合、确定性”三个核心目标,HPN 6.0 重新定义了超大规模算力集群的网络底座。

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片