火山引擎：102.4 T 自研交换机上线

云头条

2026-02-23 21:52 ·北京 ·北京云头条咨询有限公司官方账号

2026 年 2 月 3 日，AI 大模型训练到多模态推理，算力规模持续放大。网络已成为决定 AI 系统上限的关键因素：不仅需要更高带宽，还需更少层级以实现低成本、低时延互联。

基于对超大规模 AI 集群的长期实践与思考，火山引擎正式上线 102.4 T 自研交换机，并以此支撑新一代 HPN 6.0 架构，可支持十万卡级 GPU 集群的高效互联。

火山引擎 102.4 T 自研交换机：

Lambda OS 是火山引擎自主研发的网络操作系统，它以开源 SONiC 系统为基础，结合业务场景和大规模网络运维经验，进行了深度产品化定制与创新。

内部构成：

AI 大模型的流量特征呈现为大流（Elephant Flow）和少流（Paucity of Flows），网络负载不均会导致部分链路空闲而部分链路拥塞丢包，使带宽利用率从设计的 90% 降至 50% 以下。传统 Hash 算法的不均可能导致部分链路延迟飙升，拖慢整个集群的参数同步。例如，某链路拥塞导致同步延迟增加 10 ms，迭代 1000 次后总延迟将增加 10s，严重影响模型训练效率及推理用户体感。

为此，火山引擎与芯片厂商深度合作，联合开发了业界首个可扩展的全局网络负载均衡技术 —— SGLB（可扩展且稳健的全局负载均衡）。

SGLB 基于全局拓扑，能够微秒级感知链路拥塞状态，并计算端到端最优路径。实测性能表明，相较于传统 Hash 选路，GPU 网络带宽可提升 40%。

论文：

基于 102.4T 自研交换机在软硬件一体化方面的能力积累，火山引擎推出了面向训推一体场景的融合网络架构 —— HPN 6.0。围绕“规模、融合、确定性”三个核心目标，HPN 6.0 重新定义了超大规模算力集群的网络底座。

云头条声明：如以上内容有误或侵犯到你公司、机构、单位或个人权益，请联系我们说明理由，我们会配合，无条件删除处理。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴