【中国,北京,2024年12月23日】在由中国信息通信研究院主办的智算IP广域网产业交流会上,中国电信股份有限公司北京分公司(以下简称“北京电信”)云网发展部规划总监姚凌分享了“打造高品质智算广域网,百公里无损联算服务首都新发展”的演讲。姚凌表示北京电信通过智算广域网将京津冀三地算力中心资源整合,探索多算力中心协同完成超大模型训练的多点共算新模式。采用新型流级拥塞控制,无损调度和深度负载均衡智算广域网技术,保证网络传输吞吐率95%以上,从而实现跨智算中心算效不下降,高效服务人工智能产业发展需求。

打开网易新闻 查看精彩图片

算力需求每年增长10倍,运营商规划构建万卡集群,协同完成超大模型训练。受供电、机房环境等因素限制,单智算中心物理环境不满足万卡集群的建设需求。通过广域网络联接跨几百到上千公里的异地算力中心,会面临两个关键技术点挑战: 一是跨DC大模型训练极端情况流量瞬时并发达上千Tbps,需要考虑收敛比和训练效率之间平衡最优比。二是RDMA长距传输对于丢包十分敏感,千分之一丢包会导致网络吞吐率下降,影响算卡效率并造成资源浪费。

北京电信通过新一代智算路由器打造智算广域网,采用新型流级拥塞控制技术,可精准快速识别网络发生拥塞或故障,并基于流进行拥塞控制,确保拥塞不扩散到全网。同时采用路由器广域无损调度和负载均衡技术,避免数据丢包导致算卡计算效率下降,现网实际验证跨100公里长距算效仅降1%。

姚凌表示北京电信后续将持续探索多DC协同技术研究,目前正在联合云公司开展智算拉远四阶段验证。基于息壤慧聚智能模型服务平台,验证百川等真实客户模型拉远效果,逐步推进智算拉远方案走向商用。