通信世界网消息(CWW)AI大模型及人工智能产业的快速发展,催生了大量算力缺口,我国新增算力基础设施中智能算力占比已过半。智能算力需求结构也从以往少数千亿、万亿参数模型集中消耗的一次性大规模训练算力,转变为千行百业驱动的“持续性推理主导、周期性训练为辅”的双轨算力需求新格局。面对算力需求的新格局,浙江电信主动推进算力布局优化与算网融合实践,将省级范围内的算力节点布局逐步收敛至“4+11+X”,层次化满足各类用算需要:即在省内部署个位数超大型训推一体算力枢纽,在各地市部署以推理为主的区域级公有算力资源池,在近用户侧按需部署边缘算力节点。同时,持续完善无损算力网络基础设施,形成以算力节点为中心向外延伸500千米的算力辐射圈,满足省内任意地点弹性用算、邻间调算、数据安全保障以及算力互联并网的需求,为接入长三角算力联合体筑牢基础。

需求分析

大模型兴起

大语言模型(LLM)日益增加的训练和推理任务,推动算力需求急剧增长。同时,DeepSeek通过关键架构创新与工程优化,以极低的训练成本打造出具备顶尖能力的模型。相关报告显示,2025年上半年中国企业级市场日均调用量达10.2万亿Tokens,人工智能正于推理端开启规模化价值创造。

尖端AI训练芯片被禁运,单中心算力资源受限

全球半导体产业的竞争与地缘政治因素叠加,导致我国在获取尖端AI训练芯片方面面临严峻挑战。单一实体所能获取和部署的算力规模存在上限,“单点超大规模智算中心”的建设模式遭遇瓶颈。在此背景下,整合区域内分散、多厂商、异构的算力资源,构建协同调度的“算力舰队”,成为突破单点算力“天花板”、应对模型规模持续增长的必然选择。

算力供给与电力消耗正相关,省域范围内算力呈分散分布状态

智算中心的运行伴随着巨大的电力消耗,其选址与当地能源供给能力、PUE(电能使用效率)指标紧密相关,算力基础设施自然向能源富集、气候适宜的地区部署。这使得省级行政区域内的算力资源呈现“核心—区域—边缘”的多层次、分散化格局。

用算企业对轻资产运营的期望与数据安全的担忧

对于广大传统行业企业而言,自建并维护大规模的智算集群意味着沉重的资本开支和运维负担。它们更倾向于采用“算力即服务”的模式,按需获取、按使用付费,实现轻资产运营。然而,将核心业务的训练与推理数据上传至第三方算力中心,也引发了企业对于数据隐私和商业机密泄露的深切担忧。

技术选择

为应对上述挑战,浙江电信、温州数据集团与华为携手打造了边云协同分布式安全训推解决方案。该方案构建广域超长距RoCE(即基于融合以太网的远程直接内存访问)无损传输能力与训推模型切割部署能力,将企业侧轻量级算力与智算中心算力池,通过基于新型架构的AI WAN高算效广域网实现超长距协同整合,满足“数据不出域”“算力弹性扩展”等关键需求。实施“以网强算”策略,对精准响应市场核心诉求、推动产业智能化升级具有重要意义。

广域超长距RoCE无损传输能力

为达成算力之间的高速互联,业界采用了RoCE和IB(无限带宽)两种通信协议方案。其中IB协议私有化属性较强,且整体成本过高;而RoCE协议扩展性更好,有利于标准化发展。因此,边云协同分布式安全训推解决方案的网络通信协议选择基于RoCE协议进一步升级。

传统的RoCE协议在面对广域网复杂的组网环境、超长的转发距离时,易出现负载不均与拥塞问题,造成吞吐性能瓶颈。另一方面,RoCE协议对丢包极为敏感,仅千分之一的丢包率就可能导致传输性能下降50%。为解决以上问题,浙江电信与华为联合创新了广域超长距RoCE无损传输的两大关键技术。

一是租户级精准流控机制。在AI WAN的“IPv6+”底座之上,新型AI路由器以租户为单位对数据包进行智能缓存。若缓存达到预设阈值,系统将按租户粒度向上游设备发送反压信号,逐级传递直至流量源头,从而确保不同租户间的网络拥塞互不干扰,实现超百千米级RoCE“零丢包”传输。此项技术解决了传统网络因轻微丢包导致吞吐量骤降的问题,使超长距离AI训练、推理效率提升至95%以上,并实现租户级拥塞隔离,有效规避了传统PFC(功率因数校正)技术在广域场景下易引发的头部阻塞及拥塞扩散等缺陷,为超长距的边云算力协同奠定可靠基础。

二是流级动态负载均衡技术。针对智算业务大象流带来的挑战,基于AI路由器的微秒级大象流识别技术,可实现捕捉全网大象流99%准确率并上报至管控平台。结合流级自适应调度算法,根据实时网络状态为不同流量动态分配传输路径,从而实现广域网络的全局负载均衡,整体吞吐率超过95%。该机制克服了传统ECMP(等价路由)算法因无法识别流速大小而导致的链路负载不均、吞吐率低下等问题。

训推模型切割部署能力

为解决企业用户使用云上算力时对“数据不出域”的安全需求,在本次训推一体创新合作中,浙江电信联合华为推出训推模型切割部署架构。在AI训推业务中,将模型首尾层部署于本地,中间层部署于云端。通过企业侧部署的少量算力,完成模型训推中的首尾层计算,保障输入和输出的原始数据100%不出域;通过AI WAN跨越数百千米,将高维向量数据传输至智算中心,实现数据可用不可见,且中间层数据不可被还原。云上算力则完成中间层计算,满足大计算量的资源需求。该架构既满足“数据不出园区”的安全要求,又支持算力在数百千米超远距离上的灵活扩展,与基准数据相比,整体计算效率达95%以上。反观传统加密传输方案,仅能保障数据在转发过程中的安全,无法覆盖云上计算环节的数据安全,也无法保障模型本身的安全。

方案设计

浙江电信通过打造区域级训推一体无损网络,构建起一张覆盖区域、具备智算中心级性能的广域网络,将分散的算力节点整合成虚拟且统一的“超级计算机”;同时依托创新的分布式人工智能技术,保障业务逻辑可靠与数据安全。如图1所示,该网络与浙江电信“4+11+X”算力布局精准匹配,形成“中心训练枢纽—地市推理资源池—边缘算力节点”的三级云边协同体系。

中心训练枢纽(4个):在嘉善、杭州、金华、宁波布局省级区域节点,承担大规模、周期性的模型训练与微调任务。这类节点具备区域内最高算力密度,是全省算力网络的核心基石。

地市推理资源池(11个):在11个地市设置汇聚节点,主要承载高并发、低时延的在线推理服务,满足地市级实时业务需求。

边缘算力节点(X个):部署于靠近数据源头(如工厂、医院)的位置,处理对时延极度敏感或数据隐私要求极高的推理任务。

打开网易新闻 查看精彩图片

图1 浙江电信区域级训推一体无损网络架构

区域级无损网络如同“中枢神经系统”,将各层级的算力节点高速互联,实现算力的统一纳管、弹性伸缩和跨DC(数据通道)调度。当企业需要使用算力资源时,可依托训推模型切割部署的云边协同分布式训推方案,在保证企业数据安全前提下,按需取用智算中心的算力(如图2所示)。

打开网易新闻 查看精彩图片

图2 云边协同分布式训推方案

该方案通过云边协同的分布式训推架构与分割学习技术,保障企业“数据不出域”;同时依托广域网环境下的租户级精准流控机制与流级动态负载均衡技术,实现跨数据中心的高吞吐、低损耗算力协同,为区域内算力资源的互联互通与高效调度提供了可行路径。

结语

区域级训推一体无损网络是应对当前大模型算力需求激增、企业数据安全与轻资产运营诉求日益迫切等挑战的一次创新尝试。该方案通过技术创新,实现了三大价值。

算力普惠化:它将区域内分散、异构的算力资源整合成一个统一、弹性的算力服务池,使得中小企业也能像用水、用电一样,便捷、按需、低成本地获取顶尖的AI算力,极大地降低了智能化转型的门槛。

数据安全化:通过分割学习等隐私计算技术的应用,在提供强大算力支持的同时,严守“数据不出域”的底线,彻底解除企业上云用算的后顾之忧,为金融、医疗、政务等敏感领域的AI应用扫清了障碍。

产业智能化:一张高性能的算力网络,是支撑“人工智能+”战略落地的关键基础设施。它使得AI能力可以像血液一样,在区域经济的“毛细血管”(边缘节点)中顺畅流动,从而赋能千行百业,加速全社会从“互联网+”向“AI+”演进。

展望未来,随着算网融合技术的持续深化,区域级训推一体无损网络将成为构建国家一体化算力体系的重要基石,为我国在新一轮全球科技竞争中赢得优势提供坚实的底座支撑。

*本篇刊载于《通信世界》2025年12月10日*

第23期 总981期