通信世界网消息(CWW)随着人工智能技术的加速发展,生成式AI驱动的创新应用场景不断涌现,对算力和网络基础设施提出了新的挑战。智能算力是支撑生成式AI的核心资源,而高效的算力互联则可以发挥集群效应,进一步拓展智算性能上限和服务边界。同时,智能体作为基于生成式AI的新服务形态,其泛在的协作通信成为IP广域网发展的重要方向之一。这些因素促进IP广域网从“连接赋能”到“算力赋能”升级,并正在迈向“AI赋能”新阶段。

国家相继发布政策支持算力及AI技术发展。2023年,我国发布《算力基础设施高质量发展行动计划》《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》等,强调算力高质量发展、算网融合基础设施建设的重要性。2025年,国务院《关于深入实施“人工智能+”行动的意见》进一步强调了强化智能算力统筹,完善全国一体化算力网,充分发挥“东数西算”国家枢纽作用,加强数、算、电、网等资源协同。

在国家政策和产业需求双轮驱动下,需要构建AI内生的高智能、高可靠、高安全的IP广域网络,智能IP广域网(AI WAN)应运而生。AI WAN基于算力网络新型基础设施与AI深度融合,通过构建新的AI网络设备和功能,面向政企、行业、公众用户提供内生智能、多维感知、差异体验、安全可信的网络,服务于AI大模型训推等新型应用。

从智算互联到智能体互联的发展趋势

智算广域互联需要无损、超高吞吐、超低时延网络

智算网络通过构建超高速、低延迟的网络架构,解决大规模GPU集群互联的难题,智算广域互联则在智算中心网络的基础上进一步解决算力与数据的跨域协同难题。为此,需要构建无损、超高吞吐、超低时延的广域网络底座。

一是无损的网络连接。网络中2%的丢包率将导致吞吐量降至0,50ms保护倒换将引起算效下降或断点重训;而原生RDMA(远程直接内存访问)丢包重传机制使得丢包引发明显的算力损伤,因此需要构建无损的网络连接能力,以满足智算训练的基本网络需求。

二是超高吞吐传输机制。智算数据广域传输规模达到PB级,网络带宽增速和CPU性能增速比率超过10。而广域传输协议(如TCP等)的拥塞控制机制无法匹配带宽增长,导致吞吐率不足,需要攻关超高吞吐的传输技术。

三是超低时延转发。网络时延对不同并行方式的训练效率影响巨大,例如TP(张量并行)需要服务器内的超低时延;PP(流水线并行)、DP(数据并行)等需要跨服务器的可并行时延分配,因此需要超低时延转发机制。

智能体互联网将引发广域网发展范式变革

基于大模型的AI Agent(智能体)代表了AGI的前沿发展趋势和应用方向,依托优质的智算广域网络基础设施,以全新的前端服务形式为用户提供普遍泛在的AI服务,将成为大模型落地商用的主流形式。智能体可根据用户意图主动发现需求、协同资源、执行任务,例如工业场景中生产调度智能体自主优化产线流程、消费场景中生活助手智能体联动家电与服务平台打造无缝体验。

面向海量智能体的互联需求,业界提出智能体互联网,即基于传统互联网构建新型网络基础设施,提供用户、智能体、工具之间的高效连接和交互能力。在智能体互联网中,网络要理解智能体与传统人类的差别,呈现出新互联主体、新交互范式、新协作模式、新资源抽象等核心特征。

新互联主体。在传统互联网架构中,人类是绝对的核心互联主体。在智能体互联网中,互联主体发生了根本性转变,将向人类与智能体协作共生的“人智协同”模式演进,网络中将存在大量的用户、智能体、工具之间的互联。

新交互范式。不同于网页界面“WebUI”、用户界面“GUI”,智能体互联网将催生全新的交互范式,即多模态用户界面“MUI”。它融合了语音、图像、视觉等多种感知模态,实现更加自然、高效、个性化的人机交互。

新协作模式。在传统协作模式中,人类是绝对的操作和决策主体。智能体互联网推动人类定位从“操作主体”向“决策主体”转变,智能体承担起任务执行逻辑的核心制定职责,实现了人类智能与人工智能的优势互补。

新资源抽象。在传统互联网的资源体系中,数据与算力占据核心地位。智能体互联网彻底重塑这一资源格局,“工具”被提升到核心地位,实现对数据、算力等资源要素的高度抽象和动态使用。

由此可见,一方面,AI WAN需要承载新型智算中心大集群互联,满足大模型训推的极致连接性能需求,这将促进广域网基础协议创新;另一方面,基于AI WAN的新型智算网络为AI新型应用提供支撑,可以实现海量智能体的高效接入和交互,这将促进广域网的应用协议创新。可以预见,智能体之间自主执行的特征将极大解放人类生产力,重构数字经济的运作模式,深刻改变社会生产生活方式。

AI WAN促进广域网络全栈协议创新

智算广域网络基础协议创新

1.传输层:广域抗损高吞吐技术

在广域智算网络中,吞吐性能决定数据流通效率,即算力供给效率,是算力转化为生产力的关键。TCP作为唯一广泛应用的可靠传输协议,存在性能瓶颈:一方面,TCP单流吞吐随着时延和丢包率的增加而急剧下降;另一方面,TCP多流吞吐不会随着流数线性增加,存在性能拐点。因此,需要构建新的广域高吞吐机制,实现海量数据的广域高效传输。

针对广域网高延迟、高抖动、高丢包率等挑战,中国移动首创4项“抗损”创新机制,构建半卸载uQUIC、全卸载uRDMA两类技术方案,覆盖多样化场景的性能与部署需求。目前已经完成天文观测、影视素材搜集、基因测序、云间备份等多个场景10多个省市的现网应用,以高效数据流通带动数字化产业繁荣。

2.网络层:算力路由技术

分布式AI推理业务是当前AI最广泛的应用场景,需要低时延调度以满足用户需求。当前边缘计算节点广泛部署,提供网络就近接入和专用算力服务,使得网络时延和计算时延处于同一量级(5ms左右),因此需要同时考虑网络和计算资源状态,进行算网联合优化。

针对广域智算网络的算网联合优化需求,中国移动提出算力路由技术,通过归一化算网统一度量、自适应算力信息通告、多因子算网联合路由等核心技术,实现算网一体化路由与调度。算力路由可有效提升智算网资源利用率,降低端到端业务时延。目前,中国移动已经取得IETF国际标准突破,发布全球首台算力路由器,建设5省20地市中试网络,并完成了业界首个面向AI推理和视联网的应用样板。

3.网络层:G-SRv6

SRv6(IPv6分段路由)是新一代IPv6转发面基础路由技术,具备高度灵活性、可编程性、可扩展性等特征,是算力网络统一的IP数据面技术。然而,原生SRv6在传输效率和栈深处理上存在限制:一是承载效率低,对于平均长度256byte的净荷,其带宽利用率仅为60%;二是芯片实现难,8层分段标识带来128byte的分段报文头中标识列表长度,将大大增加芯片复杂度;三是现网升级难,环回解决方案将大幅降低网络性能,运营商现网难以平滑升级。

针对原生SRv6的技术缺陷,中国移动原创提出G-SRv6(压缩SRv6技术)头压缩技术,可将报文开销压缩到1/4以下,解决了SRv6规模部署难题。2025年,牵头发布RFC9800,这是我国主导的首个整百号互联网基础标准,彰显了其对互联网发展的里程碑意义。当前,中国移动己建成全球规模最大、技术领先的G-SRv6策略路由网络,核心技术已在全球广泛部署,成为国际运营商网络转型的最佳参考实践,为全球新一代IP网络的代际演进提供了中国方案。

4.物理层:空芯光纤技术

AI广域互联要求底层光纤网络满足超低时延和超大带宽需求,空芯光纤以空气导光,可突破石英材料带来的时延和容量极限,具备降低30%传输时延和提升数十倍单纤容量的颠覆性优势,是AI广域互联的核心底座技术。

中国移动在光路、光收发机和DSP(数字信号处理)算法等多个维度进行体系化技术创新,创造单波1T 10714km传输距离世界纪录,较实芯光纤提升10余倍;验证了模间串扰和损耗谱不平坦取代非线性效应,成为限制空芯光纤长距离传输的主导损伤机制。

智能体互联网应用协议创新

当前网络中以下行视频流量为主(约占70%),而智能体互联将自主产生多样化的上下行对等异构流量,需要灵活的组网与通信、高效的标识解析、超高并发控制、自适应网络转发、异质流量的协同等。同时,网络的功能组件也将集成智能体,支持更高效的运维和转发能力,这些将构建新的应用层协议。

中国移动已经初步提出智能体互联网的愿景、架构和关键技术,构建新的身份标识、服务发现、认证授权、转发路由等技术和协议体系(如图1所示)。发表论文《智能体互联网:概念、架构及关键技术》,系统性提出智能体互联网的发展愿景和路径;发布《智能体互联网技术体系白皮书》,获4位院士及国际专家作序;在CCSA TC3和TC5推动成立智能体通信网络相关子工作组,并在3GPP、IETF、ITU等布局智能体通信及互联方面的国际标准。

打开网易新闻 查看精彩图片

图1 智能体互联网架构及协议体系

1.标识解析:提供智能体接入和发现基础

智能体将依据身份标识、能力标识、所属关系标识等存在于智能体互联网并提供服务,整体需要遵循统一的标识结构。其中,身份标识用于标志智能体的唯一性,能力标识用于在网络中发现相应的智能体,所属关系标识代表智能体所归属的主体。可采用分布式标识DID(分布式标识)技术,遵循去中心化的信任模型架构,依赖分布式账本完成认证。

智能体的标识解析可参考当前IP广域网DNS解析机制,直接解析为IP地址进行通信;也可新建专属智能体域名解析机制,先通过能力解析确定目标智能体,再经由统一的DNS系统解析为目标IP地址进行通信。同时,还需要考虑分级分区智能体发现、能力感知的动态映射、任务驱动的优先级调度等功能,以保障智能体的精准发现和交互。

2.认证授权:保障隐私及智能体交互可靠

认证授权是实现多智能体安全可信互联协作的重要前提,用于确保智能体自主执行任务时的合法性,包括实现U2A(用户与智能体)双向可信交互与A2A(智能体与智能体)全链路可控协作,为跨域协同提供安全底座。智能体认证授权聚焦以下核心需求:一是双向身份可信需求,二是动态权限适配需求,三是全链路风险管控需求。

在身份标识认证方面,从信任模型、标识控制权、动态灵活性、兼容性等不同维度考虑,主要有传统数字证书方式X.509、CA和DID+X.509等混合模式;在链式授权核心流程中,可通过扩展OAuth(开放授权协议)新增确认服务器、人工坐席、机制及工具调用代理等,确保智能体在工作过程中的准确性。全链路风险管控可选用硬件关联的RATS(远程测试程序)或基于AI的异常检测方法,验证智能体的环境完整性。

3.转发路由:实现异构智能体的跨域寻址

智能体在能力发布和任务协作时,涉及域内和跨域的互联互通问题。尤其是跨域场景下,归属不同组织、不同单位的智能体需要相互访问、相互发现以实现互联协作。网络需要为异构、跨域智能体提供可访问、开放式、安全的互联机制。在智能体大规模互联方面,可在网络中部署智能体边界网关,实现用户智能体的分域管理和路由转发。

智能体的路由主要面向应用层的智能体发现,在确认目标智能体后,通过IP广域网络路由机制进行报文转发。智能体路由可采用基于能力的寻址方式,需要支持Anycast基础路由模型,支持多维度Metric选择;可配合CATS(算力路由)的基础机制,进行应用层或IP层的路由选择。同时,鉴于智能体的广泛组网需求,集合通信库也可用于智能体的路由机制中,通过组播形式进行互联寻址。

4.网络运维:大幅提升网络的效率与可靠性

传统网络管理需手动配置大量设备指令以实现业务目标,对人工经验依赖较大。智能体可集成在网络管控面,成为连接“用户意图”与“网络动作”的关键载体。凭借感知、分析、决策、执行能力,智能体通过意图驱动将用户的自然语言意图转化为网络可以识别和执行的动作,大幅提升网络管理的效率与可靠性,提供从意图解析到状态反馈的全流程支撑能力。

在意图接收与解析适配方面,智能体须支持多种接口方式接收意图指令,并进行格式校验和语义转换,将标准化意图转换为设备可理解的技术参数;在网络状态感知与数据采集方面,智能体可自适应动态感知设备资源数据、网络性能数据和业务流量数据;在决策分析与执行方面,智能体可基于意图分析结果,结合知识库案例,将用户输入的内容转化成配置指令或者调用步骤;在闭环验证方面,智能体需要实时监控配置执行结果,通过设备返回码判断配置是否成功。

结语

经过多年迭代发展,AI技术已走向新业务形态的持续爆发阶段,智能、通信、算力等行业即将迎来全新的产业变革。作为新型信息通信基础设施,广域网历经5年算力网络升级建设,已经初步具备提供AI大规模训推的基础资源能力,但还需要从以下三个方面进一步深化发展,以充分释放其价值,迎接广域网的下一个黄金十年。

一是AI内生驱动,加速数据、算力、安全等新型生产力要素与网络的一体化发展,构建高性能智算网络。

二是持续提升性能,在带宽、时延、抖动等传统指标基础上,进一步向吞吐、丢包率等多维定制化性能指标演进。

三是新型业务融合,重点面向AI训推、智能体互联等新型业务,提供灵活、动态、智能的多元服务。

在全球范围内,智算网络、智能体互联网技术研发与标准布局已经展开。在当前复杂的国际形势下,需要发挥我国在算力网络基础设施建设以及原创技术标准方面的发展优势,持续构建自主的AI WAN技术,开启AI时代的新篇章。

*本篇刊载于《通信世界》2025年12月10日*

第23期 总981期