前几天,AI圈流传着一个“骇人”的消息:
某大型企业因为没有给员工使用Claude设置额度上限,一个月竟跑出了5亿美元的AI账单!
很多人第一反应是:Claude怎么这么贵?
但抛开传闻本身,这个话题确实引出了一个值得思考的趋势——Agent时代的新挑战。
过去,我们问AI一个问题,消耗几百上千个Token。
现在你说一句:“帮我找下周三从上海到深圳最便宜的商务舱航班,上午出发,预算3000元以内。”
Agent在背后会疯狂调用大模型、搜索引擎、数据库、知识库、代码执行器等工具,涉及数十次推理、数百次网络通信、大量数据访问。
真正的瓶颈已经不再仅仅是模型本身,而是整个数据中心如何高效协同计算、存储和网络资源。
传统的云计算架构,正在面临一次深刻的重构。
01
Agent时代,发生了什么变化?
先看几组数据:
据国家数据局分析,Token消耗量到2025年底预计达到每天100万亿——一年增长1000倍。
今年4月,佐治亚理工学院与Intel联合研究发现:在数学、编码、问答等Agent任务中,CPU耗时占比最高可达90%。
另外,Agent导致序列长度大幅增加,主力模型从256K迈向百万级,甚至有研究开始探索亿级序列。长序列在内存管理和KV缓存上带来了巨大挑战。
这些变化说明:Agent时代,我们需要从架构上重新思考整个云基础设施。
面对这个挑战,华为云提出了一个大胆的构想:把整个数据中心看作一台计算机。
在这个构想中,分散在不同服务器、机柜甚至机房里的CPU、NPU、内存和存储,不再是彼此孤立的资源,而是像一台超级计算机内部的器件一样协同工作。
02
什么是Agentic 计算机?
简单说,你可以把Agentic计算机理解为为AI时代从头设计的“超级电脑”。
从技术上看,这个超级电脑就是数据中心本身——它通过一个叫做灵衢(UB)的高速网络,把分散在数百个机柜中的CPU、NPU、SSD和内存互联起来,使它们能够像同一台计算机里的设备一样协同工作。
看到这里,很多人会想到英伟达的NVLink。
两者确实有相似之处,都是通过高速互联突破单机边界。
区别在于:NVLink主要解决GPU与GPU之间的高速通信(虽然NVLink-C2C也能连接GPU与CPU,但对于更广泛的存储和网络设备,仍需配合PCIe或DPU使用);而UB的目标是实现整个数据中心内计算、存储和网络资源的统一池化。
从业务模式看,这台超级电脑的服务对象不再只是人,更是AI Agent。
它提供的不是“几个CPU核心、几张GPU卡”,而是Token能力——你说要处理100万Token,系统自动配齐算力和内存,用完即散,像用电一样按度收费。
所以,这不是简单的扩展,而是对数据中心的一次彻底重构。
03
Agentic计算机优势在哪里?
1.推理效率很高
现在大模型都流行MoE(Mixture of Experts,专家混合模型)技术,它的特点是模型里面有很多专家(Expert),但每次推理只激活少数几个专家。
例如,一共256个专家,每次只调用8个,这样既保持模型能力,又降低计算量。
传统的方案是,一张卡上承担很多专家,像这样:
GPU/NPU
├─ Expert 1
├─ Expert 2
├─ Expert 3
├─ Expert 4
├─ ...
└─ Expert 16
这样做的问题很明显,大量时间花在数据搬运上,显存压力大 ,专家切换频繁 ,资源利用率低 。
你可能会问了,为什么不搞成一卡一专家啊,理论上可以,但如果没有足够快的网络,专家之间的All-to-All通信会爆炸式增长,反而拖慢整体速度。
华为云则拥有一个独家的灵衢(UB)超高速网络,可以让GPU/NPU之间实现TB级的通信,每个专家都可以驻留一个NPU上:
NPU1 → Expert 1
NPU2 → Expert 2
NPU3 → Expert 3
NPU128 → Expert 128
这样,整个集群变成一个超级推理引擎,客户感受到的就是吞吐量更高,延迟更低,推理成本更低。
2 支持更长的上下文
以前我们用AI,主要就是回答问题,4K、8K、16K的上下文基本够用。
但现在的Agent干的活儿,复杂度完全不是一个量级了。
比如你让它“帮我分析过去三年的销售数据,并生成未来六个月经营计划”,这个Agent可能要:读取几十份文件、调用多个工具、生成中间结果、保留完整的执行历史……上下文长度轻轻松松就突破百万级,甚至上千万。
所以真正的挑战,已经从算力悄悄转移到了内存。内存瓶颈,正在成为最要命的问题。
熟悉计算机体系结构的同学都知道经典的分级存储:
华为云提出“Agentic计算机”,思路其实是一样的,它用灵衢(UB)超高速网络,把各种存储资源统一连接,形成一套分级存储体系:
在此基础上,华为云推出了弹性内存服务(EMS):先在超节点内部形成TB级内存池(例如1K超节点可提供96TB内存池),今年更进一步在灵衢网络上增加了智能存储单元(SSU)——这是全球首个将存储芯片与DPU合一的方案,单盘带宽可达40GB/s,是普通SSD的4倍。
EMS服务因此升级为“内存池+SSU池”,提供PB级大容量缓存,可保存更长时间的KV Cache,缓存命中率提升至95%,成本节省高达63%。
在传统的推理架构下,GPU像一个人,他的桌子很小,放不下太多资料。
而在Agentic计算机中,GPU的旁边有个大型资料馆,随时取资料,这样就支持了长期记忆和超长上下文。
3 任务执行速度更快:CPU重新成为主角
很多人认为,AI的速度,主要看GPU的速度,实际上在Agentic时代, Agent ≠ 大模型
因为Agent执行过程中,大模型推理只占一部分时间。
例如“帮我做市场调研”, Agent需要调用LLM分析,搜索网页,调用数据库,读取文档,运行代码,生成报告。
这其中LLM推理可能只占10%, 而CPU处理,网络IO,数据处理,工具调用占了90%的时间。
可以说在Agent时代,CPU重新变得重要了。
但是传统的云计算在应对这种场景的时候效率是很低的,从GPU集群到CPU服务器,从CPU服务器到数据库,每一步都需要跨越网络,都会产生延迟,数据复制和调度开销。
华为云提出“Agentic计算机”将CPU资源也融合到UB高速网络中,对延迟敏感或数据量大的紧耦合场景(如缓存、数据预处理/后处理、极速沙箱),则通过UB网络提供弹性紧耦合CPU算力池,实现CPU与NPU、CPU与分级内存池之间的低时延、高带宽互通。
这大幅提升了Agent任务的运行效率。业界已有模式为了2.5倍推理速度付出6倍成本,而优化CPU路径往往更容易且成本更低。
04
为什么是华为?
有人会问:英伟达、阿里云都很强,为什么偏偏是华为云在做这样一张高速网络?
因为这件事的工程难度远超想象。
英伟达凭借NVLink和InfiniBand等方案,构建了强大的AI算力生态。但过去NVLink主要面向GPU互联,铜缆在机柜内部效率很高,可一旦要把范围从一块芯片扩展到整个机房,铜缆的信号衰减就成问题。
英伟达也在向光通信努力(例如NVLink over Optics),但长距离、高密度的数据中心内部光互联,其工程复杂度极高,英伟达在这方面的积累不如华为深厚。
阿里云的优势在软件系统和云平台,难以从芯片到光纤全链路拉通。
而华为在光通信领域积淀极深——从上世纪90年代开始,这已是其技术壁垒最高的业务之一,全球独一档。
十几年前,华为就开始围绕数据中心设计芯片,储备了处理器、网络、接口、存储、光模块、高速光互联等核心技术。
六年前,华为正式启动UB技术研究,核心理念是“对等池化”:CPU池、NPU池、SSD池、DPU池、Memory池,统一编址、统一访问。
华为云给CPU、NPU、DPU、SSD这些设备都预留UB了位置,这样才能通过统一的UB网络实现低时延,高带宽协同。
更重要的是,华为云在整体架构上持续演进:
超节点规模持续扩大:
今年7月将基于新一代昇腾950发布灵衢智能计算集群AICS,规模提升到1024卡,更大的超节点可以灵活支持万亿模型,并探索大EP模式、MLP-Attention分离、投机解码等高效推理方式。
分布式架构:多网合一
华为云规划了分布式架构,将以往与服务器绑定的DPU池化,带宽可在多个CPU/NPU间灵活分配,而且将Scale Out网络与VPC网络归一,简化多网络平面体验,峰值带宽提升至3.2T。就算网卡故障时,业务不再受单硬件影响。
因此,灵衢(UB)网络并非凭空出现,而是华为在芯片、网络、光通信和云基础设施上几十年积累的一次集中爆发。
某种意义上说,Agent时代与华为的相遇,并非巧合。
05
谁在使用?
基于华为云Agentic Infra进行业务创新的客户已经不少。
比如小红书,此前用华为云CloudMatrix 384超节点(内部即为灵衢UB网络)支撑大模型推理业务,实现了“低时延、高吞吐”。
超节点支持MoE模型的“一卡一专家”部署,384个专家并行推理,单卡吞吐量从600 Tokens/s提升到2300 Tokens/s,增量Token输出时延(在特定模型和配置下)从100ms降至50ms以下,算力有效使用率(MFU)相对提升50%以上——这充分验证了超节点和UB网络在互联网大流量、高并发场景下的工程可靠性。
再如国产万亿参数大模型Ling-1T,已正式上架华为云平台。Ling-1T是一个大规模MoE模型,与华为云超节点、UB网络深度互补,有效化解分布式推理中的通信瓶颈。
通过使用包括华为在内的国产芯片训练,Ling-1T在MoE训练中将计算成本从约635万元/万亿Token降至508万元,降低约20%,效果与使用英伟达H800等芯片相当。万卡规模的国产算力集群,训练任务稳定性超过98%。
此外还有芒果TV、面壁智能、WPS、美宜佳等客户,这里不再详述。
06
总结
面对大模型参数持续增长、序列越来越长、Agent长时间自主工作,以及世界模型等对大规模高效训练的需求,我们需要构建一个超大规模、PB级缓存、通算与智算融合、高性能极简网络统一连接的系统。
这就是华为云打造的 “Agentic计算机”内核。
当AI能够思考、规划、执行和协作时,计算的重心从单纯的模型推理,转向了计算、存储、网络和工具调用的全局协同。传统云计算解决的是“如何连接更多服务器”,而Agent时代需要解决的是“如何让整个数据中心像一台计算机一样工作”。
也许几年后,当我们习惯把复杂任务交给Agent完成时,今天看到的Agentic 计算机概念,就会像当年的云计算一样,成为AI时代最重要的基础设施之一。
热门跟贴