英伟达向左，华为云向右：AI数据中心该走哪条路？|gpu|云计算|服务器|知名企业|英伟达

前几天，AI圈流传着一个“骇人”的消息：

某大型企业因为没有给员工使用Claude设置额度上限，一个月竟跑出了5亿美元的AI账单！

很多人第一反应是：Claude怎么这么贵？

但抛开传闻本身，这个话题确实引出了一个值得思考的趋势——Agent时代的新挑战。

过去，我们问AI一个问题，消耗几百上千个Token。

现在你说一句：“帮我找下周三从上海到深圳最便宜的商务舱航班，上午出发，预算3000元以内。”

Agent在背后会疯狂调用大模型、搜索引擎、数据库、知识库、代码执行器等工具，涉及数十次推理、数百次网络通信、大量数据访问。

真正的瓶颈已经不再仅仅是模型本身，而是整个数据中心如何高效协同计算、存储和网络资源。

传统的云计算架构，正在面临一次深刻的重构。

Agent时代，发生了什么变化？

先看几组数据：

据国家数据局分析，Token消耗量到2025年底预计达到每天100万亿——一年增长1000倍。

今年4月，佐治亚理工学院与Intel联合研究发现：在数学、编码、问答等Agent任务中，CPU耗时占比最高可达90%。

另外，Agent导致序列长度大幅增加，主力模型从256K迈向百万级，甚至有研究开始探索亿级序列。长序列在内存管理和KV缓存上带来了巨大挑战。

这些变化说明：Agent时代，我们需要从架构上重新思考整个云基础设施。

面对这个挑战，华为云提出了一个大胆的构想：把整个数据中心看作一台计算机。

在这个构想中，分散在不同服务器、机柜甚至机房里的CPU、NPU、内存和存储，不再是彼此孤立的资源，而是像一台超级计算机内部的器件一样协同工作。

什么是Agentic 计算机？

简单说，你可以把Agentic计算机理解为为AI时代从头设计的“超级电脑”。

从技术上看，这个超级电脑就是数据中心本身——它通过一个叫做灵衢（UB）的高速网络，把分散在数百个机柜中的CPU、NPU、SSD和内存互联起来，使它们能够像同一台计算机里的设备一样协同工作。

看到这里，很多人会想到英伟达的NVLink。

两者确实有相似之处，都是通过高速互联突破单机边界。

区别在于：NVLink主要解决GPU与GPU之间的高速通信（虽然NVLink-C2C也能连接GPU与CPU，但对于更广泛的存储和网络设备，仍需配合PCIe或DPU使用）；而UB的目标是实现整个数据中心内计算、存储和网络资源的统一池化。

从业务模式看，这台超级电脑的服务对象不再只是人，更是AI Agent。

它提供的不是“几个CPU核心、几张GPU卡”，而是Token能力——你说要处理100万Token，系统自动配齐算力和内存，用完即散，像用电一样按度收费。

所以，这不是简单的扩展，而是对数据中心的一次彻底重构。

Agentic计算机优势在哪里？

1.推理效率很高

现在大模型都流行MoE（Mixture of Experts，专家混合模型）技术，它的特点是模型里面有很多专家（Expert），但每次推理只激活少数几个专家。

例如，一共256个专家，每次只调用8个，这样既保持模型能力，又降低计算量。

传统的方案是，一张卡上承担很多专家，像这样：

GPU/NPU

├─ Expert 1

├─ Expert 2

├─ Expert 3

├─ Expert 4

├─ ...

└─ Expert 16

这样做的问题很明显，大量时间花在数据搬运上，显存压力大，专家切换频繁，资源利用率低。

你可能会问了，为什么不搞成一卡一专家啊，理论上可以，但如果没有足够快的网络，专家之间的All-to-All通信会爆炸式增长，反而拖慢整体速度。

华为云则拥有一个独家的灵衢（UB）超高速网络，可以让GPU/NPU之间实现TB级的通信，每个专家都可以驻留一个NPU上：

NPU1 → Expert 1

NPU2 → Expert 2

NPU3 → Expert 3

NPU128 → Expert 128

这样，整个集群变成一个超级推理引擎，客户感受到的就是吞吐量更高，延迟更低，推理成本更低。

2 支持更长的上下文

以前我们用AI，主要就是回答问题，4K、8K、16K的上下文基本够用。

但现在的Agent干的活儿，复杂度完全不是一个量级了。

比如你让它“帮我分析过去三年的销售数据，并生成未来六个月经营计划”，这个Agent可能要：读取几十份文件、调用多个工具、生成中间结果、保留完整的执行历史……上下文长度轻轻松松就突破百万级，甚至上千万。

所以真正的挑战，已经从算力悄悄转移到了内存。内存瓶颈，正在成为最要命的问题。

熟悉计算机体系结构的同学都知道经典的分级存储：

华为云提出“Agentic计算机”，思路其实是一样的，它用灵衢（UB）超高速网络，把各种存储资源统一连接，形成一套分级存储体系：

在此基础上，华为云推出了弹性内存服务（EMS）：先在超节点内部形成TB级内存池（例如1K超节点可提供96TB内存池），今年更进一步在灵衢网络上增加了智能存储单元（SSU）——这是全球首个将存储芯片与DPU合一的方案，单盘带宽可达40GB/s，是普通SSD的4倍。

EMS服务因此升级为“内存池+SSU池”，提供PB级大容量缓存，可保存更长时间的KV Cache，缓存命中率提升至95%，成本节省高达63%。

在传统的推理架构下，GPU像一个人，他的桌子很小，放不下太多资料。

而在Agentic计算机中，GPU的旁边有个大型资料馆，随时取资料，这样就支持了长期记忆和超长上下文。

3 任务执行速度更快：CPU重新成为主角

很多人认为，AI的速度，主要看GPU的速度，实际上在Agentic时代， Agent ≠ 大模型

因为Agent执行过程中，大模型推理只占一部分时间。

例如“帮我做市场调研”， Agent需要调用LLM分析，搜索网页，调用数据库，读取文档，运行代码，生成报告。

这其中LLM推理可能只占10%，而CPU处理，网络IO，数据处理，工具调用占了90%的时间。

可以说在Agent时代，CPU重新变得重要了。

但是传统的云计算在应对这种场景的时候效率是很低的，从GPU集群到CPU服务器，从CPU服务器到数据库，每一步都需要跨越网络，都会产生延迟，数据复制和调度开销。

华为云提出“Agentic计算机”将CPU资源也融合到UB高速网络中，对延迟敏感或数据量大的紧耦合场景（如缓存、数据预处理/后处理、极速沙箱），则通过UB网络提供弹性紧耦合CPU算力池，实现CPU与NPU、CPU与分级内存池之间的低时延、高带宽互通。

这大幅提升了Agent任务的运行效率。业界已有模式为了2.5倍推理速度付出6倍成本，而优化CPU路径往往更容易且成本更低。

为什么是华为？

有人会问：英伟达、阿里云都很强，为什么偏偏是华为云在做这样一张高速网络？

因为这件事的工程难度远超想象。

英伟达凭借NVLink和InfiniBand等方案，构建了强大的AI算力生态。但过去NVLink主要面向GPU互联，铜缆在机柜内部效率很高，可一旦要把范围从一块芯片扩展到整个机房，铜缆的信号衰减就成问题。

英伟达也在向光通信努力（例如NVLink over Optics），但长距离、高密度的数据中心内部光互联，其工程复杂度极高，英伟达在这方面的积累不如华为深厚。

阿里云的优势在软件系统和云平台，难以从芯片到光纤全链路拉通。

而华为在光通信领域积淀极深——从上世纪90年代开始，这已是其技术壁垒最高的业务之一，全球独一档。

十几年前，华为就开始围绕数据中心设计芯片，储备了处理器、网络、接口、存储、光模块、高速光互联等核心技术。

六年前，华为正式启动UB技术研究，核心理念是“对等池化”：CPU池、NPU池、SSD池、DPU池、Memory池，统一编址、统一访问。

华为云给CPU、NPU、DPU、SSD这些设备都预留UB了位置，这样才能通过统一的UB网络实现低时延，高带宽协同。

更重要的是，华为云在整体架构上持续演进：

超节点规模持续扩大：

今年7月将基于新一代昇腾950发布灵衢智能计算集群AICS，规模提升到1024卡，更大的超节点可以灵活支持万亿模型，并探索大EP模式、MLP-Attention分离、投机解码等高效推理方式。

分布式架构：多网合一

华为云规划了分布式架构，将以往与服务器绑定的DPU池化，带宽可在多个CPU/NPU间灵活分配，而且将Scale Out网络与VPC网络归一，简化多网络平面体验，峰值带宽提升至3.2T。就算网卡故障时，业务不再受单硬件影响。

因此，灵衢（UB）网络并非凭空出现，而是华为在芯片、网络、光通信和云基础设施上几十年积累的一次集中爆发。

某种意义上说，Agent时代与华为的相遇，并非巧合。

谁在使用？

基于华为云Agentic Infra进行业务创新的客户已经不少。

比如小红书，此前用华为云CloudMatrix 384超节点（内部即为灵衢UB网络）支撑大模型推理业务，实现了“低时延、高吞吐”。

超节点支持MoE模型的“一卡一专家”部署，384个专家并行推理，单卡吞吐量从600 Tokens/s提升到2300 Tokens/s，增量Token输出时延（在特定模型和配置下）从100ms降至50ms以下，算力有效使用率（MFU）相对提升50%以上——这充分验证了超节点和UB网络在互联网大流量、高并发场景下的工程可靠性。

再如国产万亿参数大模型Ling-1T，已正式上架华为云平台。Ling-1T是一个大规模MoE模型，与华为云超节点、UB网络深度互补，有效化解分布式推理中的通信瓶颈。

通过使用包括华为在内的国产芯片训练，Ling-1T在MoE训练中将计算成本从约635万元/万亿Token降至508万元，降低约20%，效果与使用英伟达H800等芯片相当。万卡规模的国产算力集群，训练任务稳定性超过98%。

此外还有芒果TV、面壁智能、WPS、美宜佳等客户，这里不再详述。

总结

面对大模型参数持续增长、序列越来越长、Agent长时间自主工作，以及世界模型等对大规模高效训练的需求，我们需要构建一个超大规模、PB级缓存、通算与智算融合、高性能极简网络统一连接的系统。

这就是华为云打造的 “Agentic计算机”内核。

当AI能够思考、规划、执行和协作时，计算的重心从单纯的模型推理，转向了计算、存储、网络和工具调用的全局协同。传统云计算解决的是“如何连接更多服务器”，而Agent时代需要解决的是“如何让整个数据中心像一台计算机一样工作”。

也许几年后，当我们习惯把复杂任务交给Agent完成时，今天看到的Agentic 计算机概念，就会像当年的云计算一样，成为AI时代最重要的基础设施之一。