6月5日的华为云INSPIRE创想者大会上,一个问题被抛了出来:当其他云厂商还在比拼Token调用总量的时候,为什么华为云说它不卷这个数字了?答案藏在周跃峰当天提出的Agentic Infra基础设施范式中。这个新概念背后,是华为云对AI产业下半场的判断——智能体时代来了,企业客户要的不再是“把模型跑起来”,而是让智能体能够长期执行任务、持续调用工具、管理上下文记忆,并在复杂业务环境中安全运行。

这场发布会的核心信号很明确:Agentic AI的竞争重点,已经从单一模型能力延伸到算力集群、存储、调度、训推平台、安全机制、智能体工程平台和行业场景。对于企业客户而言,Agentic AI能否真正落地,关键不只在于模型本身,也取决于底层基础设施能不能撑住长程任务、稳定运行、成本控制和安全可控。华为云当天发布的系列产品,正是沿着这条逻辑线逐一展开。

打开网易新闻 查看精彩图片

周跃峰在会上点出了Agentic AI对基础设施的四类新要求:一是更高效的Token生成能力,支撑大规模智能体并发调用;二是更长程的记忆能力,让智能体能够处理跨小时、跨天级任务;三是更灵活的算力调度能力,在训练、推理和智能体运行之间动态分配资源;四是更强的安全自治能力,保障智能体在企业环境中的可控运行。这四条线,直接划定了Agentic Infra的四个方向——高效Token工厂、持续学习、通智一体化调度、安全自治。

算力层是“Token工厂”的物理底座。华为云发布的AICS灵衢智算集群,基于灵衢网络支持10万卡级集群规模,总算力最高可达200 EFLOPS。按照华为云给出的数据,这套集群可将Token生成时延降到10毫秒以内,千卡每秒吞吐达到500万Tokens,在线服务可用性达到99.95%。这些指标直接对应智能体大规模并发调用的场景需求——延迟高了,智能体的响应就跟不上;吞吐不够,并发一上来就会卡住。

记忆与上下文管理是智能体长程任务的关键瓶颈。AMS Agentic记忆存储解决方案瞄准的就是这一点。它通过NPU直通CMS硬件提供PB级记忆空间,并支持KV Cache分层池化。目标很直接:在降低推理成本的同时,支撑天级长程任务,让智能体具备更强的持续学习和上下文保持能力。如果没有这种层级化的记忆机制,智能体在执行跨天任务时就会丢失上下文,退化成只能处理短对话的简单问答机器。

资源调度层解决的是训练、推理和智能体负载之间的资源协同问题。CCE Volcano Next通智一体化调度引擎的核心思路是“训推共池”和“碎片整合”,支持通用计算与智能计算混合负载调度。华为云给出的数据是资源利用率提升30%以上。这个数字的背后逻辑是:企业不可能为训练、推理和智能体分别部署三套独立算力,动态调度才是成本可控的前提。

智能体运行环境则需要解决安全和弹性的问题。AgentSphere面向智能体规模化运行,提供弹性扩展、主动防护和沙箱隔离能力。其羽量级沙箱技术可实现100毫秒级启动,并支持每分钟十万级批量创建。这意味着当企业需要同时运行成百上千个智能体实例时,启动延迟不再是瓶颈,安全隔离也能保证一个智能体的异常不会波及整个系统。

底层基础设施之上,ModelArts Next模型训推平台重点建设了四类能力:RL强化学习服务、机密推理、模型路由和模型矩阵。其中MaaS模型路由支持成本优先、效果优先和均衡模式三种策略,可根据请求特征动态选择模型。华为云披露的数据显示,该平台目前已提供15余款SOTA模型服务,模型调度精准率超过95%,调用成本平均降低20%。企业级RLaaS服务则支持一分钟创建任务、训练过程可视化观测以及训推一致性保障,降低了企业使用强化学习优化模型的门槛。

生态层面有一个值得注意的动作:华为云联合智谱、DeepSeek、Minimax、Kimi、阶跃星辰、百度、美团LongCat、讯飞星火、爱诗科技、生数科技等20余家模型厂商,发布了“百模千态,云聚共赢”生态合作计划。这个名单覆盖了国内主流模型玩家,意图是共建系统化商业生态。在智能体平台层面,智果AgentArts企业级智能体平台已进入公测,瞄准生产级长程任务、企业级安全、行业知识深度和全链路可观测等需求。同时上线的开源版openJiuwen,其内核与AgentArts企业版同源度超过90%。

新的Agentic云入口“智果园”则试图将云服务本身智能体化。该入口聚合了华为云全栈Agentic云服务、智能体和大模型能力,并将云服务能力Skill化、CLI化,覆盖意图理解、功能开发、资源发放和应用部署等流程。目标是让用户通过自然语言或智能体工作流就能调用云上资源和能力,降低使用门槛。

安全侧的布局覆盖AI全链路。华为云发布的方案面向Agent安全、模型安全和Agentic Infra安全三个层面。在数据安全方面,数据安全专区涉及硬件专属加密与HYOK技术、数据胶囊技术以及Agentic基础设施多维度隔离等能力,目标是帮助企业在上云过程中保持数据控制权。AI机密计算方案则包含机密虚机、云端远程证明服务、机密计算密钥管理、机密推理网关、NPU设备PCIPC直通等能力,支持机密推理、机密预训练和机密联邦学习等场景。华为云还披露了一个稳定性数据:截至目前已连续稳定运行零重大事故1037天。

周跃峰对华为云AI战略的阐述,把整场发布会的逻辑串了起来。他说当前AI产业已进入“Tokens经济”时代,但华为云并不把Token总量或收入规模作为最核心指标。他给出了一套更有针对性的衡量维度:在医疗行业,Token应当对应一条条鲜活生命的守护;在能源和制造行业,Token应当对应一度电一度电的节约;在金融行业,Token应当对应更多风险防范和业务效率提升。

这套说法直接点出了华为云与其他云厂商的核心差异:AI不能只停留在个人问答、情绪价值或消费级应用上,而应当深入政府、医疗、金融、制造、科研、具身智能等行业场景,帮助国计民生行业提升生产力。周跃峰还解释了为什么华为云不愿意简单用收入总量、Token总量或算力规模与其他厂商比较——华为云采用国产化算力路线,在当前国产化算力正在成长的情况下,没有必要拿国产化算力规模与“万国牌”算力规模直接比较。华为云更看重的是发展“第二个算力平面”,让全球IT工作者和AI开发者拥有更多技术路线和生态选择。

同场发布的“行业AI梦工厂”智慧医疗、具身智能、智能制造、科学计算四大专区,则是将上述基础设施能力进一步导入具体行业场景的动作。从整个发布会的内容来看,华为云的策略路线已经清晰:不卷Token数量,卷Token背后的生产力;不走通用消费级路线,走行业深度路线;不拼算力总量,拼的是“第二个算力平面”的生态位。在Agentic AI的牌桌上,华为云把筹码押在了基础设施、行业场景和自主路线的组合上。