过去一年,外界看阿里云,眼睛盯着的都是钱。史无前例的资本投入,重注AI基础设施,是不是太激进了?是不是想靠AI叙事炒股价?

这些质疑有个共同盲区:还在用老尺子量新东西。市场份额、增速、跟AWS和Azure的差距——这套框架,5月20日的阿里云峰会直接跳了过去。

打开网易新闻 查看精彩图片

阿里云资深副总裁刘伟光抛出的核心判断是:Agent突破临界点之后可以24小时不间断工作,对AI和云的需求无穷无尽。阿里云正在进行全栈技术革新,从底层芯片、Agentic Cloud、模型到推理平台全面升级,建设中国最大的AI工厂。

几乎同一时间,谷歌I/O大会的主题也是Agent。智能体被塞进搜索框、Chrome、Android、智能眼镜,Gemini从对话助手变成持续运行、跨应用执行任务的AI代理。AWS、微软Azure同样在基于Agent的逻辑重塑基础设施。

全球头部云厂商达成默契:旧的云撑不住未来的Agent,基础设施需要为Agent重建。以往大多数厂商是在现有架构上叠加Agent层,底层改动有限。阿里云这次真正意义上将云、芯片、模型做成一体化组合。

关键转变在于一个判断:Agent的负载特征,和传统云计算完全是两种逻辑。

传统云计算的典型负载是稳态的。企业买一台ECS,跑网站或数据库,流量可预测,资源长期占用,商业模式围绕资源出租设计——计算、存储、网络,三大件。

Agent的工作模式完全不同。执行任务时,可能在毫秒间连续发起数十次模型调用,执行完立即销毁环境,下一次唤醒可能是几秒后也可能是几分钟后。负载无规律、突发、短生命周期、瞬时起量、用完即走。

表面上Agent调用的是模型,实际上牵动一整套AI全栈体系:需要沙箱环境运行代码,需要数据库存储中间状态,需要网络访问外部工具。一次任务执行,涉及计算、存储、网络、模型推理的协同调度。新旧时代的云计算,复杂度是两个量级。

刘伟光提到一个细节:今年春节后,某龙虾类智能体产品上线,阿里云发现一个现象——过去企业开通云资源需要人登录控制台手动操作,现在Agent直接在后台自动激活了云计算资源。

"Agent能够以分钟为单位完成的云计算资源服务开通,可能是过去我们人以天为单位完成的工作。"

Agent正在成为云计算的新界面。阿里云的判断是:未来云计算产品的主要使用对象,将逐渐从人类工程师变成Agent。

这个判断贯穿了整个重构逻辑。为了让Agent真正用得上云,阿里云对云产品做了三个维度的改造:Skill化、MCP化、CLI化。

简单说,把每个云产品变成Agent可以像调函数一样调用的标准化能力模块。传统云产品的控制台对人友好,对Agent毫无意义。Agent需要的是结构化的能力描述,以及明确的调用协议。

这套体系被命名为"Agentic Cloud",区别于为大模型训练和推理服务的"AI Native Cloud"。后者的核心是模型的生产迭代,提供弹性高效的算力调度;Agentic Cloud面向智能体的运行时,提供沙箱、AI网关、记忆管理、安全防护与编排治理等全套能力。

数年前云厂商做AI,主要是把算力卖给模型公司去训练和推理。如今阿里云要做的,是让云本身成为Agent运行的操作系统。

架构层面的回答之外,芯片是物理基础。

本次峰会上,平头哥发布新一代训推一体AI芯片真武M890:144GB显存,片间互联带宽800GB/s,性能是上一代真武810E的3倍。配套发布的ICN Switch 1.0互联芯片,可将128张AI芯片组成一台超节点服务器,P2P时延低于150纳秒。

未来两年,平头哥将陆续推出真武V900、真武J900两代芯片。这意味着阿里云的芯片迭代节奏与模型迭代节奏对齐,每一代芯片性能提升直接转化为大模型训练和推理能力的跃升。

目前真武系列AI芯片累计出货56万片,服务20多个行业的400多家客户,覆盖电信、汽车、金融等领域。加上倚天系列CPU、磐脉智能网卡、镇岳存储主控芯片,阿里芯片版图从单点突破走向全面覆盖,算力、网力、存力三个维度的数据中心芯片矩阵,在国内云厂商中独一份。

刘伟光反复强调芯片-云-模型-推理一体化的逻辑:"今天给客户最终呈现的结果,是齿轮咬合的组合效应,是模型能力、芯片能力和云能力三件事的完整有机结合。"

在芯片和模型之间,百炼推理平台起到"生产车间"的作用。

百炼构建了大规模GPU资源集群,通过一套针对Agent场景的技术栈应对推理侧挑战:并池调度统一管理GPU资源,提升整体利用率;上下文缓存消除Agent在多轮对话和长链路任务中的重复计算开销;吞吐弹性调度应对并发请求的波峰波谷,确保流量激增时不崩溃、低谷期不浪费。

更值得注意的是Agentic RL机制——基于Agent实际执行反馈的强化学习,让模型在真实场景中越用越好,形成持续迭代的闭环。

百炼还内建了安全治理能力。这一点在Agent自主运行的语境下极其关键:一个24小时不间断执行任务的Agent,如果没有边界约束,后果不可控。百炼的安全机制确保Agent始终在预设权限范围内行动。

类比谷歌:TPU和Gemini模型的深度绑定,在自有深度学习框架里跑出最高性价比,技术和资本市场都已高度认可这条路线。阿里用自研芯片跑自研模型,通过软硬件深度协同,把每一张芯片的每一个算力单元榨到极致。

模型层面,最新发布的Qwen3.7-Max在三方机构Arena全球大模型盲测总榜中位列国产模型第一,与GPT、Claude、Gemini的最强模型接近。

一个实战案例更有说服力:在从未接触过的真武M890芯片上,Qwen3.7-Max仅凭一份任务说明,从零开始自主工作35小时,独立完成一个生产级AI计算内核的编写与调优,最终性能较官方版本提升10倍。

没有人类干预,没有中间指导。35小时,从零到生产级。这体现出模型"自主完成复杂工程任务"的能力,而它运行的硬件底座恰恰是阿里自研芯片——芯片和模型的协同进化,在这个案例里被具象化了。

近3个月内,千问旗舰模型已经连续迭代3.5、3.6、3.7三个版本。这种发布节奏本身说明,阿里巴巴在刻意加速模型进化,以匹配Agent时代对模型能力的指数级增长需求。

反之,模型迭代的速度最终受制于算力供给——这又回到了芯片。