作者 | 骆驼
今天大部分企业看待 Token 经济的心情十分复杂——一方面,Token 的价格已经打到了地板;另一方面,Agent 燃烧积分 /Token ,生产账单的速度仍然很快。尤其是当这些企业把 AI 从"偶尔试用"转向"业务系统集成"时,ROI 完全无法取得平衡,有的只是足够茂盛的焦虑。
参与 SWE-bench 编程评测基准的主流 Agent 系统技术报告显示(2025 年),完成一个标准编程任务,最先进的 Agent 系统平均需要调用 API 30 到 60 次,一次任务的成本在 0.07 到 0.75 美元之间。切换到实际开销,以当前最流行的 Agent 框架 Claude Code 为例,来自 Artificial Analysis 的数据显示,如果使用 GLM-5.1 模型,单次任务的 Token 成本高达 2 美元以上。
这还没有计算企业场景中的长期记忆、Skill,以及庞大上下文。
层层叠加,导致 Token 单价虽然降了 99%,但消耗量涨了 30 到 100 倍。诚如李彦宏在 2026 年 5 月 13 日举办的百度 Create 大会上所说:Token 只是代表成本,并不代表收益;它衡量的是投入,而不是产出。关注有多少 Agent 在给人类干活,并交付结果。这比无谓的 Token 消耗,更接近价值,也更接近本质。
除价格外的另一个问题是推理效率。2026 年 4 月,InfoQ 开展了一系列类龙虾产品的直播测试工作,我们惊讶的发现国产龙虾在用同一个模型,处理同一个任务时,推理耗时相差 10-20 倍,产出的结果却并无明显差异。
不得不怀疑,在 Agent 全面进入生产环境前,Agent Infra 已经迎来了结构性问题。
我仔细听完百度创始人李彦宏、百度集团执行副总裁沈抖在 5 月 13 日上午的全部发言,最终总结出一个信号:旧供给快要到达极限了,已经成为新物种的 AI 全栈云们,正在继续求变。
2025 年的 AI 云供给模式,正在改变
仔细数数,所谓的“旧供给”,其实也只有 1-2 年的“服役历史”。
沙利文在 2025 年曾发布中国全栈 AI 云服务市场报告,但核心主语是 AI。今天百度的升级可以总结为“新需求,新全栈,新供给”,核心主语是 Agent。
主语的变化,背后意味着背后的技术工作,最具代表性的领域即是KV Cache(键值缓存)的命中率提升。
大模型推理过程中,每处理一个 token,都需要对整个上下文历史进行大量矩阵运算。KV Cache 把这些中间运算结果保存下来,避免每次都重新计算。在 Agent 时代,这个机制变成了系统性能的命脉——Agent 的多轮调用之间上下文高度重叠,如果 KV Cache 命中,就不需要重新推理整个上下文,速度和成本都会大幅改善。反之,对于一个调用 30-60 次的 Agent 任务,就是巨大的算力浪费。
大模型的定价机制从侧面印证了 KV Cache 的真实价值:Anthropic 对命中缓存的 token 提供 90% 折扣,OpenAI 提供 50% 折扣,Google 提供 90% 折扣。平台愿意对"已在缓存里的 token"让出如此高的折扣,本质上是在承认:缓存命中的 token,边际算力成本接近于零。命中率越高,平台成本越低,用户越有动力把更多调用留在同一个平台——这是 KV Cache 优化背后真正的商业逻辑,也是为什么各方都把 KV Cache 命中率当作核心竞争力指标来对待。
2023 年,加州大学伯克利分校在 arXiv 发表的论文率先解决了 KV Cache 的内存管理问题,将 GPU 显存浪费从 60-80% 降至不足 4%。 这是当前几乎所有主流推理引擎的基础架构层。
2024 年 7 月,月之暗面(Kimi)在 arXiv 发表论文,系统描述了其以 KV Cache 为核心的生产架构。这是当时中国公开可查的、具代表性的系统性 KV Cache 生产架构技术论文之一。Mooncake 的核心数据显示,在相同硬件条件下,KV Cache 中心化架构实现了 525% 的吞吐量提升。
这些是正确方向上的真实进展。但为什么还不够?
一个可能的原因是,现有的 AI 供给体系——从推理引擎、调度框架到 GPU 集群的组织方式——都是按照"单次请求 - 单次响应"设计的。这套设计从根本上就没有为 Agent 的运行方式准备过。
KV Cache 命中率提升了,推理效率改善了。但 Agent 的运行不只是推理的问题,它还涉及:长上下文的跨请求持久化、子 Agent 的调度与协同、记忆系统的索引与管理、多模型协作的任务分发——现有的 AI 供给体系里,没有一套统一的架构来处理。
新的 AI 使用范式,新的全栈供给体系,是百度智能云在这次大会上真正要回应的真问题。
百度的全栈回答
"全栈",很容易被当成营销语言,但在此处,它有具体的技术含义:在 Agent 时代,推理效率、调度框架、内存管理、硬件配置这几个层面是相互耦合的——单独优化任何一层,都无法释放其他层的潜力——要作为一个整体来设计和优化,而不是各自独立打补丁,它们的目标是为了服务大规模智能体应用。这正好对应李彦宏提到的 DAA 概念。
在李彦宏看来,Token 不一定代表终局,它只代表成本并不代表收益,衡量的是投入而非产出,但未来衡量一个平台和生态的繁荣,更应该看的有多少 Agent 在为人类干活,并交付结果。
百度智能云的发布新全栈 AI 云,正由此而生。它的架构更新包含两个主要层次:Agent Infra(Agent 基础设施层)和 AI Infra(AI 算力基础设施层)。在 Agent Infra 上,追求把单位 Token 的智能水平做到最好,并在真实业务中稳定运行、持续进化、可管可控。在 AI Infra 上,追求提供每瓦性能更强、性价比更高的 AI 算力,把 Token 效能做到极致。
二者互为支撑,是百度智能云围绕新需求,给出新供给的核心解决思路。
Agent Infra:为 Agent 而生的调度层
百度官方表示,原有的“MaaS 模型服务”已升级为"Token Factory 词元工厂"。以 Agent-first 理念重构产品架构,尽可能减少 token 重复计算,推理生成速度较市场水平提升约 25%。支持文心、DeepSeek、GLM、MiniMax 等国产主流模型的调用,提供更具性价比的 token 服务。
传统大模型 API 是无状态的:每次调用都是独立的,不持有任何状态。对单次问答,这已足够;但对一个需要运行数十次调用的 Agent 任务,无状态 API 是系统性瓶颈。
百度在 Agent Infra 层引入了三个关键升级:Agent Harness 、模型服务、Agent Runtime。
现阶段用户对 Agent 平台的选用几乎处于两难局面:架构精简的开源平台,工程方面的工作不够,需要等待社区更新。但是此类平台消耗的是 Token,相对性价比更高;架构完善的闭源商业产品,工程能力强大,但消耗的通常是积分,调用最优模型,复杂任务的成本可能高达 10 美元以上(按积分折算),性价比不够。
百度的 Agent Infra 提供长上下文管理、记忆、Sub-agent 调度和评估能力,内置足够丰富的 skills。相当于再以上两个选择中提出第三条路:享受完善的产品能力,成本按 Token 计算。
在模型服务侧, 百度更侧重推理成本的降低和推理速度的增加,核心技术手段是前文提到的 KV Cache 命中率提升。
长链推理可能会消耗百万级的 token,但真正新增计算的 token 占比不多,因此需要更高的缓存命中率。官方数据显示,在百度智能云上调用 SOTA 模型,速度比行业平均水平快 25%。
就 InfoQ 对 DuMate 的直播测试结果来看,DuMate 处理 8 份左右非结构化脏数据,并输出“投资人一页纸”汇报材料的时间是 1min 左右,同类产品使用能力接近的模型,耗时在 10min 以上,差距确实非常明显。
Agent Runtime则是解决了企业最关心的稳定、安全、可观测问题,时至今日,也变成了 AI 走进企业的必备能力。
AI Infra:全链路能力重建
AI Infra 层的核心是 KV Cache 的系统性处理。百度采用了三级存储池化设计:HBM(显卡高速内存)→ 内存(CPU Memory)→ SSD(固态硬盘)。这三级介质速度依次递减,成本也依次递减。
这意味着,热 KV Cache 可以考虑存在 HBM,温 KV Cache 则能下沉到内存,冷 KV Cache 可以进一步落盘到 SSD——理论上,系统可以根据访问频率动态管理数据位置,在成本和速度之间自动寻优。
百度公开称,这套方案在生产环境中实现了超过 90% 的 KV Cache 命中率,是业界最高水平。
此外,百度还宣布在 Agentic 强化学习场景下的训练效率和强化学习效率提升达到 100% 以上。
Agentic 强化学习是大模型从“会说”走向“会做”的关键路线,但传统强化学习在工程上很难规模化:训练不稳定、环境慢、采样贵。百度将其变成了一个工程能力,无论是搜索问答 Agent、自动编辑 Agent、视频理解 Agent,还是编程 Agent,都可以在这一套底座上持续优化。
在基础设施层面,百度智能云也公布了吉瓦级 AIDC 升级,通过"网络向心布局"设计理念,让计算与网络距离最短,最大限度提升计算效率,规模化落地风液兼容架构,让数据中心的整体建设周期缩短约 30%。
数据中心这个话题,在 AI 时代其实变得有点微妙。
一个典型的大模型训练任务是这样运作的:启动时,数千张 GPU 同时拉满,几天到几个月高强度运行;训练结束,这批算力从最高负荷骤降为接近空置,等待下一个训练任务被调度进来。这种"全有或全无"的需求节奏,和传统数据中心"平稳负载、充分利用"的设计假设完全相悖。
过去几年服务器交货周期波动剧烈,放大了这个问题。机房规划时就必须把服务器型号和冷却系统绑死,灵活调整几乎不可能。
百度一定程度上解决了供应链弹性的问题,通过已规模落地的"风液兼容架构",实现前端同源、末端按需微调——同一套数据中心既能适配风冷服务器,也能适配液冷服务器。这意味着机房不必因为冷却系统而被锁死在特定硬件上,当某类服务器受供应链影响时,可以灵活替换。
需要注意的是,百度这次提出的全栈架构,并非全新亮相——多数能力已经在生产环境中跑了相当时间。所以严格来说,这套架构的重点不是发明创造,而是进化升级,以及彼此协同。从 2025 到 2026,对于 AI 新供给体系的梳理,已经越过临界点,变成了某种再出发的信号。
比如首次公开亮相的企业级智能营销解决方案 Hogee,以及专为企业打造专属视觉智能体"一见 Claw",正帮助义乌的商家迭代为"AI 工厂"和"AI 店长"。
义乌的模式是“前店后厂”的模式——前端对接全球买家,后端组织供应链生产。这个模式的效率,长期被信息不对称所制约:哪个款在卖、库存够不够、促销时机对不对,仓库和门店之间永远在对账。
通过"一见 Claw"视觉智能体,可以将海量规则自动配置到每个摄像头上,通过自然语言,一句话识别规则、完成流程处置;而 Hogee 则通过内置的营销 Skill,帮助商家完成从销售导购、销售数据,到库存调货、促销建议等营销全链路工作。
这套组合,本质上是把原来依赖人工经验和线下对接的"前后端协同",交给了 Agent 来跑。
类似的逻辑,在离义乌很远的几个场景里同样跑通了。
招商银行已上线 800 余个 AI 应用,活跃在风控、营销、研发和日常办公等核心场景,其中超过 50% 跑在百度昆仑芯 P800 国产算力上——在合规要求最高的金融行业做到这个规模,说明系统稳定性和安全性已经经过了严格验证。用招行内部的说法,这不是试点,是"全行级部署"。
汽车行业里,百度与长安共建的智算中心算力规模达到每秒 142 亿亿次(2023 年竣工时为行业纪录),持续支撑自动驾驶模型的训练和迭代,长安也因此成为工信部批准 L3 自动驾驶量产产品的两家车企之一。
能源侧,国家电网通过百度智能云已覆盖 800 余座变电站,AI 开始进入过去最依赖人工巡检的基础设施场景。
2025 年财报中,百度 AI 业务的占比大幅增加,来到了 400 亿的量级,跟以上进展脱不开关系。
一个更长周期的判断
有一个在产业史上反复出现的规律是:在范式转型期,第一个建好新供给体系的,获得的往往不只是市场份额,而是代际的架构优势。
iPhone 发布后,App Store 在 2008 年 7 月上线。首周末下载 1000 万次,上线两个月内从 500 款应用增至 3000 款、累计下载突破 1 亿次。到 2023 年,苹果累计向开发者支付 超过 3200 亿美元。这不是因为苹果的手机最便宜,而是因为苹果第一个建立了一套对开发者和用户都有确定性的供给体系——开发者知道在哪里发布、如何变现;用户知道在哪里找应用、支付是否安全。
AI Agent 时代,类似的逻辑正在展开。
对企业用户而言,新全栈供给体系的直接意义是:把 AI 落地失败的可能性从技术层面降低了。
此前,在中国主要 AI 服务商中,在 KV Cache 生产架构和 PD 分离量产部署这两个具体维度上,只有月之暗面(Kimi)通过 Mooncake 论文建立了技术上的共识。可惜的是, Kimi 以模型服务为主,没有完整的 Agent Infra 层。
这虽然不构成对厂商整体技术能力的评价,但确实能帮助我们百度 Create 这次发布会的产业意义——亮出架构演进方向和实践效果,对 AI 基础设施买家来说,本身就是一种信任凭证。
同时,AI 基础设施也正从模型竞争阶段进入架构竞争阶段。前几年的核心命题是"谁的模型能力更强、Benchmark 更高";接下来的核心命题是"谁的系统能在真实企业场景里稳定跑起来、成本可控、性能可期"。
这个判断是不是成立,要看接下来一两年,谁的企业客户真正用 AI 把生意做出了不一样的结果。
热门跟贴