Token洪流的转向：当AI Agent成为Token消耗的主宰，什么样的推理服务基础设施才是刚需|agent|token|推理

作者 | 章明星，清华大学副教授，Mooncake 社区联合发起人、

车漾，阿里云容器服务高级技术专家，Fluid 社区联合发起人

Token 消耗量的结构性转移正在重塑大模型推理服务基础设施的底层逻辑。一个不容忽视的事实是：AI Agent 正从人类手中接过 Token 消耗的指挥棒，背后是大模型从 Chatbot 转化为新质生产力。这不是量的变化，而是质的跃迁——推理基础设施的使用者正从”偶尔提问的人类用户”变为”7×24 小时不间断工作的 Agent”，其单次任务需要几十次工具调用、输入输出比达到 10:1 甚至 100:1、面向图像和全模态的输入导致上下文窗口常态性突破 100K，其请求模式、负载特征与成本考量正在发生根本性的变化。

AI Agent 时代的三大范式转变

1. 从”人机对话”到”Agent 之间的协作”

人类用户的请求是离散、低频、不可预测的；而 AI Agent 产生的请求是持续、高频、结构化的。一个负责数据分析的 Agent 可能同时触发检索、计算、可视化等多个子 Agent，形成复杂的计算图。这种”机机协作”模式要求基础设施能够处理毫秒级的级联调用，而非秒级的单次响应。

2. 从”单次响应”到”状态化会话”

AI Agent 的核心价值在于持续任务执行。一个写论文的 Agent 可能要做文献搜索，内容整理等一系列操作，每个会话包含长达数万轮的上下文。这导致 KVCache 不再是临时缓存，而是需要持久化、可迁移的”数字记忆体”。早期推理服务将 KVCache 视为 GPU 上的设计，受限于 GPU 的显存限制，在 Agent 时代已成为性能枷锁。

3. 从”规模经济”到”效率经济”

当 Token 消耗增长 10 倍、100 倍时，推理服务成本不再是次要考量，如何能够必须实现”超卖”与”混部”。考虑到实际上 Agent 需要使用 LLM 和多模态的不同模型，应对 Agent 的不同模型需求流量模式呈现更强的潮汐效应，推理服务基础设施需要像”数字电网”一样动态调度算力。

AI Agent 对推理基础设施的

五大核心需求

基于上述范式转变，面向 AI Agent 的推理基础设施必须具备以下能力：

需求一：拓扑感知的角色编排

AI Agent 的对于吞吐有非常高的需求，对于 TTFT 和 TPOT 的要求更高了。因此 PD 分离和 KVCache 外置成为了默认的部署架构：Prefill 需要计算密集型资源，Decode 需要内存密集型资源，KVCache 访问需要低延迟网络。传统 Deployment 将不同角色混部在同一 Pod，导致资源错配。因此要求推理基础设施能将推理服务拆解为拓扑化的角色有机体，实现 Prefill/Decode/KVCache 等角色的独立调度、弹性伸缩与协同策略。

需求二：KVCache 为中心的架构

Agent 的长上下文特性使得 KVCache 命中率成为性能关键。基础设施必须实现跨实例、跨节点、甚至跨集群的 KVCache 共享，将离散的记忆碎片整合为全局统一的地址空间。当 Agent 迁移或扩缩容时，KVCache 应能透明地跟随移动，避免昂贵的重新计算。

需求三：智能差异化调度

不同 Agent 任务对 SLO（服务水平目标）的需求截然不同：实时对话要求低 TTFT，批处理任务要求高吞吐量，工具调用要求确定性延迟。调度器需要理解请求语义，实现 KVCache 感知、优先级队列、PD 分离等差异化调度，而非简单的轮询或加权分配。

需求四：生产级弹性效率

Agent 的规模可能从 10 个实例瞬间扩展到 1000 个，又迅速回缩。而对应的推理基础设施必须将弹性从”分钟级”压缩到”秒级”，并配合反碎片化、潮汐混部等精益运营手段，将 GPU 利用率从 30% 的低位提升至 70% 以上。任何推理服务的弹性延迟都会导致 Agent 任务超时或资源浪费。

需求五：全链路可观测与自优化

当 Agent 自主决策时，人类需要理解其”思维过程”。基础设施必须提供从 Token 生成到工具调用的全链路追踪，并能基于历史数据自动优化 PD 比例、批处理策略与缓存预取。配置决策应从”人工调参”转向”数据驱动”。

这些痛点如同”最后一公里”鸿沟，阻碍着 AI 技术向业务价值的转化。

AI Serving Stack：

为AI Agent量身打造的推理基础设施

为此，SGLang 社区、龙蜥社区、Mooncake 社区、清华大学 MADSys 实验室、南京大学顾荣老师团队、小红书、算秩未来、科大讯飞 MaaS 团队和阿里云容器服务团队联合打造了AI Serving Stack，**填补开源社区在”生产级 LLM 推理编排”领域的空白。**

与传统"全家桶"式方案不同，AI Serving Stack 采用模块化设计，将部署管理、智能路由、弹性伸缩、深度可观测等能力解耦为独立组件。用户可按需灵活组装，在避免强制绑定某个特定组件的同时，也有效控制技术栈复杂度。无论是刚刚起步还是已经拥有大规模 AI 业务，AI Serving Stack都能轻松驾驭复杂的云原生 AI 推理场景。

AI Serving Stack 的获奖绝非偶然，其价值恰在于精准命中了 AI Agent 时代的五大需求。这并非简单的技术堆砌，而是一次从”面向人类”到”面向智能体”的架构演进。

1. RoleBasedGroup 重新定义推理编排

AI Serving Stack 的重点在于LLM 推理的 Kubernetes 标准 API——RoleBasedGroup（RBG），实现从”离散 Deployment 集合”到”拓扑化有机体”的范式跃迁。

角色原子化将单体 Pod 拆解为 Router、Prefill、Decode、KVCache 等标准角色，每类角色拥有独立的生命周期与策略。
协同策略化引擎通过声明式定义四大协同能力：部署协同确保 Prefill 与 Decode 成对调度；升级协同实现”比例协议”式原子更新；故障协同触发跨角色联动自愈；伸缩协同基于流量动态调整角色配比。
管理统一化将分散的 5-8 个 YAML 文件收敛为单一 CR，镜像与配置一处修改、全局生效，运维效率大幅提升。
配置智能化结合 AIConfigurator 根据模型 - 硬件特性自动生成最优配置，Benchmark 一键评测，让架构选择从"经验驱动"转向"数据驱动"。

基于 RBG 的SCOPE 五大核心能力（Stable/Coordination/Orchestration/Performance/Extensible），推理服务被视作”拓扑化、有状态、可协同的角色有机体”。以小红书的实际落地为例，新模型的运维耗时从天级大幅缩短至分钟级，显著降低线上运维复杂度；同时，成功支撑 PD 分离的分布式推理架构规模化部署，实现资源成本节省超 50%。

2. 智能调度：SMG 网关实现差异化负载优化

在 RBG 编排层之上，AI Serving Stack 引入SMG 推理网关（SGLang Model Gateway ），专为 LLM 负载特性设计的高级调度能力：

KVCache 感知调度：支持近似与精准两种前缀缓存感知模式。基准测试显示，全局近似模式下可实现响应速度显著提升（TTFT 降低 50% 以上）、吞吐量翻番。
请求排队与优先级调度：多维度状态评估下自动排队防过载，显著提升不同长度请求的响应速度，保障服务稳定性和 SLO；
分离感知调度：支持 PD 分离和 DPLB 负载均衡，智能将预填充与解码分配至不同 pod，协同提升吞吐、降低延迟，bucket 调度策略下实现 TTFT 降低 20% 以上。

SMG 让推理调度从"无感知"走向"推理负载感知"，将 RBG 的编排能力转化为业务级性能优势。

3. 以 KVCache 为中心的 PD 分离和以存换算架构

AI Serving Stack 深度融合 Mooncake 项目，实现了以 KVCache 为中心的 PD 分离架构。Mooncake 通过计算与存储解耦，将 KVCache 池化共享，结合 eRDMA、GPUDirect 等高性能传输技术，实现跨实例资源复用。

三大创新点助力性能突破：

Transfer Engine：全链路零拷贝、多网卡聚合 (8x400Gbps)，支持多传输路径 RDMA/eRDMA/NVLink/CXL/TCP，动态拓扑感知并支持容错。
KVCache Store：利用闲置 GPU 显存 / 内存，通过 RDMA 实现透明多级缓存，支持数据下沉到廉价存储。
生态整合：与 vLLM/SGLang 等主流框架深度适配，TPOT 下降 20%，成本低至 0.2$/1M Token。

在长文本阅读等多轮对话场景中，该架构使推理吞吐量提升 6 倍，响应时间降低 69.1%，KVCache 命中率最高达 90%。

4. 性能突破：从资源固化到精益弹性

在实际测试中，基于 input:ouput=3500:1500 的数据集，Qwen3-235B 模型单组 PD 分离支持 2.74 QPS，P99 延迟稳定在 80ms 以内；Decode 阶段吞吐量较传统方案提升 3-5 倍。动态 P/D 比例调整使 GPU 利用率稳定在 65%-75%，配合潮汐混部与反碎片化装箱优化，用户 GPU 成本减少 30%-40%，年度节约近千万元。

与此同时，工程效率也实现了飞跃式提升：一键部署时间<5 分钟，发布失败率从 23% 降至 5%，MTTR 从数十分钟级降至 2 分钟内，服务升级中断时间从 15 分钟缩短至 10 秒。

5. 生态协同：从开源项目到标准推进

AI Serving Stack 秉持全栈开源理念，100% 开源架构让企业零成本落地，彻底规避商业锁定。多框架兼容支持 SGLang、vLLM、TensorRT-LLM、NVIDIA Dynamo、Chitu 等国内外主流推理引擎，并已完成多个国产算力适配。

清华大学 MADSys 实验室章明星老师指出：

“AI Serving Stack 通过将智能配置算法与 KVCache 弹性存储能力深度集成至 RBG 项目，实现了从 SLA 需求到大规模推理系统配置的‘一键转化’，有效弥合了 AI 基础设施在 PD 比例、弹性伸缩、资源分配与并行策略等方面的‘配置鸿沟’。该方案已在真实业务场景中验证成效，是产学研协同创新、高效落地的典范。其开放、可组合、可拆分的架构，也更能适应大模型技术快速演进的需求。”

AI Serving Stack 由多家产学研机构共同维护，采用开放治理模式：

技术委员会由核心贡献者组成，定期召开会议，共同决策技术路线；
保持每两个月发布一个 Minor 版本的快速迭代节奏；
与清华大学、南京大学等高校深度合作，持续将智能配置和调度、动态弹性扩缩容等前沿研究成果融入工程实践。

前不久，在 InfoQ 携手模力工场发起的「中国技术力量年度榜单」中，AI Serving Stack 参考架构，凭借其创新性的架构设计，优秀的工程实践和广泛的实用价值，获评“2025 年度 AI 工程与部署卓越奖”。

展望：共同定义下一代 AI 基础设施

AI Serving Stack 的获奖，标志着开源协作模式在生产级 AI 基础设施领域的潜力。其价值不在于"颠覆"，而在于通过标准化 API 和模块化设计，将学术界的前沿成果与工业界的工程实践有效结合。

当 AI Native 成为企业核心战略，AI Serving Stack 正以其全栈开源、架构普适、生产就绪、性能保障、易于集成、生态协同六大核心亮点，为产业提供从”能跑通”到”高可用、高吞吐、高弹性”的跃迁。

未来已来，随着云原生 AI 推理平台的需求不断变化，AI Serving Stack 也会随之持续迭代，以满足开发需求。

项目地址：

SGLang：https://github.com/sgl-project/sglang

RBG： https://github.com/sgl-project/rbg

Mooncake：https://github.com/kvcache-ai/Mooncake

会议推荐

InfoQ 2026 全年会议规划已上线！从 AI Infra 到 Agentic AI，从 AI 工程化到产业落地，从技术前沿到行业应用，全面覆盖 AI 与软件开发核心赛道！集结全球技术先锋，拆解真实生产案例、深挖技术与产业落地痛点，探索前沿领域、聚焦产业赋能，获取实战落地方案与前瞻产业洞察，高效实现技术价值转化。把握行业变革关键节点，抢占 2026 智能升级发展先机！

今日荐文

你也「在看」吗？