「第二次 Token 大战」或再打响，「新全栈」或许才是内卷的「解药」|agent|token|全栈|内卷|智能云|百度|知名企业

“从「人无我有」，到一站式的端到端生态进化。”

作者丨董子博

编辑丨林觉民

自从 “龙虾”冲进 AI 赛道，云厂商们的天就彻底变了。

新的 Agent 范式，诚然让 AI 的能力变得更能落地，但也让 Tokens 的消耗成数倍，甚至十倍地上升。有人在一夜之间，就在 OpenClaw 上烧掉了几千美金——而这样的故事，甚至并不是孤例。

云厂商们，都想抓住这个机会，找到新的增长机会。于是，各家公司都推出了自己的龙虾 Agent，配上自己的 Coding Plan，各家 Token 价格虽然有所上涨，但大多仍在“赔本赚吆喝”，一场新的巨变似乎山雨欲来。

而在今年的 Create 2026 百度 AI 开发者大会，百度创始人李彦宏提出了一个新概念：DAA（日活跃智能体），他认为，未来衡量一个平台和生态的繁荣，更应该看的是DAA这个指标，关注有多少Agent在给人类干活，并交付结果。

这代表了百度的对智能体时代的判断，与之相对应，百度智能云也给出了具体答案，他们发布了一揽子升级并发布“新全栈 AI 云”：要用一套更高效、更高质量的全栈架构，不仅为 Token 降价，更要让每一个 Token 的能力被发挥到最大，让客户不仅用得更省，更要让他们用得更好。

对于云厂商们来说，全栈并不是新概念——芯、云、模、体，四样缺一不可，厂商们更多关注的是“人无我有”，通过提供独特的能力，来让客户买单。

到了今天，当客户们对于云的需求，变成了更高活跃、更高价值、更具规模化的智能体应用，AI 云也必须变化，让自己成为一套能够让更多智能体同时运行、同时进化，并且足够安全可控的基础设施。

今天的 Tokens 价格战，正慢慢地向 AI “价值战”转型——百度的“新全栈”，会是今天云内卷的“解药”吗？

新全栈 AI Infra，用异构算力改变世界

Tokens 用量激增，首当其冲的，必然是 AI Infra。

对于 AI Infra 来说，硬件是其中最基础的考量——多年来，英伟达的芯片捉襟见肘，各家云厂商也在外部寻求自研芯片厂商的合作，百度也和昆仑芯实现了强强联手，在诸多现有框架下，针对具体场景完成包含算子在内的优化适配。

百度通过昆仑芯与模型相连，目前昆仑芯P800已完成规模化验证，2025年至今已交付多个万卡集群。此外在昆仑芯全国产集群上，已成功完成对文心5.1重要版本的训练，整个集群的有效训练率达到 97%，万卡规模集群线性扩展度超过 85%，已经可以满足前沿大模型大规模训练对计算精度、算子稳定性、框架适配和长周期运行的要求。

今天，百度智能云还实现了超大集群的吉瓦级 AIDC，让客户能用上更高效率算力的同时，还能自由适配风冷或液冷，更灵活自由地部署算力，把建设费用、电力等等成本，通通省下来。

今天，作为金融界以科技创新见长的标杆，招商银行已经上线了超过 800 个 AI 应用，在风控、营销、研发、办公等等核心场景发光发热——而其中超过 50% 的 AI 应用，都跑在昆仑芯 P800 上。国产算力之光能够大展身手，也离不开百度智能云的支持，从算力适配、模型迁移、应用落地等全流程提供协助。

让好芯片获得更好的支持，网络优化也相当重要。

在 Scale-out（横向扩展）的方面，百度智能云通过多平面的技术，突破了过往的三层网络，实现了更大规模的全二层网络，让网络的负载能够被更好地均衡、传输效率也能得以提升。百度新的二层网络架构里，当一个链路偶发故障时，其他链路也能够更快承担负载，实现容错。

Scale-up（纵向扩展）上，这次 Create 大会上，百度也发布了以昆仑芯为核心的天池256卡超节点，将 256 个昆仑 Scale-up 的点装进一个超节点机柜里，通过大规模分布式推理来大幅优化性能。

把好算力送上“高速车道”的同时，在百万上下文已经成为了标配的今天，存储问题也不容小视。面对存储要求越来越高的情况，这次 Create 大会，百度推出了一个全新的 KV Cache 存储系统，通过将显存、内存、SID 分层，来扩展更大的记忆空间。

每一年，百度的 Create 开发者大会，百舸 AI 计算平台的更新都是万众瞩目的对象。每年，百度都会对百舸平台做一次大型的迭代，而今年推出的，正是百舸的 6.0 版本。

百舸 6.0，要把算力平台升级为“算力工厂”，不仅在 Agentic 和 Physical 两个层面都做了调优和升级，更能通过最新发布的百舸 AI Stack，将整个百舸 6.0 的技术让用户完成私有化部署。让用户无论在公有云还是在私有云，都能安全放心，且多快好省地把 AI 最新的能力落到业务场景中。

作为今天的算力需求“大户”，具身智能厂商们更信任百度——百度智能云是具身领域最大的 AI 云供应商，市场份额占 35%，超过了第二、三名之和。百度百舸为具身客户提供的，不只是基础的算力支持，更有全链路、全模态的模型开发工具链，有着十年经验积累的数据服务，以及包含语音交互、安全等一系列全栈 AI 能力。

同时，百度智能云还开源了一个名叫 Loongforge 的全模态训练框架，让英伟达的 GPU 和昆仑芯通过同一套训练框架运行，并且相对过去的典型多模态训练，完成了 45% 的提速。

依托百度的全栈 AI Infra，具身智能公司们在典型 VLA 训练上的加速，超过了 70%，而世界模型的推理时延则有近 50% 的降低。原本要跑几周的训练，今天在百度云上，几天就够了。

算力价格降了下来，训练和推理的能力反而上去了——能实现这样的效果，是百度在全栈同时发力，用一个个单点的技术创新“堆”出来的。

AI Infra 全栈革新的价值，就在这里。

Agent Infra 的革命，从远离价格战开始

自从大模型进入人们的视野，AI Agent 已经经历了不知道第几个“元年”。当 OpenClaw 今年突然爆火，人们又把 2026 也称为“Agent 元年”。

于是，为 Agent 提供更好用的基础设施，也就成了云厂商们必须完成的一个大任务。

Agent 在今天的发展，已经演化出了不少特点。

首先，用户与 Agent 的协作，已经不同于过去和 ChatBot 的对话——用户提出一个日常工作中的生产型需求，Agent 完成的不是一轮简单的对话，而是一个完整的、包含许多步骤的任务。用人话来说：过去是用户说一句，AI回一句；今天是用户说了一句话，AI Agent 可能在后台已经忙疯了。这不仅对 Agent 基座提出了更高的能力要求，也是今天 Tokens 消耗倍增的核心原因之一。

其次，Token 成本大幅增加，客户当然想要降本增效，但在省钱之外，不同的客户使用 Agent 的需求不仅千人千面，而且十分细节。以客服场景为例，白天客户更活跃时，Agent 要侧重响应速度，以保证用户体验；而夜间客户更少，Agent 就必须侧重批量处理，来处理白天没空处理的邮件和工单。这也考验着整个基座的动态推理自适应能力。

除此之外，Agent 基座还必须考虑到那些老生常谈的问题，诸如协同、安全、实施迭代和升级等等。

对于客户来说，今天在市面上，AI 云的供应商并不少——供过于求，用户当然是“既要又要还要”，希望厂商们可以提供没有死角的全栈能力，任何一处短板，都有可能造成客户的流失。

为了让 Agent 在 Infra 能更流畅、高效地运行，百度设计了一套三层的架构。

最底层，是时下正火的 Agent Harness，百度智能云将其称为“驾驭工程”，来负责上下文、记忆、工具和技能调用、编排协调、追踪评估等等基础工作。在不少业界人士看来，今天的 Agent 就是 Harness 架构加模型，也足见 Harness 之于 Agent 的重要性。

这一层，百度自研了一套 Agent Harness 架构——DuMate Harness，并在智能体评测基准 PinchBench 和 Deepsearch 两个榜单上登顶，让任务时长更短，Token 消耗更少，在执行效果上达到业内第一梯队。并且在安全可信的角度，Dumate Harness 也在信通院首批认证中达到了最高评级，保证让客户用得放心。

在这个更好用的脚手架上，百度还给客户准备了更好用的“工具”——也就是百度系的特色 Skills，从搜索、文库、AI Coding 等不一而足。同时，百度智能云还在开源的 Skills 当中，优中选优，精选了 3000 个技能供用户挑选。

其中，在 DuMate Harness 上，Office 办公软件和浏览器的 Skills 也被集成了进来，在 AI 的脚手架上，企业办公也能获得更强大的跨生态任务执行能力。

有了脚手架，在第二层，Agent 还需要更好的模型服务来驱动，而即使模型达到了 10 分，如果 Infra 在工程优化等方面做得不好，Agent 或许连 6 分的实力都发挥不出来。

为了让 Agent 能够最大限度地解放出模型的能力，并且还能把成本降下来，推理引擎也在持续优化、模型路由等领域的探索由来已久。今天，Agent 会随着上下文的扩张和对话轮数的增加，在重复的计算中浪费不少 Tokens，而实际上只有少部分 Tokens 才需要新增计算。于是，通过上下文和 Cache 管理，以及全局的推理资源调度，在千帆上运行的智能体能在长链路任务中，有效减少重复计算，提升复杂任务下的 Token 效率——调用 SOTA 模型，百度智能云的速度比行业平均水平可以高出 25%。

而在弹性扩缩容方面，百度千帆还在投机解码框架里集成了多 Token 预测（MTP）的模型策略，让投机解码的效率完成了上升，而 OTPS （每秒输出 Token 数）的吞吐拉高了 2-3 倍，模型验证通过的命中率也超过了 80%。

“当然，不同的厂家也都有各自的法宝，我们认为千帆的这个（投机解码框架+MTP 策略）应该在整个行业里面也能排进第一梯队。”在交流中，百度智能云AI与大模型平台总经理忻舟如是说道。

模型服务之上，第三层，是 Infra 的基础服务，从安全沙箱、可观测、Agent 身份管理和安全等等功能，虽然看上去琐碎，但实际都是客户在实际使用中绕不开的 Agent 能力。

今年，千帆针对 Agent 做了不少安全相关的工作。OpenClaw 最主要的安全问题，就是 Agent 身份和权限管理混乱，时常存在误删内容的情况——千帆则专门强化了会话隔离、数据隔离、防误删等功能，面向实际问题，保障用户的数据和权限安全。

国家电网是百度智能云的老客户，今年在千帆 ModelBuilder 和文心大模型 4.5 的双剑合璧之下，国网打造了“光明电力大模型”，来分析诊断电网负载，智能调度配网，完成多模态的智能巡检等等工作；而在智能硬件厂商中，百度已经有了超过 1000 家客户，在细分赛道中排名云厂商第一，还通过 Agent Infra 的 Harness 和搜索等一系列能力，帮助荣耀打造了个人助手 YOYO，在五一期间的旅游场景中大放异彩，生成攻略、推荐美食样样精通，把 AI 智能体做进了用户每日的手机使用习惯当中。