打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

从「人无我有」,到一站式的端到端生态进化。

作者丨董子博

编辑丨林觉民

自从 “龙虾”冲进 AI 赛道,云厂商们的天就彻底变了。

新的 Agent 范式,诚然让 AI 的能力变得更能落地,但也让 Tokens 的消耗成数倍,甚至十倍地上升。有人在一夜之间,就在 OpenClaw 上烧掉了几千美金——而这样的故事,甚至并不是孤例。

云厂商们,都想抓住这个机会,找到新的增长机会。于是,各家公司都推出了自己的龙虾 Agent,配上自己的 Coding Plan,各家 Token 价格虽然有所上涨,但大多仍在“赔本赚吆喝”,一场新的巨变似乎山雨欲来。

而在今年的 Create 2026 百度 AI 开发者大会,百度创始人李彦宏提出了一个新概念:DAA(日活跃智能体),他认为,未来衡量一个平台和生态的繁荣,更应该看的是DAA这个指标,关注有多少Agent在给人类干活,并交付结果。

这代表了百度的对智能体时代的判断,与之相对应,百度智能云也给出了具体答案,他们发布了一揽子升级并发布“新全栈 AI 云”:要用一套更高效、更高质量的全栈架构,不仅为 Token 降价,更要让每一个 Token 的能力被发挥到最大,让客户不仅用得更省,更要让他们用得更好。

打开网易新闻 查看精彩图片

对于云厂商们来说,全栈并不是新概念——芯、云、模、体,四样缺一不可,厂商们更多关注的是“人无我有”,通过提供独特的能力,来让客户买单。

到了今天,当客户们对于云的需求,变成了更高活跃、更高价值、更具规模化的智能体应用,AI 云也必须变化,让自己成为一套能够让更多智能体同时运行、同时进化,并且足够安全可控的基础设施。

今天的 Tokens 价格战,正慢慢地向 AI “价值战”转型——百度的“新全栈”,会是今天云内卷的“解药”吗?

01

新全栈 AI Infra,用异构算力改变世界

Tokens 用量激增,首当其冲的,必然是 AI Infra。

对于 AI Infra 来说,硬件是其中最基础的考量——多年来,英伟达的芯片捉襟见肘,各家云厂商也在外部寻求自研芯片厂商的合作,百度也和昆仑芯实现了强强联手,在诸多现有框架下,针对具体场景完成包含算子在内的优化适配。

百度通过昆仑芯与模型相连,目前昆仑芯P800已完成规模化验证,2025年至今已交付多个万卡集群。此外在昆仑芯全国产集群上,已成功完成对文心5.1重要版本的训练,整个集群的有效训练率达到 97%,万卡规模集群线性扩展度超过 85%,已经可以满足前沿大模型大规模训练对计算精度、算子稳定性、框架适配和长周期运行的要求。

今天,百度智能云还实现了超大集群的吉瓦级 AIDC,让客户能用上更高效率算力的同时,还能自由适配风冷或液冷,更灵活自由地部署算力,把建设费用、电力等等成本,通通省下来。

打开网易新闻 查看精彩图片

今天,作为金融界以科技创新见长的标杆,招商银行已经上线了超过 800 个 AI 应用,在风控、营销、研发、办公等等核心场景发光发热——而其中超过 50% 的 AI 应用,都跑在昆仑芯 P800 上。国产算力之光能够大展身手,也离不开百度智能云的支持,从算力适配、模型迁移、应用落地等全流程提供协助。

让好芯片获得更好的支持,网络优化也相当重要。

在 Scale-out(横向扩展)的方面,百度智能云通过多平面的技术,突破了过往的三层网络,实现了更大规模的全二层网络,让网络的负载能够被更好地均衡、传输效率也能得以提升。百度新的二层网络架构里,当一个链路偶发故障时,其他链路也能够更快承担负载,实现容错。

Scale-up(纵向扩展)上,这次 Create 大会上,百度也发布了以昆仑芯为核心的天池256卡超节点,将 256 个昆仑 Scale-up 的点装进一个超节点机柜里,通过大规模分布式推理来大幅优化性能。

把好算力送上“高速车道”的同时,在百万上下文已经成为了标配的今天,存储问题也不容小视。面对存储要求越来越高的情况,这次 Create 大会,百度推出了一个全新的 KV Cache 存储系统,通过将显存、内存、SID 分层,来扩展更大的记忆空间。

每一年,百度的 Create 开发者大会,百舸 AI 计算平台的更新都是万众瞩目的对象。每年,百度都会对百舸平台做一次大型的迭代,而今年推出的,正是百舸的 6.0 版本。

百舸 6.0,要把算力平台升级为“算力工厂”,不仅在 Agentic 和 Physical 两个层面都做了调优和升级,更能通过最新发布的百舸 AI Stack,将整个百舸 6.0 的技术让用户完成私有化部署。让用户无论在公有云还是在私有云,都能安全放心,且多快好省地把 AI 最新的能力落到业务场景中。

作为今天的算力需求“大户”,具身智能厂商们更信任百度——百度智能云是具身领域最大的 AI 云供应商,市场份额占 35%,超过了第二、三名之和。百度百舸为具身客户提供的,不只是基础的算力支持,更有全链路、全模态的模型开发工具链,有着十年经验积累的数据服务,以及包含语音交互、安全等一系列全栈 AI 能力。

打开网易新闻 查看精彩图片

同时,百度智能云还开源了一个名叫 Loongforge 的全模态训练框架,让英伟达的 GPU 和昆仑芯通过同一套训练框架运行,并且相对过去的典型多模态训练,完成了 45% 的提速。

依托百度的全栈 AI Infra,具身智能公司们在典型 VLA 训练上的加速,超过了 70%,而世界模型的推理时延则有近 50% 的降低。原本要跑几周的训练,今天在百度云上,几天就够了。

算力价格降了下来,训练和推理的能力反而上去了——能实现这样的效果,是百度在全栈同时发力,用一个个单点的技术创新“堆”出来的。

AI Infra 全栈革新的价值,就在这里。

02

Agent Infra 的革命,从远离价格战开始

自从大模型进入人们的视野,AI Agent 已经经历了不知道第几个“元年”。当 OpenClaw 今年突然爆火,人们又把 2026 也称为“Agent 元年”。

于是,为 Agent 提供更好用的基础设施,也就成了云厂商们必须完成的一个大任务。

Agent 在今天的发展,已经演化出了不少特点。

首先,用户与 Agent 的协作,已经不同于过去和 ChatBot 的对话——用户提出一个日常工作中的生产型需求,Agent 完成的不是一轮简单的对话,而是一个完整的、包含许多步骤的任务。用人话来说:过去是用户说一句,AI回一句;今天是用户说了一句话,AI Agent 可能在后台已经忙疯了。这不仅对 Agent 基座提出了更高的能力要求,也是今天 Tokens 消耗倍增的核心原因之一。

其次,Token 成本大幅增加,客户当然想要降本增效,但在省钱之外,不同的客户使用 Agent 的需求不仅千人千面,而且十分细节。以客服场景为例,白天客户更活跃时,Agent 要侧重响应速度,以保证用户体验;而夜间客户更少,Agent 就必须侧重批量处理,来处理白天没空处理的邮件和工单。这也考验着整个基座的动态推理自适应能力。

除此之外,Agent 基座还必须考虑到那些老生常谈的问题,诸如协同、安全、实施迭代和升级等等。

对于客户来说,今天在市面上,AI 云的供应商并不少——供过于求,用户当然是“既要又要还要”,希望厂商们可以提供没有死角的全栈能力,任何一处短板,都有可能造成客户的流失。

为了让 Agent 在 Infra 能更流畅、高效地运行,百度设计了一套三层的架构。

最底层,是时下正火的 Agent Harness百度智能云将其称为驾驭工程”,来负责上下文、记忆、工具和技能调用、编排协调、追踪评估等等基础工作。在不少业界人士看来,今天的 Agent 就是 Harness 架构加模型,也足见 Harness 之于 Agent 的重要性。

打开网易新闻 查看精彩图片

这一层,百度自研了一套 Agent Harness 架构——DuMate Harness,并在智能体评测基准 PinchBench 和 Deepsearch 两个榜单上登顶,让任务时长更短,Token 消耗更少,在执行效果上达到业内第一梯队。并且在安全可信的角度,Dumate Harness 也在信通院首批认证中达到了最高评级,保证让客户用得放心。

在这个更好用的脚手架上,百度还给客户准备了更好用的“工具”——也就是百度系的特色 Skills,从搜索、文库、AI Coding 等不一而足。同时,百度智能云还在开源的 Skills 当中,优中选优,精选了 3000 个技能供用户挑选。

其中,在 DuMate Harness 上,Office 办公软件和浏览器的 Skills 也被集成了进来,在 AI 的脚手架上,企业办公也能获得更强大的跨生态任务执行能力。

有了脚手架,在第二层,Agent 还需要更好的模型服务来驱动,而即使模型达到了 10 分,如果 Infra 在工程优化等方面做得不好,Agent 或许连 6 分的实力都发挥不出来。

为了让 Agent 能够最大限度地解放出模型的能力,并且还能把成本降下来,推理引擎也在持续优化、模型路由等领域的探索由来已久。今天,Agent 会随着上下文的扩张和对话轮数的增加,在重复的计算中浪费不少 Tokens,而实际上只有少部分 Tokens 才需要新增计算。于是,通过上下文和 Cache 管理,以及全局的推理资源调度,在千帆上运行的智能体能在长链路任务中,有效减少重复计算,提升复杂任务下的 Token 效率——调用 SOTA 模型,百度智能云的速度比行业平均水平可以高出 25%。

而在弹性扩缩容方面,百度千帆还在投机解码框架里集成了多 Token 预测(MTP)的模型策略,让投机解码的效率完成了上升,而 OTPS (每秒输出 Token 数)的吞吐拉高了 2-3 倍,模型验证通过的命中率也超过了 80%。

“当然,不同的厂家也都有各自的法宝,我们认为千帆的这个(投机解码框架+MTP 策略)应该在整个行业里面也能排进第一梯队。”在交流中,百度智能云AI与大模型平台总经理忻舟如是说道。

模型服务之上,第三层,是 Infra 的基础服务,从安全沙箱、可观测、Agent 身份管理和安全等等功能,虽然看上去琐碎,但实际都是客户在实际使用中绕不开的 Agent 能力。

今年,千帆针对 Agent 做了不少安全相关的工作。OpenClaw 最主要的安全问题,就是 Agent 身份和权限管理混乱,时常存在误删内容的情况——千帆则专门强化了会话隔离、数据隔离、防误删等功能,面向实际问题,保障用户的数据和权限安全。

国家电网是百度智能云的老客户,今年在千帆 ModelBuilder 和文心大模型 4.5 的双剑合璧之下,国网打造了“光明电力大模型”,来分析诊断电网负载,智能调度配网,完成多模态的智能巡检等等工作;而在智能硬件厂商中,百度已经有了超过 1000 家客户,在细分赛道中排名云厂商第一,还通过 Agent Infra 的 Harness 和搜索等一系列能力,帮助荣耀打造了个人助手 YOYO,在五一期间的旅游场景中大放异彩,生成攻略、推荐美食样样精通,把 AI 智能体做进了用户每日的手机使用习惯当中。

打开网易新闻 查看精彩图片

有了强大的 Infra 支持,好用的第一方产品,是百度智能云新全栈的最后一块拼图。

去年在百度世界大会上亮相的“百度一见”视觉智能体,今天已经进入了“世界超市”义乌,成为了不少企业的专属“AI 厂长”,帮助客户保证生产的安全和质量,管理人员。

而今年 Create 大会新登场的“数字伙计”——Hogee,也来到了义乌,成为了不少厂家的智能营销帮手,通过“龙虾”的能力来完成智能导购、私域运营、销售数据复盘、订单全流程管理等工作。作为专家级数字员工,还能“一键上岗”,让不少商家更早地享受到了 AI 时代的技术红利。

03

结语

在中国,百度是相当早喊出“全栈”口号的 AI 云厂商,也是几年里提及“全栈”次数最多的 AI 云厂商之一。

为什么百度如此钟情于“全栈”的布局,在今天又提出了“新全栈”的概念呢?

在开头提到,过去的“全栈”,强调的是“人无我有”,是迎合客户的需求,通过提供更多能力和服务,来凸显自己的价值。

而今天百度的“新全栈”,却不再甘于只谈技术,更重要的是建造一个“生态系统”——用户可以留在百度云的生态中,更高效地使用算力、更便捷地微调模型、更简单地开发 Agent,最后可以更好地帮助自己完成生产的降本和增效。

面对绝大多数使用中出现的需求,都能在百度的全栈能力中找到解决方案,客户自然会心甘情愿留在百度智能云的生态里。

“新全栈”的设计,本质上跳出了今天“龙虾”Token 价格战的窠臼,让客户与智能云的生态共进退、共成长,最终成为百度云的伙伴,而不是单纯的“顾客”或“买家”。

不盲目追求 KPI,百度同样关注业务收入的健康度。忻舟对雷峰网分享,在过去,百度其实拒掉了不少“低质调用”的商单,在他们看来,不少工作使用大模型,实际是“杀鸡牛刀”,用户对模型要求本就不高,只会追逐低价,贸然加入反而伤害自己。

而到了今天,业界对 AI 能力的了解越来越多,更高质量的调用也随之涌现——用户开始更愿意为 AI 付钱,甚至愿意为了更好的能力签更大的合同,甚至付溢价。

不偏科的全栈能力,也是这个时代 AI 云厂商对抗“价格战”的底气,忻舟说:“同样花 100 块钱,我们能用更优的模型路由和调用策略,为客户提供更多的服务——这是我们从产品和架构为用户做的工作。”