打开网易新闻 查看精彩图片

AI工具最残酷的检验场,不在硅谷,而在义乌。

从欧洲留学回国接班的义乌厂二代吴展告诉我们,过去做一条面向中东市场的带货短视频,他需要找人写脚本、翻译阿拉伯语、完成配音。无论是自建团队还是外包,一个短视频产出至少要花半天的时间,光翻译费就要花掉上百元。

而现在,他一个人用AI工具10分钟就能搞定,从文案、多语种到配音一气呵成。就连AI生成的废片,他都不会放过,“用AI剪到一起还能放到账号里做商品展示”吴展笑着说道。毕竟在义乌,每一个Token都不会浪费。

吴展的案例并非个例。事实上,义乌这座只有200万人口的城市,作为全球最大的小商品集散地,有近3万商户已常态化使用AI工具,AI应用累计调用超10亿次。

义乌一直有一个朴素的商业逻辑,一分钱要掰成10瓣花。放在AI产业的语境下,这套逻辑可以翻译成一个更具技术色彩的名词,那就是Token效率学。

Token是大模型处理文本的最小计算单位,也是AI的“计价货币”。大模型的每一次回答、每一个推理步骤、自主完成的每一次规划和工具调用,都在消耗Token。而年初OpenClaw全球出圈,把Token消耗量拉到了一个前所未有的量级。

Anthropic数据显示,单一智能体完成一次典型任务的Token消耗是普通对话的4倍,多Agent协作更高达15倍。原本一次几十Token的交互,开始变成智能体上数十万甚至百万token的长链路任务。

问题在于Token需求激增的同时,大量低价值、重复的计算也在增加,让用户花了不少冤枉钱。行业竞争的核心也开始发生变化。英伟达CEO黄仁勋在2026年GTC大会上提出,AI竞争的本质是Token生产效率的竞争。

在他看来,决定了科技企业能否生存的,不再只是模型能力,Token生成的质量、成本和效率同样重要。而在5月13日百度AI开发者大会上,百度创始人李彦宏给出了另一个尺度,DAA(日活智能体数)。结合百度智能云的一系列升级。最终指向了Token效率的另一面,不仅计算成本,而是如何发挥每一个Token的价值。

AI公司需要比拼的,不再只是谁的Token更便宜,而是谁能把每一个Token榨出更多价值。如果要找一个最早感受到这种变化的地方,可能不是硅谷,而是义乌。

01

义乌的AI效率学

义乌一直是中国最特殊的商业样本之一。

这里有超过200万种商品、数万家中小商户,以及全球密度最高的小商品供应链。它也是中国最典型的效率社会之一。

早上八点半的义乌国际商贸城,搬运工推着装满货物的推车在通道里穿梭,210多万种商品从这里发往全球230多个国家和地区。这里店铺密集,人流涌动,促销招牌恨不得把每一寸墙面占满。

不过这里也是AI气息最浓郁的地方。送货机器人已经替代部分搬运工装卸运输货物,老板熟练切换AI软件用多语种和全球客户沟通,大厅里,还给第一次来的采购商配备了AI导航系统。

在义乌,AI已经日常的不能再日常。甚至AI店长这个新物种开始在义乌萌芽。

作为世界超市,义乌模式前店后厂,前面接订单、跑客户,后面盯生产、管质量。老板往往要同时谈客户、看库存、催产线、盯物流。现在,基于智能体,义乌老板正试图搭建AI厂长管工序、管物料、管服务。而AI店长可以自动消化销售数据、预警库存风险、追踪逾期订单,甚至结合物流成本给出调货和促销建议。

厂长最终只需要对着屏幕看结果。义乌商城集团董事长陈德占用了一句很直白的话来解释义乌的变化:“彻底颠覆传统生意的逻辑”。但对义乌商户来说,颠覆逻辑这种大词他们不关心。他们关心的是更具体的东西。

吴展向我们展示过他的AI工作流。作为接班的厂二代,他需要用最低的成本在海外市场测试新品,完成导流,而传统搭建视频团队的方式,光是打磨脚本就得反复跟外包团队对需求,翻译还要等排期。但让AI生成视频脚本,再用AI视频工具生成素材完成剪辑,一天就能生成十几个新品短视频。

有趣的是,在义乌老板们很少讨论AGI、Scaling Law这些概念。一套数字人系统,能不能替代夜班客服。一个视觉Agent,能不能减少工厂漏检。一个营销智能体,能不能帮店铺多接几个海外订单。这些,才决定一个AI工具能不能在义乌活下来。

吴展也有他的烦恼。100多年前美国百货业之父约翰·沃纳梅克曾说,我知道我的广告费有一半被浪费了,但遗憾的是,我不知道是哪一半。这种明明知道钱在打水漂、却不知道漏在哪里的焦虑,在过去两三个月里被吴展完整地体验了一遍,只不过对象从广告费变成了Token账单。

最初用AI做视频、写脚本时,月消耗不过千元,但随着他尝试引入OpenClaw类的工具完善工作流,Token调用量爆发,账单两个月就逼近万元。Token成本越来越贵,而智能体每个指令都要自主规划、搜索信息、调用工具、验证结果,任务越复杂,消耗呈指数级膨胀。

吴展说,过去花广告费是不知道浪费在哪,现在烧Token是眼睁睁看着AI空转,却不知道从哪一处开始叫停。

于是他只能尽量把每一次的Token消耗都压榨出价值。不断的优化视频脚本,甚至连别人不要的AI废片他都不浪费,“尽管有单个镜头生成效果不好,但重新剪在一起还能用。”毕竟,Token还不像水电煤一般的平价。

这种对成本的极致敏感,解释了为什么义乌几乎以商品拆解的方式接纳了AI。从数字人到AI导航,从智能设计到AI店长,整个义乌市场正以惊人的速度将AI融入到每一个毛细血管里。

过去几年,AI行业一直有一种典型叙事,更大的模型,意味着更强的能力。但义乌提供了另一种现实,真正决定AI价值的,不是模型参数,而是单位Token能创造多少经营结果。

这也是为什么,今天越来越多 AI 云厂商开始重新理解 “ 全栈 ” 这件事。因为 Agent 时代,问题已经不只是模型够不够强。而是整套系统,能不能把 T oken 用到极致。

打开网易新闻 查看精彩图片

02

百度新全栈在做和义乌人一样的事

如果从更底层的视角看,会发现义乌老板和百度工程师,其实都在做同一件事,就是压榨效率。

义乌老板希望一次拍摄能生成24小时在线的数字人,一次直播素材能反复用,一个员工能覆盖更多订单。而百度的新全栈,本质上也是同一种逻辑,通过对Agent Infra和AI Infra两大基础设施的全面升级,聚焦于将单位Token的智能水平做到最好,同时提供性能最强、最具性价比的AI算力服务。

这也是百度最近提出“新全栈”的背景。

过去,AI云的“全栈”更多是一种能力拼图,有芯片、云底座、模型、应用。但Agent时代的问题不再是有没有,而是能不能协同提效。因为智能体不是静态运行的,它是动态系统。一个Agent执行任务时,底层的芯片调度、推理资源、上下文管理、模型服务、Runtime环境,其实都在实时联动。

传统云架构里,这些东西是分层的。但Agent时代,它们必须开始长在一起。这也是“新全栈”真正重要的地方。它不是简单的技术堆叠,而是一种系统级协同。

比如KV Cache,这是现在长链路Agent里最关键的技术之一。

过去,一个Agent执行任务时,大量上下文会被重复加载、重复计算。实际上,很多Token已经算过一次,没有必要再重新计算。于是,百度开始把KV Cache从显存、内存到SSD做分层池化。

这是在做一件很义乌的事情,能复用的东西,就绝不重新生产。

根据百度智能云披露,其Agentic推理体系已经能把KV Cache命中率做到90%以上,并通过长上下文与缓存管理提升复杂Agent任务的推理效率。这件事看起来是工程优化,但它遵循的恰恰是“Token经济学”的逻辑,在有限的资源下,实现最大的产出。

Agent时代最大的成本,不一定是训练,而是推理。尤其当Agent开始进入真实业务环境之后,一个任务往往不是几十Token,而是几十万Token。如果每轮都重新计算,成本会指数级膨胀。于是,“缓存复用”开始变成AI时代新的基础设施能力。这有点像义乌老板娘反复利用同一套直播素材。

强化学习也一样。

传统模型训练,很多时候一次任务完成后就结束了。但Agent强化学习不同。一次Token消耗,它会把每一次执行任务的过程,重新沉淀为下一次能力。百度在新全栈里强调的“Agentic强化学习”,是让真实业务反馈重新进入训练闭环,让智能体持续进化。

这其实很像制造业里的“良率优化”。每一次生产,都要反过来优化下一次生产。如今,AI也开始进入了这种工业化阶段。

打开网易新闻 查看精彩图片

过去,大模型行业很喜欢讨论智能涌现。今天,Token效能被越来越多的提及和讨论。对如今的AI大模型产业来说,最大的瓶颈在于电力、推理成本,以及系统协同效率。而Agent时代的云,也不再只是资源租赁平台。它开始变成智能运行系统。这也是为什么,云厂商们开始重新回到了基础设施的赛点。

03

从数字员工到千行百业

很多AI公司喜欢讲未来,但义乌的问题永远很现实。能不能少雇人?能不能提高周转?能不能多接订单?所以,义乌其实是一个非常特殊的AI检验场。这里测的不是模型智商,是商业效率。

这恰好也是Agent时代最核心的问题。

当义乌出现AI厂长、AI店长这样新的商业物种,云厂商面对的需求就不再是打包一套API服务,而是提供给客户一个能直接上岗的数字员工。过去,客户采购云服务,买的是算力、存储、网络。现在,客户想要的是一个能直接工作的Agent。

这也是“新全栈”出现的原因。

在义乌,基于百度一见视觉智能体(一见Claw)打造的“AI厂长”,可以用一套智能体统一完成现场感知、判断、干预和汇报,而不再是过去厂长需要分别训练不同模型、搭配不同硬件规则的“拼图式部署”。基于Hogee智能营销解决方案搭建的“AI店长”,可以自动处理销售导购、数据分析、库存预警和订单追踪,甚至结合物流信息给商家提出调货建议。

打开网易新闻 查看精彩图片

这两类智能体背后,需要的是一套无法切割的全栈能力。传统逻辑下,芯片层只管计算、框架层只管调度、应用层只管调用,没人对Token产出效率负责。

百度在2025年重新调整了其全栈架构表述,形成“芯云模体”的闭环。从昆仑芯的算力精准投放,到千帆平台的模型服务,再到Agent Infra的智能体交付,芯片层针对大模型推理特征进行定向优化,云底座要有弹性伸缩的肌肉记忆,当应用层出现并发激增时,能像神经反射一样迅速调动资源。

模型层要能在长链路任务中管理上下文、复用KV Cache、优化推理调度,应用层则要交付能独立运转的Agent,而不是一堆需要开发者自行调通的半成品。

所以,“新全栈”的本质不是技术更多了,是层级开始消失了。

芯片开始理解模型,模型开始理解Agent,云开始理解业务。最后,整个系统开始围绕“结果”运行,而不是围绕“资源”运行,最终Token效率才有可观测的提升。

而想真正理解百度的“新全栈”,需要把它放回整个AI产业的竞争格局中观察。

过去两年,行业里有一种非常主流的逻辑,就是AI竞争的核心,在于规模与生态。谁能把算力成本压到最低,谁能覆盖最多开发者与企业,谁就更有机会成为下一代基础设施平台。

百度这次提出“新全栈”,是在试图解决一个问题。当AI不再只是生成内容,而是开始直接交付结果、承担经营责任时,整个云基础设施应该如何重构。因为一旦AI真正进入生产系统,对底层能力的要求会发生根本变化。

客户不再满足于模型够聪明,而是要求它稳定、低成本、可持续运行,并且能够在真实业务反馈中持续进化。过去那种分层割裂的AI供给体系,越来越难支撑Agent时代的大规模落地。

义乌某种程度上正是这种变化最极致的缩影。这种结果导向的标准,也正在向更多行业蔓延。

国家电网已经将智能巡检覆盖至全国800多座变电站;招商银行上线超过800个AI应用,其中超过50%运行在昆仑芯P800之上;百度智能云在中国具身智能AI云市场的份额,已经超过第二名与第三名总和。工业、金融、能源、交通,这些对稳定性和可靠性要求最高的行业,正在用同一种效率逻辑,倒逼AI基础设施重新进化。

这种变化,也直接反映在市场结果上。

2026年第一季度,百度智能云同时拿下国内云厂商中标项目数量和中标金额“双第一”,25个项目总金额达到12.48亿元。背后反映出的趋势是,越来越多客户真正愿意付费的,已经不是更便宜的算力,而是更确定的结果。

某种意义上,这也是今天AI行业两种路线的分野。一种路线仍然强调资源规模、参数竞赛和生态覆盖,另一种路线,则开始更加关注系统协同、推理效率与结果交付。

两者并没有绝对的对错,更像是两种不同的产业哲学。但有一个越来越现实的问题正在出现。当客户花出去的每一分钱,都必须看到实际业务回报时,单纯资源更便宜,还是否足以构成真正的护城河?

这或许也是百度“新全栈”对义乌效率逻辑最核心的回应。它想解决的,不只是如何提供AI能力,更是如何稳定交付结果。

撰写|马舒叶

编辑|刘培