在义乌，每一个Token都不会浪费|agent|token|一代版本模型|义乌市|全栈|智能体|翻译

AI工具最残酷的检验场，不在硅谷，而在义乌。

从欧洲留学回国接班的义乌厂二代吴展告诉我们，过去做一条面向中东市场的带货短视频，他需要找人写脚本、翻译阿拉伯语、完成配音。无论是自建团队还是外包，一个短视频产出至少要花半天的时间，光翻译费就要花掉上百元。

而现在，他一个人用AI工具10分钟就能搞定，从文案、多语种到配音一气呵成。就连AI生成的废片，他都不会放过，“用AI剪到一起还能放到账号里做商品展示”吴展笑着说道。毕竟在义乌，每一个Token都不会浪费。

吴展的案例并非个例。事实上，义乌这座只有200万人口的城市，作为全球最大的小商品集散地，有近3万商户已常态化使用AI工具，AI应用累计调用超10亿次。

义乌一直有一个朴素的商业逻辑，一分钱要掰成10瓣花。放在AI产业的语境下，这套逻辑可以翻译成一个更具技术色彩的名词，那就是Token效率学。

Token是大模型处理文本的最小计算单位，也是AI的“计价货币”。大模型的每一次回答、每一个推理步骤、自主完成的每一次规划和工具调用，都在消耗Token。而年初OpenClaw全球出圈，把Token消耗量拉到了一个前所未有的量级。

Anthropic数据显示，单一智能体完成一次典型任务的Token消耗是普通对话的4倍，多Agent协作更高达15倍。原本一次几十Token的交互，开始变成智能体上数十万甚至百万token的长链路任务。

问题在于Token需求激增的同时，大量低价值、重复的计算也在增加，让用户花了不少冤枉钱。行业竞争的核心也开始发生变化。英伟达CEO黄仁勋在2026年GTC大会上提出，AI竞争的本质是Token生产效率的竞争。

在他看来，决定了科技企业能否生存的，不再只是模型能力，Token生成的质量、成本和效率同样重要。而在5月13日百度AI开发者大会上，百度创始人李彦宏给出了另一个尺度，DAA（日活智能体数）。结合百度智能云的一系列升级。最终指向了Token效率的另一面，不仅计算成本，而是如何发挥每一个Token的价值。

AI公司需要比拼的，不再只是谁的Token更便宜，而是谁能把每一个Token榨出更多价值。如果要找一个最早感受到这种变化的地方，可能不是硅谷，而是义乌。

义乌的AI效率学

义乌一直是中国最特殊的商业样本之一。

这里有超过200万种商品、数万家中小商户，以及全球密度最高的小商品供应链。它也是中国最典型的效率社会之一。

早上八点半的义乌国际商贸城，搬运工推着装满货物的推车在通道里穿梭，210多万种商品从这里发往全球230多个国家和地区。这里店铺密集，人流涌动，促销招牌恨不得把每一寸墙面占满。

不过这里也是AI气息最浓郁的地方。送货机器人已经替代部分搬运工装卸运输货物，老板熟练切换AI软件用多语种和全球客户沟通，大厅里，还给第一次来的采购商配备了AI导航系统。

在义乌，AI已经日常的不能再日常。甚至AI店长这个新物种开始在义乌萌芽。

作为世界超市，义乌模式前店后厂，前面接订单、跑客户，后面盯生产、管质量。老板往往要同时谈客户、看库存、催产线、盯物流。现在，基于智能体，义乌老板正试图搭建AI厂长管工序、管物料、管服务。而AI店长可以自动消化销售数据、预警库存风险、追踪逾期订单，甚至结合物流成本给出调货和促销建议。

厂长最终只需要对着屏幕看结果。义乌商城集团董事长陈德占用了一句很直白的话来解释义乌的变化：“彻底颠覆传统生意的逻辑”。但对义乌商户来说，颠覆逻辑这种大词他们不关心。他们关心的是更具体的东西。

吴展向我们展示过他的AI工作流。作为接班的厂二代，他需要用最低的成本在海外市场测试新品，完成导流，而传统搭建视频团队的方式，光是打磨脚本就得反复跟外包团队对需求，翻译还要等排期。但让AI生成视频脚本，再用AI视频工具生成素材完成剪辑，一天就能生成十几个新品短视频。

有趣的是，在义乌老板们很少讨论AGI、Scaling Law这些概念。一套数字人系统，能不能替代夜班客服。一个视觉Agent，能不能减少工厂漏检。一个营销智能体，能不能帮店铺多接几个海外订单。这些，才决定一个AI工具能不能在义乌活下来。

吴展也有他的烦恼。100多年前美国百货业之父约翰·沃纳梅克曾说，我知道我的广告费有一半被浪费了，但遗憾的是，我不知道是哪一半。这种明明知道钱在打水漂、却不知道漏在哪里的焦虑，在过去两三个月里被吴展完整地体验了一遍，只不过对象从广告费变成了Token账单。

最初用AI做视频、写脚本时，月消耗不过千元，但随着他尝试引入OpenClaw类的工具完善工作流，Token调用量爆发，账单两个月就逼近万元。Token成本越来越贵，而智能体每个指令都要自主规划、搜索信息、调用工具、验证结果，任务越复杂，消耗呈指数级膨胀。

吴展说，过去花广告费是不知道浪费在哪，现在烧Token是眼睁睁看着AI空转，却不知道从哪一处开始叫停。

于是他只能尽量把每一次的Token消耗都压榨出价值。不断的优化视频脚本，甚至连别人不要的AI废片他都不浪费，“尽管有单个镜头生成效果不好，但重新剪在一起还能用。”毕竟，Token还不像水电煤一般的平价。

这种对成本的极致敏感，解释了为什么义乌几乎以商品拆解的方式接纳了AI。从数字人到AI导航，从智能设计到AI店长，整个义乌市场正以惊人的速度将AI融入到每一个毛细血管里。

过去几年，AI行业一直有一种典型叙事，更大的模型，意味着更强的能力。但义乌提供了另一种现实，真正决定AI价值的，不是模型参数，而是单位Token能创造多少经营结果。

这也是为什么，今天越来越多 AI 云厂商开始重新理解 “ 全栈 ” 这件事。因为 Agent 时代，问题已经不只是模型够不够强。而是整套系统，能不能把 T oken 用到极致。

百度新全栈在做和义乌人一样的事

如果从更底层的视角看，会发现义乌老板和百度工程师，其实都在做同一件事，就是压榨效率。

义乌老板希望一次拍摄能生成24小时在线的数字人，一次直播素材能反复用，一个员工能覆盖更多订单。而百度的新全栈，本质上也是同一种逻辑，通过对Agent Infra和AI Infra两大基础设施的全面升级，聚焦于将单位Token的智能水平做到最好，同时提供性能最强、最具性价比的AI算力服务。

这也是百度最近提出“新全栈”的背景。

过去，AI云的“全栈”更多是一种能力拼图，有芯片、云底座、模型、应用。但Agent时代的问题不再是有没有，而是能不能协同提效。因为智能体不是静态运行的，它是动态系统。一个Agent执行任务时，底层的芯片调度、推理资源、上下文管理、模型服务、Runtime环境，其实都在实时联动。

传统云架构里，这些东西是分层的。但Agent时代，它们必须开始长在一起。这也是“新全栈”真正重要的地方。它不是简单的技术堆叠，而是一种系统级协同。

比如KV Cache，这是现在长链路Agent里最关键的技术之一。

过去，一个Agent执行任务时，大量上下文会被重复加载、重复计算。实际上，很多Token已经算过一次，没有必要再重新计算。于是，百度开始把KV Cache从显存、内存到SSD做分层池化。

这是在做一件很义乌的事情，能复用的东西，就绝不重新生产。

根据百度智能云披露，其Agentic推理体系已经能把KV Cache命中率做到90%以上，并通过长上下文与缓存管理提升复杂Agent任务的推理效率。这件事看起来是工程优化，但它遵循的恰恰是“Token经济学”的逻辑，在有限的资源下，实现最大的产出。

Agent时代最大的成本，不一定是训练，而是推理。尤其当Agent开始进入真实业务环境之后，一个任务往往不是几十Token，而是几十万Token。如果每轮都重新计算，成本会指数级膨胀。于是，“缓存复用”开始变成AI时代新的基础设施能力。这有点像义乌老板娘反复利用同一套直播素材。

强化学习也一样。

传统模型训练，很多时候一次任务完成后就结束了。但Agent强化学习不同。一次Token消耗，它会把每一次执行任务的过程，重新沉淀为下一次能力。百度在新全栈里强调的“Agentic强化学习”，是让真实业务反馈重新进入训练闭环，让智能体持续进化。

这其实很像制造业里的“良率优化”。每一次生产，都要反过来优化下一次生产。如今，AI也开始进入了这种工业化阶段。

过去，大模型行业很喜欢讨论智能涌现。今天，Token效能被越来越多的提及和讨论。对如今的AI大模型产业来说，最大的瓶颈在于电力、推理成本，以及系统协同效率。而Agent时代的云，也不再只是资源租赁平台。它开始变成智能运行系统。这也是为什么，云厂商们开始重新回到了基础设施的赛点。

从数字员工到千行百业

很多AI公司喜欢讲未来，但义乌的问题永远很现实。能不能少雇人？能不能提高周转？能不能多接订单？所以，义乌其实是一个非常特殊的AI检验场。这里测的不是模型智商，是商业效率。

这恰好也是Agent时代最核心的问题。

当义乌出现AI厂长、AI店长这样新的商业物种，云厂商面对的需求就不再是打包一套API服务，而是提供给客户一个能直接上岗的数字员工。过去，客户采购云服务，买的是算力、存储、网络。现在，客户想要的是一个能直接工作的Agent。

这也是“新全栈”出现的原因。

在义乌，基于百度一见视觉智能体（一见Claw）打造的“AI厂长”，可以用一套智能体统一完成现场感知、判断、干预和汇报，而不再是过去厂长需要分别训练不同模型、搭配不同硬件规则的“拼图式部署”。基于Hogee智能营销解决方案搭建的“AI店长”，可以自动处理销售导购、数据分析、库存预警和订单追踪，甚至结合物流信息给商家提出调货建议。

这两类智能体背后，需要的是一套无法切割的全栈能力。传统逻辑下，芯片层只管计算、框架层只管调度、应用层只管调用，没人对Token产出效率负责。

百度在2025年重新调整了其全栈架构表述，形成“芯云模体”的闭环。从昆仑芯的算力精准投放，到千帆平台的模型服务，再到Agent Infra的智能体交付，芯片层针对大模型推理特征进行定向优化，云底座要有弹性伸缩的肌肉记忆，当应用层出现并发激增时，能像神经反射一样迅速调动资源。

模型层要能在长链路任务中管理上下文、复用KV Cache、优化推理调度，应用层则要交付能独立运转的Agent，而不是一堆需要开发者自行调通的半成品。

所以，“新全栈”的本质不是技术更多了，是层级开始消失了。

芯片开始理解模型，模型开始理解Agent，云开始理解业务。最后，整个系统开始围绕“结果”运行，而不是围绕“资源”运行，最终Token效率才有可观测的提升。

而想真正理解百度的“新全栈”，需要把它放回整个AI产业的竞争格局中观察。

过去两年，行业里有一种非常主流的逻辑，就是AI竞争的核心，在于规模与生态。谁能把算力成本压到最低，谁能覆盖最多开发者与企业，谁就更有机会成为下一代基础设施平台。

百度这次提出“新全栈”，是在试图解决一个问题。当AI不再只是生成内容，而是开始直接交付结果、承担经营责任时，整个云基础设施应该如何重构。因为一旦AI真正进入生产系统，对底层能力的要求会发生根本变化。

客户不再满足于模型够聪明，而是要求它稳定、低成本、可持续运行，并且能够在真实业务反馈中持续进化。过去那种分层割裂的AI供给体系，越来越难支撑Agent时代的大规模落地。

义乌某种程度上正是这种变化最极致的缩影。这种结果导向的标准，也正在向更多行业蔓延。

国家电网已经将智能巡检覆盖至全国800多座变电站；招商银行上线超过800个AI应用，其中超过50%运行在昆仑芯P800之上；百度智能云在中国具身智能AI云市场的份额，已经超过第二名与第三名总和。工业、金融、能源、交通，这些对稳定性和可靠性要求最高的行业，正在用同一种效率逻辑，倒逼AI基础设施重新进化。

这种变化，也直接反映在市场结果上。

2026年第一季度，百度智能云同时拿下国内云厂商中标项目数量和中标金额“双第一”，25个项目总金额达到12.48亿元。背后反映出的趋势是，越来越多客户真正愿意付费的，已经不是更便宜的算力，而是更确定的结果。

某种意义上，这也是今天AI行业两种路线的分野。一种路线仍然强调资源规模、参数竞赛和生态覆盖，另一种路线，则开始更加关注系统协同、推理效率与结果交付。

两者并没有绝对的对错，更像是两种不同的产业哲学。但有一个越来越现实的问题正在出现。当客户花出去的每一分钱，都必须看到实际业务回报时，单纯资源更便宜，还是否足以构成真正的护城河？

这或许也是百度“新全栈”对义乌效率逻辑最核心的回应。它想解决的，不只是如何提供AI能力，更是如何稳定交付结果。

撰写｜马舒叶

编辑｜刘培