AI 用得越多反而越赚钱——读高盛智能体经济学报告|乘数|工作流|知名企业|经济学报告|飞轮|高盛智能体

来源：市场资讯

（来源：可遥笔记）

过去三年，市场对 AI 这件事始终有一层底色般的忧虑——

用得越多，亏得越深。

逻辑直白：每一次推理调用都意味着算力、电力、加速器折旧；token 价格在过去两年跌了大约 40%，而背后的资本支出却仍在加速——Meta、谷歌、亚马逊 2026 年的 capex 预算又创了新高。两件事拼在一起，结论似乎是必然的：使用量越大，亏得越深。市场担心的不是 AI 没有用，是 AI 太能烧钱。

高盛美国科技团队 5 月 5 日发布的《Decoding the Agentic Economy 解码智能体经济学》报告，把这个共识彻底翻了过来。整份报告论点只有一句——

到 2030 年 token 消耗量上升 24 倍的同时，行业利润率拐点正在 2026 年上半年发生。

这一句话不简单。如果它对，整个 AI 投资周期的叙事就要换底片：从"持续烧钱、等待变现"换成"使用量爆炸 + 边际利润扩张"。下面是这份报告里最值得记下来的几条逻辑。

一、拐点是怎么形成的

整份报告的物理基础是这一张图——

token 价格曲线企稳、算力成本曲线继续下行——拐点出现在 2026 上半年（Source: GS Global Investment Research）

横轴是时间，纵轴是每百万 token 的成本和价格。蓝色实线是头部大模型的对外定价，从 2023 年 11 月接近 1.20 美元一路跌到 2025 年中的 0.20 美元附近，然后开始横住，2026 年初甚至小幅回升到 0.75 美元。下面四条渐次下行的曲线——英伟达、AMD、谷歌 TPU、Marvell 给亚马逊做的 Trainium——每一年仍以 60-70% 的速度下行。

价格在 2025 年止跌横住、回升；成本继续以一年 60% 以上的速度下行。这两条曲线的剪刀差，就是利润率扩张的物理基础。报告在图上画了一个红色阴影方框，标注 "Margins Inflecting in 1H26"——拐点。

这件事是怎么发生的？三件事叠加：模型层出现了几个公认更强、且没有明显替代品的产品（Claude / GPT / Gemini 各自的旗舰版），定价权回到了模型公司手里；从训练到推理的算力优化（Triton 调度、KV-cache、speculative decoding、模型路由）让"同样产出每 token 用的电更少"；硬件层面英伟达、AMD、TPU、Trainium 的迭代节奏没有放慢。

合起来，AI 经济学被分成了两个相位——

第一相位（2023-2025）：算力和 token 是成本驱动。使用量越大，推理负担越重，加速器和电力越紧张，capex 越多。市场关心的是"什么时候能赚回来"。

第二相位（2026 起）：token 增长开始以可观的边际利润率穿透到底。使用量越大，越赚钱。

两个相位的切换是这份报告最反直觉的部分——也是它如果对，市场叙事会被重写的部分。

二、自我强化的飞轮

报告把 Agentic AI 描述成一个自我强化的飞轮，而不是一个线性的成本下降故事。三个齿轮咬合在一起——

第一个齿轮，单 token 算力成本下降，使更复杂的 Agent 成为可能。当推理一次的电费从 0.001 美元降到 0.0002 美元，原本因为预算约束做不到的事——把任务拆成多步、加入多轮验证、加入持续监控——开始算得过账。

第二个齿轮，更复杂的 Agent 反过来消耗显著更多 token。一段持续运行的代码 Agent 一天可能消耗 700 万 token；一个总在监听邮箱的 always-on 助理一天可能消耗 10 万以上 token。这跟 2024 年那个"问一句答一句"的聊天机器人时代完全不是一个数量级。

第三个齿轮，更高的利用率改善了基础设施的整体经济性。算力中心吃饱了，单位算力的折旧成本被摊薄；模型公司有了更稳定的现金流，可以继续投资模型质量和产品分发。

成本越低 → Agent 越复杂 → token 消耗越多 → 利用率越高 → 单位成本继续下降。

报告原话点得很准——

"这个飞轮和市场主流叙事完全不同：主流叙事是 AI 使用量增长会带来不可持续的成本负担。飞轮叙事则是——使用量增长本身会改善单位经济效益，使更高的资本开支变得可持续。"

三、真正的乘数在 always-on

讲到 Agent 这个词，市场习惯把它当一类东西。报告把它拆成两段，且断言真正的 token 乘数来自第二段——

以 token 强度划分的 Agent 形态：always-on 类的 token 消耗量量级最大（Source: GS Global Investment Research）

On-demand Agent：用户发起一个任务（订机票、写一段代码、做一份调研），Agent 规划、执行、循环、返回结果，结束。OpenAI Operator、Claude Code 是这类。每次会话约 1 万 token。

Always-on Agent：常驻后台、持续监控上下文、检测到信号才行动。一个一直在监听邮箱的助理、一个一直在看日程的调度员、一个一直在监督交易仓位的风控代理。每天 10 万 token 以上——比聊天机器人高出整整两个数量级。

报告把消费侧的 token 乘数效应归到 always-on 这一段——因为它把 Agent 从"用户主动调用"变成了"持续运行"。一个 always-on 邮件监督代理，按报告搭的模拟模型，每小时扫一次收件箱（24 个循环）+ 每次扫描里分类 50 封邮件 + 触发 12 个回复任务 + 5 次日历检查 + 一次每日总结——一天下来仅这一个 Agent 的输入 token 就接近 10 万。

而 always-on 这一段，在 2026 年消费端 Agent 应用里才刚刚开始。市场上现有的产品绝大多数还停留在 on-demand 形态。真正的 token 乘数，还在前面。

四、不是所有 Agent 一样赚钱

如果说消费端的乘数主要来自 always-on 形态，企业端的乘数则要受工作流性质的牵制。这是报告最有 nuance 的一段。

报告搭了三个模拟 Agent，把每天 token 消耗量、API 成本、对应人力成本三者放在一起——

编程 Agent / 客服 Agent / 数据录入 Agent 与人力成本的对照（Source: GS Global Investment Research）

编程 Agent：约 700 万 token / 天，API 成本 13 美元 / 天；人类初级工程师 300 美元 / 天 → 极有经济效益
客服 Agent：约 200 万 token / 天，API 成本 92 美元 / 天；人类客服 90 美元 / 天 → 几乎打平
数据录入 Agent：约 2,500 万 token / 天，API 成本 60 美元 / 天；人类 80 美元 / 天 → 有经济效益但不夸张

注意第二行——客服 Agent 的 token 消耗其实最低（200 万），但 API 成本反而最贵（92 美元）。原因是它需要实时语音处理、低延迟、多模态——这些把每 token 单价抬高了。

这个对比给出一个很重要的颗粒度：Agent 的经济性不取决于 token 体量，而取决于工作流性质。文本密集的 Agent（编程、写作、分析）token 多但单价低，先进入 ROI 区间；多模态密集的 Agent（语音客服、视频审核）token 不多但单价高，进入 ROI 区间慢。

这意味着 Agent 在企业内的渗透不会均匀展开——它会沿着工作流的"文本化程度"梯度，从软件研发先开始，再到数据录入、文档处理、合规、市场分析——再到需要语音和视频的部分。

五、定价单位的迁移——这是软件 TAM 真正被掀开的地方

整份报告里最有长期价值的一条洞察。

过去 20 年的 SaaS 商业模式，核心是按"座位"（seats）定价——一家公司一年付多少给 Salesforce / Workday / Office 365，本质是用员工数乘以单价。这套模式有一个天花板：人头数有上限。即使把每个员工都装上软件，也就这么多。

Agentic AI 把这个天花板掀开。未来的软件不再按座位卖，而是按"工作单元"卖——按完成的任务数、按提升的产出、按代理替代的人力工时。

报告引用 Avenir 的一项调研：企业愿意为一个通用智能 Agent 支付每年 2,400 美元——作为对照，Microsoft 365 E5 套餐目前 ARPU 约 680 美元 / 年。Agent 的潜在单价是 SaaS 当前单价的 3.5 倍。专业场景的 Agent 单价更高（编程类 ARPU 已是普通 SaaS 的 25 倍）。

报告把这件事讲得非常干净——

"如果交付一个自动化工作流的成本在下降，但完成这件工作的价值仍然挂钩于人力替代或生产率提升，那么软件公司可以把'AI 交付成本下降'与'被自动化任务的更大价值'之间的差额据为己有。"

软件 TAM 不是停滞——它在被一层全新的 Agent TAM 叠加。

六、饼变大了

报告中段对"Agent 替代人力"这个直觉做了一次修正。

直觉的逻辑是：Agent 单位成本一旦低于人工，企业就会百分百替换掉人力。

报告说，这套直觉忽略了一件事——人力短缺正在压制大量真实需求。任何打过客服电话、被晾在那里 30 分钟才接通、最后挂掉电话的人都知道：那条等待队列里有大量没被满足的服务。Wait time 不是零，hang-up rate 不是零——这些都是被人力供给约束压抑掉的、本应存在的服务。

如果 AI Agent 能把单位成本降下来、同时把容量打开，那么企业不会简单地"换一半人保留一半成本"，而是会把节省下来的预算用来服务那些被压抑的需求。结果不是替代，而是扩展——

"企业会变得更有效率，更多的服务被提供，人类劳动会进化而不是被替代。"

报告引用了一个真实案例：Navan（一家做企业差旅与费用管理的公司）已经实现 AI 客服 50% 以上的自动应答率，且客户满意度高。AI 处理大部分基本问询，人类客服现在专注在更复杂、更需要判断力的环节上。总服务量上升、总成本下降、人均处理价值提升——这三件事同时发生。

把这件事推广到知识工作的所有领域，结论就更耐人寻味了：饼变大了。被自动化的，是过去因为成本太高而无法做的部分；被保留下来的人力，反而被推向更高价值的环节。AI 对劳动力市场的冲击曲线，不是一根从就业总量下降的线，而是一个职业结构重组的过程。

七、报告没讲的那部分——中国侧

整份报告通读下来，有一件事值得专门提一下：它从头到尾没有提到中国。

DeepSeek、阿里 Qwen、字节 Doubao、月之暗面 Kimi、腾讯混元、华为昇腾、寒武纪——一个名字都没有。这是高盛美股 TMT 团队的研究范围决定的，无可厚非；但对中国的读者来说，把这个缺口补上、放回到这份报告的框架里去看，其实有几条值得记下来的观察。

第一，中国开源模型，本身就是这份报告"token 价格止跌"论断的最大外部变量。

报告在拐点这件事上的核心假设，是 token 价格在 2025 年中开始横住、2026 年初甚至小幅回升。但回头看 2024 年底到 2025 年那一波价格暴跌的真正驱动力，相当一部分来自中国——DeepSeek V3、R1 在 2024 年末连续发布，Qwen 系列、Doubao、Kimi K2 把性能/价格曲线往下压了一个台阶。美国闭源模型的提价空间，本质上是被中国开源模型的成本水平封顶的。

如果未来一两年中国开源模型继续推进——尤其是 Agent 专用、长上下文专用、推理优化方向——那么报告里那个"价格企稳"的假设可能站不住。剪刀差能不能维持，很大程度上取决于中国开源生态的下一步。这是 GS 报告里完全没讨论、但对结论影响最大的变量。

第二，飞轮机制对中国适用，但软件 TAM 的天花板更低。

报告第五节那个"从座位卖到工作单元卖"的论点，对中国而言要打个折扣。原因不是 Agent 的技术力打折，而是中国 SaaS 的座位单价本来就远低于美国——飞书、钉钉、企业微信的 ARPU 大约是 Microsoft 365 的几分之一甚至十几分之一。同样 3.5 倍的 Agent 单价乘数放在更低的基数上，绝对值的扩张空间没有美股那么夸张。

这意味着中国的软件公司从 Agent 化里能挣到的钱会少于美国对标——但同时，中国企业花在 Agent 上的总预算占 IT 支出的比例可能更高，因为人力替代的边际效益更敏感。两者拉锯之后，软件公司能拿到多少，还是要看产品力和定价权。

第三，always-on Agent 在中国可能比美国跑得更快——因为超级 App 是天然的平台。

报告把 always-on Agent 描述成消费端真正的乘数。这件事在中国有一个被低估的优势：微信、抖音、支付宝、淘宝——这些超级 App 本身就是 always-on 的入口，用户不需要装一个新的代理程序，代理可以直接嵌进现有的日常使用面里。美国那一头的代理生态分裂在 Google、Apple、OpenAI、Anthropic、Meta 之间，要让 always-on 跑起来需要把这些壁垒打通，不容易。

中国的瓶颈不在分发，在数据合规与跨平台互操作——以及监管对"AI 持续监听用户行为"这件事的态度。这些是组织层面的问题，不在技术上。

第四，互相促进还是分化？

把美国和中国的两条链条放到同一张图上看，在 token 这个底层经济单位上是互相促进的——开源模型逼闭源模型把价格做出价值，闭源模型的质量天花板逼开源模型继续追；硬件这一头英伟达、AMD、华为、寒武纪也在四方博弈里把每 token 的成本继续打下去。

但在应用层和数据层上，分化可能比融合更明显。监管、数据本地化、芯片管制、Agent 的合规边界——这些都在把"全球统一的 AI 经济"切成两个相对独立的子系统。GS 报告说的这台飞轮，最终可能在两个市场各转各的——只是对中国的读者来说，看美国的转法，是为了校准对自己这一台的期望。

八、结尾

把这份报告的论证结构归纳一下——

价格曲线和算力成本曲线交叉，给出利润率拐点的物理基础；自我强化的飞轮，把"用得越多越亏"翻成"用得越多越赚"；always-on 形态，是消费端真正的乘数；企业端的 ROI 沿工作流的"文本化程度"分层展开；定价单位从座位迁到工作单元，掀开软件 TAM 的天花板；最后，饼变大了，被服务的总量在扩张。

五件事任何一件单独看，都是市场上能听到的零散观点。把它们放在同一个框架下连起来读，Agentic AI 不是"另一个 SaaS 周期"——它是经济学结构本身在迁移的过程。

报告自己也列了三条最大的尾部风险：token 价格如果再下一个台阶，剪刀差会反向；企业端 Agent 普及如果出一两次标志性的出错事件，采纳曲线会被推迟好几年；always-on Agent 如果引发隐私/信任反弹，乘数效应缩水。

至于这次范式切换最终走多远、用多久走完——报告做了一个有意思的对照：用 1800 年到 2000 年间 101 项技术、161 个国家的历史采纳数据看，中位数技术从发明到普及峰值用了 29 年——

不同技术从发明到普及峰值所用年数（深蓝柱）；浅蓝线为均值约 48 年，灰线为中位数约 29 年（Source: GS Global Investment Research / Comin and Hobijn）

最左侧那几根 100 年以上的高柱是邮政、铁路客运、固定电话——这些靠物理基建铺开的技术，扩散非常缓慢；最右侧那一组只用十几二十年就到顶的，是腹腔镜手术、冠脉支架、信用卡支付、ATM——这些是嵌进既有基础设施的"软"技术，扩散非常快。

Agent 这件事的扩散更接近右半边那一类——它不需要新铺光纤，不需要新建电网，不需要新发硬件给最终用户。它寄生在已经渗透到位的智能手机、PC、云计算之上，理论上可以用很短的时间走完曲线。互联网本身用了 75 年才到 75% 渗透——但那是因为它是"新铺线"。Agent 应该比互联网快得多，但也未必比图里最右那几根 10 年期的快。