来源:市场资讯

(来源:可遥笔记)

过去三年,市场对 AI 这件事始终有一层底色般的忧虑——

用得越多,亏得越深。

逻辑直白:每一次推理调用都意味着算力、电力、加速器折旧;token 价格在过去两年跌了大约 40%,而背后的资本支出却仍在加速——Meta、谷歌、亚马逊 2026 年的 capex 预算又创了新高。两件事拼在一起,结论似乎是必然的:使用量越大,亏得越深。市场担心的不是 AI 没有用,是 AI 太能烧钱。

高盛美国科技团队 5 月 5 日发布的《Decoding the Agentic Economy 解码智能体经济学》报告,把这个共识彻底翻了过来。整份报告论点只有一句——

到 2030 年 token 消耗量上升 24 倍的同时,行业利润率拐点正在 2026 年上半年发生。

这一句话不简单。如果它对,整个 AI 投资周期的叙事就要换底片:从"持续烧钱、等待变现"换成"使用量爆炸 + 边际利润扩张"。下面是这份报告里最值得记下来的几条逻辑。

一、拐点是怎么形成的

整份报告的物理基础是这一张图——

打开网易新闻 查看精彩图片

token 价格曲线企稳、算力成本曲线继续下行——拐点出现在 2026 上半年(Source: GS Global Investment Research)

横轴是时间,纵轴是每百万 token 的成本和价格。蓝色实线是头部大模型的对外定价,从 2023 年 11 月接近 1.20 美元一路跌到 2025 年中的 0.20 美元附近,然后开始横住,2026 年初甚至小幅回升到 0.75 美元。下面四条渐次下行的曲线——英伟达、AMD、谷歌 TPU、Marvell 给亚马逊做的 Trainium——每一年仍以 60-70% 的速度下行。

价格在 2025 年止跌横住、回升;成本继续以一年 60% 以上的速度下行。这两条曲线的剪刀差,就是利润率扩张的物理基础。报告在图上画了一个红色阴影方框,标注 "Margins Inflecting in 1H26"——拐点。

这件事是怎么发生的?三件事叠加:模型层出现了几个公认更强、且没有明显替代品的产品(Claude / GPT / Gemini 各自的旗舰版),定价权回到了模型公司手里;从训练到推理的算力优化(Triton 调度、KV-cache、speculative decoding、模型路由)让"同样产出每 token 用的电更少";硬件层面英伟达、AMD、TPU、Trainium 的迭代节奏没有放慢。

合起来,AI 经济学被分成了两个相位——

第一相位(2023-2025):算力和 token 是成本驱动。使用量越大,推理负担越重,加速器和电力越紧张,capex 越多。市场关心的是"什么时候能赚回来"。

第二相位(2026 起):token 增长开始以可观的边际利润率穿透到底。使用量越大,越赚钱。

两个相位的切换是这份报告最反直觉的部分——也是它如果对,市场叙事会被重写的部分。

二、自我强化的飞轮

报告把 Agentic AI 描述成一个自我强化的飞轮,而不是一个线性的成本下降故事。三个齿轮咬合在一起——

第一个齿轮,单 token 算力成本下降,使更复杂的 Agent 成为可能。当推理一次的电费从 0.001 美元降到 0.0002 美元,原本因为预算约束做不到的事——把任务拆成多步、加入多轮验证、加入持续监控——开始算得过账。

第二个齿轮,更复杂的 Agent 反过来消耗显著更多 token。一段持续运行的代码 Agent 一天可能消耗 700 万 token;一个总在监听邮箱的 always-on 助理一天可能消耗 10 万以上 token。这跟 2024 年那个"问一句答一句"的聊天机器人时代完全不是一个数量级。

第三个齿轮,更高的利用率改善了基础设施的整体经济性。算力中心吃饱了,单位算力的折旧成本被摊薄;模型公司有了更稳定的现金流,可以继续投资模型质量和产品分发。

成本越低 → Agent 越复杂 → token 消耗越多 → 利用率越高 → 单位成本继续下降。

报告原话点得很准——

"这个飞轮和市场主流叙事完全不同:主流叙事是 AI 使用量增长会带来不可持续的成本负担。飞轮叙事则是——使用量增长本身会改善单位经济效益,使更高的资本开支变得可持续。"

三、真正的乘数在 always-on

讲到 Agent 这个词,市场习惯把它当一类东西。报告把它拆成两段,且断言真正的 token 乘数来自第二段——

打开网易新闻 查看精彩图片

以 token 强度划分的 Agent 形态:always-on 类的 token 消耗量量级最大(Source: GS Global Investment Research)

On-demand Agent:用户发起一个任务(订机票、写一段代码、做一份调研),Agent 规划、执行、循环、返回结果,结束。OpenAI Operator、Claude Code 是这类。每次会话约 1 万 token。

Always-on Agent:常驻后台、持续监控上下文、检测到信号才行动。一个一直在监听邮箱的助理、一个一直在看日程的调度员、一个一直在监督交易仓位的风控代理。每天 10 万 token 以上——比聊天机器人高出整整两个数量级。

报告把消费侧的 token 乘数效应归到 always-on 这一段——因为它把 Agent 从"用户主动调用"变成了"持续运行"。一个 always-on 邮件监督代理,按报告搭的模拟模型,每小时扫一次收件箱(24 个循环)+ 每次扫描里分类 50 封邮件 + 触发 12 个回复任务 + 5 次日历检查 + 一次每日总结——一天下来仅这一个 Agent 的输入 token 就接近 10 万。

而 always-on 这一段,在 2026 年消费端 Agent 应用里才刚刚开始。市场上现有的产品绝大多数还停留在 on-demand 形态。真正的 token 乘数,还在前面。

四、不是所有 Agent 一样赚钱

如果说消费端的乘数主要来自 always-on 形态,企业端的乘数则要受工作流性质的牵制。这是报告最有 nuance 的一段。

报告搭了三个模拟 Agent,把每天 token 消耗量、API 成本、对应人力成本三者放在一起——

打开网易新闻 查看精彩图片

编程 Agent / 客服 Agent / 数据录入 Agent 与人力成本的对照(Source: GS Global Investment Research)

  • 编程 Agent:约 700 万 token / 天,API 成本 13 美元 / 天;人类初级工程师 300 美元 / 天 → 极有经济效益
  • 客服 Agent:约 200 万 token / 天,API 成本 92 美元 / 天;人类客服 90 美元 / 天 → 几乎打平
  • 数据录入 Agent:约 2,500 万 token / 天,API 成本 60 美元 / 天;人类 80 美元 / 天 → 有经济效益但不夸张

注意第二行——客服 Agent 的 token 消耗其实最低(200 万),但 API 成本反而最贵(92 美元)。原因是它需要实时语音处理、低延迟、多模态——这些把每 token 单价抬高了。

这个对比给出一个很重要的颗粒度:Agent 的经济性不取决于 token 体量,而取决于工作流性质。文本密集的 Agent(编程、写作、分析)token 多但单价低,先进入 ROI 区间;多模态密集的 Agent(语音客服、视频审核)token 不多但单价高,进入 ROI 区间慢。

这意味着 Agent 在企业内的渗透不会均匀展开——它会沿着工作流的"文本化程度"梯度,从软件研发先开始,再到数据录入、文档处理、合规、市场分析——再到需要语音和视频的部分。

五、定价单位的迁移——这是软件 TAM 真正被掀开的地方

整份报告里最有长期价值的一条洞察。

过去 20 年的 SaaS 商业模式,核心是按"座位"(seats)定价——一家公司一年付多少给 Salesforce / Workday / Office 365,本质是用员工数乘以单价。这套模式有一个天花板:人头数有上限。即使把每个员工都装上软件,也就这么多。

Agentic AI 把这个天花板掀开。未来的软件不再按座位卖,而是按"工作单元"卖——按完成的任务数、按提升的产出、按代理替代的人力工时。

报告引用 Avenir 的一项调研:企业愿意为一个通用智能 Agent 支付每年 2,400 美元——作为对照,Microsoft 365 E5 套餐目前 ARPU 约 680 美元 / 年。Agent 的潜在单价是 SaaS 当前单价的 3.5 倍。专业场景的 Agent 单价更高(编程类 ARPU 已是普通 SaaS 的 25 倍)。

报告把这件事讲得非常干净——

"如果交付一个自动化工作流的成本在下降,但完成这件工作的价值仍然挂钩于人力替代或生产率提升,那么软件公司可以把'AI 交付成本下降'与'被自动化任务的更大价值'之间的差额据为己有。"

软件 TAM 不是停滞——它在被一层全新的 Agent TAM 叠加。

六、饼变大了

报告中段对"Agent 替代人力"这个直觉做了一次修正。

直觉的逻辑是:Agent 单位成本一旦低于人工,企业就会百分百替换掉人力。

报告说,这套直觉忽略了一件事——人力短缺正在压制大量真实需求。任何打过客服电话、被晾在那里 30 分钟才接通、最后挂掉电话的人都知道:那条等待队列里有大量没被满足的服务。Wait time 不是零,hang-up rate 不是零——这些都是被人力供给约束压抑掉的、本应存在的服务。

如果 AI Agent 能把单位成本降下来、同时把容量打开,那么企业不会简单地"换一半人保留一半成本",而是会把节省下来的预算用来服务那些被压抑的需求。结果不是替代,而是扩展——

"企业会变得更有效率,更多的服务被提供,人类劳动会进化而不是被替代。"

报告引用了一个真实案例:Navan(一家做企业差旅与费用管理的公司)已经实现 AI 客服 50% 以上的自动应答率,且客户满意度高。AI 处理大部分基本问询,人类客服现在专注在更复杂、更需要判断力的环节上。总服务量上升、总成本下降、人均处理价值提升——这三件事同时发生。

把这件事推广到知识工作的所有领域,结论就更耐人寻味了:饼变大了。被自动化的,是过去因为成本太高而无法做的部分;被保留下来的人力,反而被推向更高价值的环节。AI 对劳动力市场的冲击曲线,不是一根从就业总量下降的线,而是一个职业结构重组的过程。

七、报告没讲的那部分——中国侧

整份报告通读下来,有一件事值得专门提一下:它从头到尾没有提到中国。

DeepSeek、阿里 Qwen、字节 Doubao、月之暗面 Kimi、腾讯混元、华为昇腾、寒武纪——一个名字都没有。这是高盛美股 TMT 团队的研究范围决定的,无可厚非;但对中国的读者来说,把这个缺口补上、放回到这份报告的框架里去看,其实有几条值得记下来的观察。

第一,中国开源模型,本身就是这份报告"token 价格止跌"论断的最大外部变量。

报告在拐点这件事上的核心假设,是 token 价格在 2025 年中开始横住、2026 年初甚至小幅回升。但回头看 2024 年底到 2025 年那一波价格暴跌的真正驱动力,相当一部分来自中国——DeepSeek V3、R1 在 2024 年末连续发布,Qwen 系列、Doubao、Kimi K2 把性能/价格曲线往下压了一个台阶。美国闭源模型的提价空间,本质上是被中国开源模型的成本水平封顶的。

如果未来一两年中国开源模型继续推进——尤其是 Agent 专用、长上下文专用、推理优化方向——那么报告里那个"价格企稳"的假设可能站不住。剪刀差能不能维持,很大程度上取决于中国开源生态的下一步。这是 GS 报告里完全没讨论、但对结论影响最大的变量。

第二,飞轮机制对中国适用,但软件 TAM 的天花板更低。

报告第五节那个"从座位卖到工作单元卖"的论点,对中国而言要打个折扣。原因不是 Agent 的技术力打折,而是中国 SaaS 的座位单价本来就远低于美国——飞书、钉钉、企业微信的 ARPU 大约是 Microsoft 365 的几分之一甚至十几分之一。同样 3.5 倍的 Agent 单价乘数放在更低的基数上,绝对值的扩张空间没有美股那么夸张。

这意味着中国的软件公司从 Agent 化里能挣到的钱会少于美国对标——但同时,中国企业花在 Agent 上的总预算占 IT 支出的比例可能更高,因为人力替代的边际效益更敏感。两者拉锯之后,软件公司能拿到多少,还是要看产品力和定价权。

第三,always-on Agent 在中国可能比美国跑得更快——因为超级 App 是天然的平台。

报告把 always-on Agent 描述成消费端真正的乘数。这件事在中国有一个被低估的优势:微信、抖音、支付宝、淘宝——这些超级 App 本身就是 always-on 的入口,用户不需要装一个新的代理程序,代理可以直接嵌进现有的日常使用面里。美国那一头的代理生态分裂在 Google、Apple、OpenAI、Anthropic、Meta 之间,要让 always-on 跑起来需要把这些壁垒打通,不容易。

中国的瓶颈不在分发,在数据合规与跨平台互操作——以及监管对"AI 持续监听用户行为"这件事的态度。这些是组织层面的问题,不在技术上。

第四,互相促进还是分化?

把美国和中国的两条链条放到同一张图上看,在 token 这个底层经济单位上是互相促进的——开源模型逼闭源模型把价格做出价值,闭源模型的质量天花板逼开源模型继续追;硬件这一头英伟达、AMD、华为、寒武纪也在四方博弈里把每 token 的成本继续打下去。

但在应用层和数据层上,分化可能比融合更明显。监管、数据本地化、芯片管制、Agent 的合规边界——这些都在把"全球统一的 AI 经济"切成两个相对独立的子系统。GS 报告说的这台飞轮,最终可能在两个市场各转各的——只是对中国的读者来说,看美国的转法,是为了校准对自己这一台的期望。

八、结尾

把这份报告的论证结构归纳一下——

价格曲线和算力成本曲线交叉,给出利润率拐点的物理基础;自我强化的飞轮,把"用得越多越亏"翻成"用得越多越赚";always-on 形态,是消费端真正的乘数;企业端的 ROI 沿工作流的"文本化程度"分层展开;定价单位从座位迁到工作单元,掀开软件 TAM 的天花板;最后,饼变大了,被服务的总量在扩张。

五件事任何一件单独看,都是市场上能听到的零散观点。把它们放在同一个框架下连起来读,Agentic AI 不是"另一个 SaaS 周期"——它是经济学结构本身在迁移的过程。

报告自己也列了三条最大的尾部风险:token 价格如果再下一个台阶,剪刀差会反向;企业端 Agent 普及如果出一两次标志性的出错事件,采纳曲线会被推迟好几年;always-on Agent 如果引发隐私/信任反弹,乘数效应缩水。

至于这次范式切换最终走多远、用多久走完——报告做了一个有意思的对照:用 1800 年到 2000 年间 101 项技术、161 个国家的历史采纳数据看,中位数技术从发明到普及峰值用了 29 年——

打开网易新闻 查看精彩图片

不同技术从发明到普及峰值所用年数(深蓝柱);浅蓝线为均值约 48 年,灰线为中位数约 29 年(Source: GS Global Investment Research / Comin and Hobijn)

最左侧那几根 100 年以上的高柱是邮政、铁路客运、固定电话——这些靠物理基建铺开的技术,扩散非常缓慢;最右侧那一组只用十几二十年就到顶的,是腹腔镜手术、冠脉支架、信用卡支付、ATM——这些是嵌进既有基础设施的"软"技术,扩散非常快。

Agent 这件事的扩散更接近右半边那一类——它不需要新铺光纤,不需要新建电网,不需要新发硬件给最终用户。它寄生在已经渗透到位的智能手机、PC、云计算之上,理论上可以用很短的时间走完曲线。互联网本身用了 75 年才到 75% 渗透——但那是因为它是"新铺线"。Agent 应该比互联网快得多,但也未必比图里最右那几根 10 年期的快。