AI正在加速转向Agentic AI。在智能体经济时代,大多数过往为人熟悉的模式都将改写,因为它们不是基于智能体原生的。
我们正在经历从人类原生的商业模式,转向智能体原生的商业模式。DeepSeek-V4犀利地抓住了这一点,并且联合中国的算力厂商,推动智能体经济。
DeepSeek大幅降低缓存命中输入的API价格,微软支持的GitHub Copilot宣布将订阅模式转向收费模式,以及以订阅模式为主要收入的OpenAI再次传出财务危机,都指向了智能体经济时代的这一必然趋势。
目前,DeepSeek-V4-Pro缓存命中输入的API价格,为$0.003625/百万tokens,即$3.6/ 十亿 tokens,已经戳中了大量开发者的心窝。这是符合智能体时代的token经济学的。
过去两年,围绕大模型商业模式的讨论,常常被压缩成一个看似简单的问题:每百万 token究竟多少钱。但是,在Agentic AI时代,随着KV缓存机制进入主流计费体系,token需要被更精细地拆分与考量。已经有不少用户,在社交媒体平台X上晒出自己的使用记录,KV缓存命中率已经接近95%。
(一位用户的token使用量)
这与今年DeepSeek有关“DualPath”推理系统的论文相互印证。当时,DeepSeek就提出,Agentic AI最鲜明的特征之一,就在于智能体进入多轮交互范式,上下文长度随着轮次迅速膨胀,新增需要计算的token却极少;然而,每一轮推理,模型几乎都在重复加载已经计算过的上下文。
2026/02/27 完整阅读 >
这就是智能体所指向的新的token经济学。开发者会越来越考虑,占比最大的那块成本,是否最快地被压了下来。这与2年前DeepSeek-V2掀起的价格战完全不同。
智能体的价值在于解决具体的高价值的任务。一方面,它的token价值对应任务的价值,以及模型完成任务的可能性与可靠性。Anthropic的Claude及其harness,主攻这一条路线,用更强大的模型,更多轮次的规划、执行、测试、返工和重新生成,去完成软件、金融或法律等高经济价值的任务。
2026/03/31 完整阅读 >
但另一方面,这样的智能体经济也必须具备更广泛的经济性。模型层的钱,不能都被英伟达赚了去,而应用层的钱,也不能都被模型赚了去。Anthropic目前的做法是定价分层。上下文越长,KV缓存也就越大,于是,Anthropic甚至直接把200K以上单独做成一档收费,价格翻倍。应用层则苦不堪言,但如果不用,就会逐步被AI吃掉。
如果能降低KV缓存的成本,就能大幅提升Agentic AI的经济性。毕竟,即使在美国,也绝非所有企业的任务,都非Claude不可。
1个月前,云厂商Cloudflare在其博客中为Workers AI支持Kimi-K2.5时,就指出过,随着个人智能体和编码智能体的兴起,成本已从次要问题上升为规模扩展的主要障碍。该团队内部实验性部署了中国开源模型,评估后发现,相比原有方案,推理成本足足降低了77%;它们也在通过提高前缀缓存命中率进一步压缩成本。
这种“缓存友好”的设计,正在被全球云厂商验证为降本的关键路径。这次,英伟达投资的新兴AI云企业Fireworks AI,花了整整2天时间部署DeepSeek-V4。部署完成后,他们评价道:与其说DeepSeek-V4是一次针对基准测试的常规升级,不如说是向“在大规模部署下实现可靠推理”这一约束的转变。
某种程度上,Anthopic的高经济价值任务驱动的高单位token价格的AI叙事,是与英伟达等硬件厂商的AI叙事高度绑定,自我强化的。庞大的基础设施建设投入需要更快更高的回收成本;而更激烈的算力竞争又使其相对忽视了压榨算力硬件的优先级。
而对于走AI普惠路线的大模型厂商而言,降价与增收并不矛盾,关键在于需求的价格弹性;当然,DeepSeek仍然是一家缺乏商业化压力的开源模型厂商,推动中国本土算力生态协同的图谋也更为宏大。
也有部分用户,对DeepSeek-V4降低API价格的举动并不买账,认为它仍然高于不少模型厂商的订阅模型。这是正确的,如果订阅模式比API还要贵,那么它就没有存在的价值。事实上,DeepSeek也提供了0订阅费的官方服务,它可以“随意”降速,或者干脆停摆。
但这种“静态”的正确,不会一直持续下去。AI服务的订阅模式,本质上是基于人类用户的服务。即使是在智能体尚未崛起的时候,这也是相当脆弱的商业模式。它预设了有大量用户其实无法用满额度,这支撑了少量重度拥堵的token需求。某些时候,黑箱式的“智能路由”也会起到节省token成本的效果;但付费用户显然会不满“降智”行为。
如今,Anthropic深陷算力不足困境,而OpenAI创始人奥特曼也曾公开承认,即使是ChatGPT Pro订阅,也处于亏损状态。后者不得不想方设法,让这些用户多看点广告,顺便为用户推荐更多电商下单。
而随着AI进入Agentic AI时代,token经济学的适用主体,正在迅速地从人类转向智能体。订阅模式这套人类原生的商业模式,正在遭遇更大的成本压力,也似乎变得无解。商业模式需要为智能体而重新设计。用人类偶尔使用的习惯去衡量智能体持续运行的成本,本身就是一种错配。一旦开发者真正跑起生产级的智能体任务,订阅套餐的真实成本往往会被击穿,模型厂商反而要承但比按量付费更高的成本。
事实上,警钟早已响起。在OpenClaw兴起之初,Anthropic就选择了封禁;月初,Anthropic正式宣布禁止了第三方智能体框架通过其消费者订阅路由API调用。
更大的危机在于,就在今天,媒体爆料称,OpenAI首席财务官Sarah Friar已经开始担心,未来可能难以支付巨额的算力合同费用。相比Anthropic,OpenAI的收入重心更多地集中在人类原生的订阅模式。
同样,今天,GitHub Copilot也打响了第一枪,宣布从6月1日起全面转向按量计费。现有的Premium Request,将过渡到一种名为"GitHub AI积分"的模式。积分消耗的速度,取决于开发人员选择的模型,以及每次对话所处理的token的数量。这本质上就是基于API的调用付费。只不过仅仅保留着订阅模式的“外壳”。
GitHub的产品负责人将这一转变归因于结构性因素。Copilot已经从"编辑器内的助手演变为一个智能体平台"。为聊天时代设计的计费单位,已无法代表Copilot当前的使用成本。
即使是微软这样财大气粗的科技巨头,也终于决定开始削减AI相关成本,证明这些成本事实上已经让企业感到了难以承受之重。目前,OpenAI推出了每月100美元的订阅层级,Cursor从固定配额转向了按模型和任务复杂度加权的积分池,智谱的Coding Plan需要排队购买,也取消了无限额老套餐的自动续订,这些都是面对这一问题的折衷方案。一旦智能体的主体性在token经济中持续提升,它们大概率也将取缔人类原生的商业模式。
未来,模型设计与商业模式设计,需要更紧密地协同优化。在智能体时代,每家厂商都要重新探索,最适合自己的token经济学;而这一切,很可能将不再以人类为中心。
热门跟贴