中国国家数据局3月底公布了一个数字:中国日均Token调用量突破140万亿,两年增长超千倍。但支撑这个数字运转的定价系统,依然建立在两年前聊天机器人的假设之上——那个假设认为,用户的使用量可以被历史数据预测,轻度用户会自然覆盖重度用户,整体成本可以被摊平。

智能体(Agent,能自主完成任务的AI程序)正在打破这个假设的每一个前提。Anthropic最近停止允许订阅用户通过第三方工具接入Claude API,因为单个代理运行一天消耗的算力成本在1000到5000美元之间,而用户每月只付200美元。这不是订阅设计的漏洞,而是旧定价逻辑面对新使用模式的系统性失效。

打开网易新闻 查看精彩图片

Token消耗正在脱离任何可建模的轨道

要理解当前的混乱,需要先建立量级感。36氪报道,OpenAI API日均处理约21.6万亿Token,谷歌Gemini日均约43万亿,而中国的140万亿约为前两者之和的两倍有余。摩根大通预测,仅中国的AI推理Token消耗,五年内将再增370倍。

无问芯穹CEO夏立雪在行业论坛上描述这个增速时,提到了一个参照:3G时代手机流量从每月100MB开始普及的时候,上一次看到类似的曲线。当时没人预料到,流量放开之后会跑出抖音、微信和外卖。

但Token与流量有一个关键差异。流量是同质化的,1MB视频和1MB文字在计费层面没有区别。Token的价值却完全由使用场景决定。同样一百万个Token,用于闲聊市场价约0.01美元,用于代码生成可以值200美元,用于法律文件审查可能超过1000美元——价值差距达十万倍。

耶鲁大学研究者将这一特征描述为Token的"可合同化"属性:数量可以精确计量,但价值取决于它被编程去做什么。当整个行业用同一个价格逻辑去覆盖价值差距十万倍的使用场景时,系统性的定价混乱就不是偶然,而是必然。

更隐蔽的数字藏在公有云统计之外。金融机构在本地服务器跑票据识别,车端智能座舱的对话在车内闭环完成,工业机器人的视觉模型以毫秒级响应运行在边缘设备上——这些都不会出现在任何公开数据里。一位从业者估算,非公有云API的调用量至少是公有云的五到十倍。

三个窗口的开启与关闭

过去两年,Token市场的竞争优势经历了三次转移。每一个窗口的受益者,都在无意识中为下一个颠覆者铺路。

2025年初,算法是第一个窗口。DeepSeek V3发布后,混合专家架构(MoE,一种让模型只激活部分参数进行推理的技术)将同等能力的推理成本压低了一个数量级。模型内部包含多个专家子模块,每次推理只激活其中一小部分,在保留完整能力的同时大幅压缩实际计算量。

算法窗口的悖论在于,打开它的那把钥匙,同时也是关上它的锁。DeepSeek选择了开源,将核心模型权重和架构设计公开。这个选择在短期内快速扩大市场份额,在中长期则主动压缩了算法领先的窗口期。当架构创新被开源,整个行业的Token成本基准被同步重置,算法优势也就从专有壁垒变成了公共基础设施。

同年底,规模成为第二个窗口。火山引擎将互联网流量战的打法平移过来,用大规模机场广告宣告自己在Token市场的存在。字节跳动旗下火山引擎总裁谭待在4月2日的业务进展分享中提到,两年之内,火山引擎的Token调用量增长了1000倍,万亿级Token消耗企业增至140家。

但谭待在接受《第一财经》采访时也坦承,大规模调用量中包含了大量无效算力。他以解数学题为例:枚举法计算量大,模型能力不足就会采用类似方式,造成无谓消耗;更优秀的模型能找到简洁解法,优化空间很大。规模数字的背面,是大量本可以避免的算力浪费。

当竞争从"消耗了多少"转向"每个Token创造了多少价值"时,规模窗口就开始关闭。

场景争夺:阿里字节的"围猎"与智谱MiniMax的处境

场景,是当前Token竞争最激烈的地方。智谱、MiniMax等独立大模型公司,正面临阿里、字节等云厂商的正面挤压。

这场"围猎"的本质是定价权的争夺。云厂商拥有三重优势:一是算力基础设施的自建能力,可以将Token成本压到独立公司难以企及的低位;二是现有客户群的交叉销售,企业客户已经在使用云服务,切换到大模型API的摩擦成本极低;三是流量分发能力,可以将模型能力嵌入已有的产品矩阵。

但独立模型公司并非没有还手之力。它们的壁垒在于垂直场景的深度优化——针对金融、法律、医疗等特定领域的模型微调,以及与客户业务流程的紧密耦合。这种深度需要时间积累,短期内难以被大平台的分发能力碾压。

真正的危险在于定价逻辑的错位。当云厂商用"亏本换市场"的互联网打法进入Token市场时,独立公司被迫在两条路之间选择:要么跟进降价,牺牲利润空间换取市场份额;要么坚守价值定价,但面临客户流失的风险。

这不是简单的价格战。Token经济的特殊性在于,它的成本结构高度动态。模型能力每提升一代,推理成本曲线就会重构;新的推理模式(如深度思考)出现,单次调用的Token消耗量可能暴涨数十倍。在这种环境下,静态的定价策略本身就是风险。

Token的真正成本藏在哪

黄仁勋今年3月在一篇署名文章里把AI产业拆成五层:能源、芯片、基础设施、模型、应用,并将Token定义为现代AI的基本单位,也是AI的语言和货币。这个定义同时指向Token的两种属性:作为语言,它是计算过程的原子;作为货币,它是价值流通的媒介。

但生产一个Token的代价,远比这个定义看起来复杂。据Sam Altman和Epoch AI披露,ChatGPT发送一条文本提示大约消耗0.3瓦时。谷歌搜索的耗电量(0.03瓦时)仅为其一小部分。谷歌2025年也曾披露,Gemini发送一条典型的文本提示大约消耗0.24瓦时,并产生约0.03克二氧化碳。

随着模型复杂度增加,推理成本急剧上升。GPT-5级别的系统每次查询可能消耗约18瓦时,而进行扩展推理时则可能消耗高达40瓦时。差距来自两个地方:一是模型大小,参数越多,生成每个Token所需的计算量越大;二是推理模式,新一代模型在输出每个可见Token之前,会在内部进行大量隐式推演。

用户看到一个字,模型内部可能已经"想"了上百步。单个可见Token的真实成本,被这个思考过程成倍放大。

这是Token与电力、石油这类生产要素的根本区别。Token的价值并不由生产成本决定,而完全由使用场景决定。所谓平均Token价格,就像用平均客单价来描述一个既有路边摊又有米其林餐厅的商圈——即便数字正确,也毫无意义。

Collis和Brynjolfsson在2025年的估算显示,生成式AI在2024年仅为美国消费者创造的消费者剩余就高达约970亿美元,用户实际获得的价值远超过他们支付的金额。这个数字的绝大部分,集中在高价值应用场景。

Anthropic的体系化尝试

纵观过去两年Token市场的演化,每一个优势窗口的终结,都由同一个逻辑驱动:当竞争者能够复制优势——规模可以被追赶,算法可以被开源,场景可以被大平台的分发能力碾压。

目前唯一难以被快速复制的,是将Token效率内化为产品架构、定价逻辑和工程文化的能力。而在这件事上真正做到体系化的,只有Anthropic。

Claude Code负责人Boris Cherny在声明里说,订阅服务"并非为这些第三方工具的使用模式而设计"。这句话的潜台词是:Anthropic正在尝试一种不同的定价逻辑——不是基于使用量预测,而是基于使用模式的明确边界。

这种体系化的核心,是把Token效率从成本中心转化为产品特性。Claude的"扩展思考"模式、Artifacts的交互设计、Projects的上下文管理,本质上都是在优化特定场景下的Token使用效率。用户为这种效率付费,而不是为原始的Token数量付费。

这指向Token经济的终极问题:当可编程性让同一个生产要素的价值波动十万倍时,定价权应该交给谁?是拥有算力基础设施的云厂商,是掌握模型能力的AI公司,还是定义使用场景的最终用户?

140万亿日均调用量背后,真正的博弈才刚刚开始。