140万亿Token背后：谁在定义AI时代的"电价"？|token|推理|算法|计算量

中国国家数据局3月底公布了一个数字：中国日均Token调用量突破140万亿，两年增长超千倍。但支撑这个数字运转的定价系统，依然建立在两年前聊天机器人的假设之上——那个假设认为，用户的使用量可以被历史数据预测，轻度用户会自然覆盖重度用户，整体成本可以被摊平。

智能体（Agent，能自主完成任务的AI程序）正在打破这个假设的每一个前提。Anthropic最近停止允许订阅用户通过第三方工具接入Claude API，因为单个代理运行一天消耗的算力成本在1000到5000美元之间，而用户每月只付200美元。这不是订阅设计的漏洞，而是旧定价逻辑面对新使用模式的系统性失效。

Token消耗正在脱离任何可建模的轨道

要理解当前的混乱，需要先建立量级感。36氪报道，OpenAI API日均处理约21.6万亿Token，谷歌Gemini日均约43万亿，而中国的140万亿约为前两者之和的两倍有余。摩根大通预测，仅中国的AI推理Token消耗，五年内将再增370倍。

无问芯穹CEO夏立雪在行业论坛上描述这个增速时，提到了一个参照：3G时代手机流量从每月100MB开始普及的时候，上一次看到类似的曲线。当时没人预料到，流量放开之后会跑出抖音、微信和外卖。

但Token与流量有一个关键差异。流量是同质化的，1MB视频和1MB文字在计费层面没有区别。Token的价值却完全由使用场景决定。同样一百万个Token，用于闲聊市场价约0.01美元，用于代码生成可以值200美元，用于法律文件审查可能超过1000美元——价值差距达十万倍。

耶鲁大学研究者将这一特征描述为Token的"可合同化"属性：数量可以精确计量，但价值取决于它被编程去做什么。当整个行业用同一个价格逻辑去覆盖价值差距十万倍的使用场景时，系统性的定价混乱就不是偶然，而是必然。

更隐蔽的数字藏在公有云统计之外。金融机构在本地服务器跑票据识别，车端智能座舱的对话在车内闭环完成，工业机器人的视觉模型以毫秒级响应运行在边缘设备上——这些都不会出现在任何公开数据里。一位从业者估算，非公有云API的调用量至少是公有云的五到十倍。

三个窗口的开启与关闭

过去两年，Token市场的竞争优势经历了三次转移。每一个窗口的受益者，都在无意识中为下一个颠覆者铺路。

2025年初，算法是第一个窗口。DeepSeek V3发布后，混合专家架构（MoE，一种让模型只激活部分参数进行推理的技术）将同等能力的推理成本压低了一个数量级。模型内部包含多个专家子模块，每次推理只激活其中一小部分，在保留完整能力的同时大幅压缩实际计算量。

但算法窗口的悖论在于，打开它的那把钥匙，同时也是关上它的锁。DeepSeek选择了开源，将核心模型权重和架构设计公开。这个选择在短期内快速扩大市场份额，在中长期则主动压缩了算法领先的窗口期。当架构创新被开源，整个行业的Token成本基准被同步重置，算法优势也就从专有壁垒变成了公共基础设施。

同年底，规模成为第二个窗口。火山引擎将互联网流量战的打法平移过来，用大规模机场广告宣告自己在Token市场的存在。字节跳动旗下火山引擎总裁谭待在4月2日的业务进展分享中提到，两年之内，火山引擎的Token调用量增长了1000倍，万亿级Token消耗企业增至140家。

但谭待在接受《第一财经》采访时也坦承，大规模调用量中包含了大量无效算力。他以解数学题为例：枚举法计算量大，模型能力不足就会采用类似方式，造成无谓消耗；更优秀的模型能找到简洁解法，优化空间很大。规模数字的背面，是大量本可以避免的算力浪费。

当竞争从"消耗了多少"转向"每个Token创造了多少价值"时，规模窗口就开始关闭。

场景争夺：阿里字节的"围猎"与智谱MiniMax的处境

场景，是当前Token竞争最激烈的地方。智谱、MiniMax等独立大模型公司，正面临阿里、字节等云厂商的正面挤压。

这场"围猎"的本质是定价权的争夺。云厂商拥有三重优势：一是算力基础设施的自建能力，可以将Token成本压到独立公司难以企及的低位；二是现有客户群的交叉销售，企业客户已经在使用云服务，切换到大模型API的摩擦成本极低；三是流量分发能力，可以将模型能力嵌入已有的产品矩阵。

但独立模型公司并非没有还手之力。它们的壁垒在于垂直场景的深度优化——针对金融、法律、医疗等特定领域的模型微调，以及与客户业务流程的紧密耦合。这种深度需要时间积累，短期内难以被大平台的分发能力碾压。

真正的危险在于定价逻辑的错位。当云厂商用"亏本换市场"的互联网打法进入Token市场时，独立公司被迫在两条路之间选择：要么跟进降价，牺牲利润空间换取市场份额；要么坚守价值定价，但面临客户流失的风险。

这不是简单的价格战。Token经济的特殊性在于，它的成本结构高度动态。模型能力每提升一代，推理成本曲线就会重构；新的推理模式（如深度思考）出现，单次调用的Token消耗量可能暴涨数十倍。在这种环境下，静态的定价策略本身就是风险。

Token的真正成本藏在哪

黄仁勋今年3月在一篇署名文章里把AI产业拆成五层：能源、芯片、基础设施、模型、应用，并将Token定义为现代AI的基本单位，也是AI的语言和货币。这个定义同时指向Token的两种属性：作为语言，它是计算过程的原子；作为货币，它是价值流通的媒介。

但生产一个Token的代价，远比这个定义看起来复杂。据Sam Altman和Epoch AI披露，ChatGPT发送一条文本提示大约消耗0.3瓦时。谷歌搜索的耗电量（0.03瓦时）仅为其一小部分。谷歌2025年也曾披露，Gemini发送一条典型的文本提示大约消耗0.24瓦时，并产生约0.03克二氧化碳。

随着模型复杂度增加，推理成本急剧上升。GPT-5级别的系统每次查询可能消耗约18瓦时，而进行扩展推理时则可能消耗高达40瓦时。差距来自两个地方：一是模型大小，参数越多，生成每个Token所需的计算量越大；二是推理模式，新一代模型在输出每个可见Token之前，会在内部进行大量隐式推演。

用户看到一个字，模型内部可能已经"想"了上百步。单个可见Token的真实成本，被这个思考过程成倍放大。

这是Token与电力、石油这类生产要素的根本区别。Token的价值并不由生产成本决定，而完全由使用场景决定。所谓平均Token价格，就像用平均客单价来描述一个既有路边摊又有米其林餐厅的商圈——即便数字正确，也毫无意义。

Collis和Brynjolfsson在2025年的估算显示，生成式AI在2024年仅为美国消费者创造的消费者剩余就高达约970亿美元，用户实际获得的价值远超过他们支付的金额。这个数字的绝大部分，集中在高价值应用场景。

Anthropic的体系化尝试

纵观过去两年Token市场的演化，每一个优势窗口的终结，都由同一个逻辑驱动：当竞争者能够复制优势——规模可以被追赶，算法可以被开源，场景可以被大平台的分发能力碾压。

目前唯一难以被快速复制的，是将Token效率内化为产品架构、定价逻辑和工程文化的能力。而在这件事上真正做到体系化的，只有Anthropic。

Claude Code负责人Boris Cherny在声明里说，订阅服务"并非为这些第三方工具的使用模式而设计"。这句话的潜台词是：Anthropic正在尝试一种不同的定价逻辑——不是基于使用量预测，而是基于使用模式的明确边界。

这种体系化的核心，是把Token效率从成本中心转化为产品特性。Claude的"扩展思考"模式、Artifacts的交互设计、Projects的上下文管理，本质上都是在优化特定场景下的Token使用效率。用户为这种效率付费，而不是为原始的Token数量付费。

这指向Token经济的终极问题：当可编程性让同一个生产要素的价值波动十万倍时，定价权应该交给谁？是拥有算力基础设施的云厂商，是掌握模型能力的AI公司，还是定义使用场景的最终用户？

140万亿日均调用量背后，真正的博弈才刚刚开始。