“亲爱的数据”观察到,
模型之间已经出现“架构哲学差异”。
证据包括,token usage情况差距极大,
成本差距极大。
简单说,
Input Cost
是读题理解费,
比如,用户 prompt,系统提示词,上下文历史,工具返回内容。
Reasoning Cost
是推理思考费,不是“模型脑子内部真正想了多少”,
而是,被计费的reasoning token数量。
有些公司把“reasoning token”单独定价,
而且更贵。
为什么?它是把高级思考能力单独当作商品来卖。
也就是说,某些模型定价逻辑变成多思考,多付钱。
思考本身成为盈利点。
Output Cost
是生成结果费,最终输出的计费成本。
也就是说,看上去,token成本结构,
会变成比Benchmark分数更重要的指标。
光比Benchmark分数衡量方法太单一了,
刷分玩法该落幕了。
而且,这两张图真正的深层洞察不是“谁贵谁便宜?
Claude 4.6是单个token推理成本极高的模型,
Google推理成本碾压 Anthropic吗?
未必,
如果Claude 得分更高,
那贵未必不合理。
只能说,
Gemini 在相似token使用量下,
成本结构更激进(更便宜)。
Claude可能在用这样一种策略:
把高阶推理当premium产品卖。
核心观察:
早期模型差距是:谁参数大,谁数据多,
而当下,模型之间已经不是简单大小差异,
谁靠推理展开赢,
谁靠推理压缩赢,
谁靠算力堆赢。
当下看来,算是一种计算哲学的分化。
更进一步,这背后可能对应训练策略差异化。
观察细节一:
有的模型打法是为了拿高分“靠堆推理 token”。
也就是说:推理写得特别长,
思考链极度展开,
算是“用过程算力换效果”的策略。
观察细节二:
有的模型打法不是靠爆量token,
而是,用相对可控的推理长度,达到不错表现。
这类模型更倾向“商业化部署”的思路。
观察细节三:
有模型是在极低输出token下跑完整个Index。
这通常是说,推理更压缩,
不写长思考链(CoT),
或内部推理但不外显;
这是另一种技术路线:
不堆 token,而是提高单 token 信息密度。
观察细节四:
适用于Agent模型有哪些特点?
Token中等(够想)、成本低廉(够跑)、
性能及格但不差(够对)、输出成本低(够动)
热门跟贴