微软这周砍掉了内部Claude Code的授权。Uber四个月烧光了2026年全年的AI预算。GitHub正在全线取消固定费率套餐。

三件事凑在一起,不是巧合。有人把这包装成"AI补贴时代结束",说得好像各大厂之前把AI功能塞进每个产品层级,是在做慈善。真相更直白:他们赌推理成本会持续暴跌,赌输了。

打开网易新闻 查看精彩图片

成本曲线正在往反方向弯曲,实验室别无选择,只能涨价。

集体失忆了吗?二阶思维呢?

每一代新模型token成本理论上确实在降,有时能降10倍——但那是同等质量下的比较。很多人拿这个做外推,整套商业模式都建在外推上。这根本不是正确的思考方式。

搞道路规划的人都知道"诱发需求"。每新增一种能力,就会创造出新的需求。高速公路是教科书案例:加一条车道,就会出现新的通勤路线——这些通勤在车道出现之前根本不存在。AI一模一样。推理变便宜不会减少账单,只会让人往模型里塞更多任务。

现在我的推理查询要跑4分钟以上,以前只要2分钟。智能体工作流会发起50次调用,旧工作流只发1次。单位成本下降,调用量爆炸,总支出照样往上窜。

任何卖固定费率"AI助手"的人,都假设用户行为不会变。变了。从来都是。

打开网易新闻 查看精彩图片

第二个问题是供给侧不再配合——内存和GPU的经济学正在跟你作对。

内存贵了4倍。GPU贵了95%以上。

前沿训练和推理跑在英伟达加速器配高带宽内存(HBM)的组合上。瓶颈不再是晶体管,是HBM和把它焊到计算 die 上的先进封装。

这个瓶颈深到只有一家工厂。台积电的CoWoS封装线是加速器供应的咽喉。SK海力士垄断HBM,三星落后,美光更落后。谁都没法一夜之间扩产能。这些至少是18到36个月的承诺,而它们的规划基于一个把需求低估了一个数量级的世界。

所以GPU定价就是稀缺定价的样子。今天顶级加速器在同等集群规模下,比上一代贵大概2倍。HBM价格18个月翻了4倍。电力和冷却现在成了真正的约束条件——在那些以前根本不用建模电力的地方。这就是为什么每个超大规模云厂商现在都有一个"我们在建千兆瓦园区"的故事,加一个核电购电协议的新闻稿。

Anthropic的CFO今年3月在证词里宣誓,公司花了100亿美元买算力,收入50亿美元。实验室在推理上是在贴钱运营。涨价是为了活下去。

那些卖固定费率"AI无处不在"产品的公司,现在