狂烧140万亿Token后，大模型终于认清现实：先活下来，再谈信仰|token|信仰|大模型|疯狂|算力

大模型的“免费午餐”，终究还是到了要算账的时刻。

4月8日凌晨，DeepSeek在客户端与网页版悄然上线了“快速模式（Fast）”与“专家模式（Expert）”两个入口，同时小范围灰度测试“视觉模式”。在许多围观者看来，这或许是为即将发布的新一代V4模型做预热。

如果将视线拉宽，看看几天前刚刚在年化收入上反超OpenAI的Anthropic，也出人意料地宣布封杀第三方自动化工具，你就会发现事情远没有“发新模型”那么简单。

当“Token消耗量”曾被各大厂视为KPI疯狂内卷时，巨头们却在此时默契地踩下刹车。这绝不仅是产品层面的微调，而是整个AI行业正在经历一场极其残酷的底层逻辑大洗牌。

被“算力饥渴”逼出的物理极限

抛开外界对新模型的狂热猜测，DeepSeek此次分层设计的核心逻辑非常现实：用算力分流来“保命”。

明确的功能分工背后，是一套“按需调用”的调度机制——将日常对话交给低成本路径处理，仅在处理复杂推理时启用高算力的专家模式。这种对算力的精打细算，是被逼出来的。

免费模式曾经是大模型跑马圈地的最强引擎，如今却成了引爆系统危机的加速器。在需求端指数级膨胀的今天，供给端却受限于芯片出口管制与高昂的硬件成本，根本无法同步扩容。

据统计，2026年开年以来，DeepSeek已遭遇至少7次大规模服务中断，其中3月29日至30日的全局崩溃更是长达12个小时。在这种常态化的容量窘境下，分层设计不仅是为了减少无效Token消耗、缓解峰值压力，更是为后续不可避免的限流与付费体系铺设台阶。

不久前OpenAI下线Sora以聚焦核心服务，同样印证了这个残酷的现实：需求增速，已经远远击穿了基础设施的物理极限。

从粗放烧钱到工程自律

这种由Token膨胀带来的算力焦虑，早已在全球头部AI企业中蔓延，并促使他们对低效的资源消耗痛下杀手。

4月5日，Anthropic正式宣布其Claude订阅服务将不再覆盖包括“龙虾”在内的第三方集成工具。这项决定的背后，是一笔不堪重负的经济账：原本基于个人正常使用强度设计的200美元订阅制，在各类自动化代理工具的狂轰滥炸下彻底失效，重度用户甚至能单月消耗掉价值5000美元的算力资源。

前DeepSeek核心成员、小米AI负责人罗福莉敏锐地指出了这一现象的本质，当前全球算力的供给速度，已经被Agent创造的Token需求增速远远甩在身后。截至今年3月，中国AI大模型日均Token调用量突破140万亿大关，较2024年初暴涨超千倍。这已经不是简单的供需缺口，而是一个足以拖垮整个生态的成本“天坑”。

令人侧目的是，尽管Anthropic在4月7日宣布其年化收入（ARR）仅用三个多月就实现了233%的爆发式增长，达到300亿美元并正式反超OpenAI，但这家风头正劲的公司依然在锱铢必较地算账。

封杀第三方工具，正是为了让效率低下的成本真实可见，从而倒逼整个开发者生态走向“工程自律”：去认真改进上下文管理、最大化缓存命中率，而不是一味依赖底层算力的无序堆砌。