打开网易新闻 查看精彩图片

大模型的“免费午餐”,终究还是到了要算账的时刻。

4月8日凌晨,DeepSeek在客户端与网页版悄然上线了“快速模式(Fast)”与“专家模式(Expert)”两个入口,同时小范围灰度测试“视觉模式”。在许多围观者看来,这或许是为即将发布的新一代V4模型做预热。

如果将视线拉宽,看看几天前刚刚在年化收入上反超OpenAI的Anthropic,也出人意料地宣布封杀第三方自动化工具,你就会发现事情远没有“发新模型”那么简单。

当“Token消耗量”曾被各大厂视为KPI疯狂内卷时,巨头们却在此时默契地踩下刹车。这绝不仅是产品层面的微调,而是整个AI行业正在经历一场极其残酷的底层逻辑大洗牌。

被“算力饥渴”逼出的物理极限

被“算力饥渴”逼出的物理极限

抛开外界对新模型的狂热猜测,DeepSeek此次分层设计的核心逻辑非常现实:用算力分流来“保命”。

打开网易新闻 查看精彩图片

明确的功能分工背后,是一套“按需调用”的调度机制——将日常对话交给低成本路径处理,仅在处理复杂推理时启用高算力的专家模式。这种对算力的精打细算,是被逼出来的。

免费模式曾经是大模型跑马圈地的最强引擎,如今却成了引爆系统危机的加速器。在需求端指数级膨胀的今天,供给端却受限于芯片出口管制与高昂的硬件成本,根本无法同步扩容。

据统计,2026年开年以来,DeepSeek已遭遇至少7次大规模服务中断,其中3月29日至30日的全局崩溃更是长达12个小时。在这种常态化的容量窘境下,分层设计不仅是为了减少无效Token消耗、缓解峰值压力,更是为后续不可避免的限流与付费体系铺设台阶。

不久前OpenAI下线Sora以聚焦核心服务,同样印证了这个残酷的现实:需求增速,已经远远击穿了基础设施的物理极限。

从粗放烧钱到工程自律

从粗放烧钱到工程自律

这种由Token膨胀带来的算力焦虑,早已在全球头部AI企业中蔓延,并促使他们对低效的资源消耗痛下杀手。

4月5日,Anthropic正式宣布其Claude订阅服务将不再覆盖包括“龙虾”在内的第三方集成工具。这项决定的背后,是一笔不堪重负的经济账:原本基于个人正常使用强度设计的200美元订阅制,在各类自动化代理工具的狂轰滥炸下彻底失效,重度用户甚至能单月消耗掉价值5000美元的算力资源。

打开网易新闻 查看精彩图片

前DeepSeek核心成员、小米AI负责人罗福莉敏锐地指出了这一现象的本质,当前全球算力的供给速度,已经被Agent创造的Token需求增速远远甩在身后。截至今年3月,中国AI大模型日均Token调用量突破140万亿大关,较2024年初暴涨超千倍。这已经不是简单的供需缺口,而是一个足以拖垮整个生态的成本“天坑”。

令人侧目的是,尽管Anthropic在4月7日宣布其年化收入(ARR)仅用三个多月就实现了233%的爆发式增长,达到300亿美元并正式反超OpenAI,但这家风头正劲的公司依然在锱铢必较地算账。

封杀第三方工具,正是为了让效率低下的成本真实可见,从而倒逼整个开发者生态走向“工程自律”:去认真改进上下文管理、最大化缓存命中率,而不是一味依赖底层算力的无序堆砌。

AI回归“重资产”商业本质

AI回归“重资产”商业本质

当算力供需矛盾叠加宏观层面的制约,整个AI赛道正在经历一场深刻的范式切换。房间里的大象已经无法被忽视:除了昂贵的算力芯片,电力危机也在持续施压。

当前AI算力耗电占全社会用电量增速的高达46%,远超整体6.1%的社会用电增长水平,电力弹性的不足已经成为大模型发展不可逾越的硬约束。在这种背景下,涨价与成本转嫁成为心照不宣的行业共识。

此前阿里云与腾讯云已启动最高达34%的算力涨价,实质上抹平了价格战时期的优惠;而在4月8日,智谱在发布旗舰开源模型GLM-5.1之际,也再度提价10%。如果说过去两年行业的关键词是“规模”与“速度”,那么如今的绝对核心已经变成了“成本”。

行业开始出现明显转向:当AI开始赚钱,第一步不是赚得更多,而是少亏一点。无论是像OpenAI那样激进迭代、用融资换空间,还是如Anthropic一般克制深耕、死磕工程优化,所有玩家都必须回答商业化造血的现实问题。

对于终端用户而言,这也意味着慷慨的免费时代正在落幕。为了控制成本,企业会逐步收紧免费额度,模型回复也会变得更克制、更精简,因为每一个被省下的Token,都是被重新分配的真金白银。