2026年,AI行业的账单终于来了。不是模型训练成本,是推理成本——每生成一个token,真金白银往外流。
「intelligence-per-token」,这个词最近在硅谷圈子里传开了。翻译成人话:每花1美元,模型能给你多少有用的输出。听起来很无趣?这就是关键。前几年大家追着跑分刷榜,现在实验室们被逼着回答一个更扎心的问题:你造出来的东西,经济上能持续运营吗?
Google的解法:把压缩算法塞进注意力层
Google给出的答案是TurboQuant。这是个专门针对长上下文推理的压缩算法。
喂给模型10万token以上的提示词——正经的文档分析都得这么干——从来都是内存杀手。规模一上来,服务成本飙得飞快。
量化(quantization)本身不新鲜。把模型权重的数值精度降下来,省内存、省算力,行业标配了。Google这次的不同之处在于,TurboQuant直接把压缩怼进了注意力层(attention layer)——长上下文处理时内存暴涨的罪魁祸首。
这是定点爆破,不是大面积拆迁。
他们宣称的边际收益能不能在生产环境兑现,另说。但方向上,至少打在了正确的靶子上。
Sora的撤退:每天1500万美元烧不动了
更难看的剧本是Sora。OpenAI在2026年3月 reportedly 下线了这个视频生成工具,日烧算力成本约1500万美元,收入根本盖不住。
一个带着真·兴奋感上线的产品,落到这个数,很难撑。
视频生成天生比文本贵。每秒钟输出都要在推理阶段吃掉大量算力,文本模型那套降本增效的玩法,搬到视频上水土不服。你能压缩,能蒸馏,但说到底,生成几秒画面还是要搬动天量数据。
Sora的退出让整个视频生成赛道都坐不住。Runway、Pika这些同行在观望。有个问题没人敢大声问:按现在的算力成本,消费级视频生成到底算不算得过来账?还是说只能赌有人愿意先亏几年,等硬件追上来?
两条路,同一个压力源
TurboQuant和Sora关停,是同一道压力题的两个解法。一个赌更聪明的压缩能让贵模型变得起。另一个证明,压缩不够用时,只能砍产品。
这会加速什么?投资流向更小、更专的模型——不是因为它们更惊艳,是因为跑得便宜、生意好做。
能力竞赛不会消失。但头一次,它要和另一个无聊得多的问题共享舞台:你服务得起吗?
热门跟贴