去年有个数据在硅谷传疯了:某头部AI公司的推理成本里,token费用占比超过60%。但没人告诉你的是,为了省这笔钱,多少团队把模型"养残"了。
本文作者Pallav Kalal在OpenAI干了四年,专门啃这块硬骨头。他最近公开了一次翻车经历——本想给公司省点钱,结果把系统搞"傻"了。这不是个例,是行业通病。
从"堆料"到"缩骨":一个经典的技术债故事
Kalal当时在做检索增强生成(RAG)系统。这种架构的原理很简单:用户提问时,先从知识库搜一堆相关文档,塞进提示词(prompt)里让大模型(LLM)参考。文档越多,回答越准,但token消耗也越吓人。
他的做法很"标准": aggressive summarization(激进摘要)+ 截断长文本。成本确实下来了,降幅还很好看。但测试时团队发现,模型开始给出"自信的错误答案"——不是胡编乱造的幻觉,而是基于残缺信息做了一套漂亮推理。
「I hadn't optimized tokens. I had optimized away the signal.」Kalal的原话。翻译成大白话:他没压缩信息,他压缩的是模型能看懂的信息结构。
这里有个反直觉的点。人类觉得"意思一样就行",但LLM不吃这套。它处理的是token序列上的统计模式,你删掉重复内容的同时,可能也在拆掉模型用来定位、关联、验证的"脚手架"。
为什么"冗余"对AI不是浪费
Kalal把这种现象叫"注意力伪装成token问题"。工程师盯着账单上的数字,真正卡脖子的却是模型能关注多少有效信号。
他举了个例子:一段技术文档里,"这个功能在2023年Q2上线"和"该功能于2023年第二季度发布"对人类完全等价。但对某些模型,日期格式的细微差别会影响它和训练数据中对齐方式,进而改变推理路径。
更麻烦的是评估陷阱。团队通常用"回答长度"或"格式正确性"当指标,这些和"事实准确性"根本是两回事。一个被过度压缩的prompt,可能输出更流畅的废话——检测成本比幻觉还高。
「Redundancy is not waste. It's scaffolding.」Kalal的这句判断,现在被不少Prompt Engineer(提示词工程师)抄在备忘录里。
省钱的正确姿势:不是少token,是对token
Kalal没只骂街,他后来搭了一套新的优化框架。核心思路换了个方向:从"怎么塞更少"变成"怎么让模型看得更清"。
具体做法包括分层检索——先让一个小模型筛一遍,再让大模型精读;还有动态上下文,根据问题类型决定塞多少背景信息。最狠的一招是"结构化冗余":故意保留关键信息的多种表述方式,让模型有更多锚点可以抓。
这套玩法的token用量其实没比"暴力压缩"高多少,但准确率回了血。Kalal没透露具体数字,只说是"statistically significant improvement"(统计显著的提升)。
有个细节很有意思。他团队现在评估prompt质量,会加一个"困惑度波动"指标——看模型在生成过程中,对关键事实的置信度变化曲线。波动太平滑,说明信息密度不够;波动太剧烈,可能是关键锚点缺失。
行业正在经历的认知翻转
Kalal的文章发在2026年4月,但讨论早就开始了。Anthropic去年发布的Claude 3技术报告里,专门有一节讲"long-context degradation"(长上下文退化)——不是token不够长,是模型在长序列里抓不住重点。
Google DeepMind同期的工作更直接:他们发现把同样信息拆成多条短消息,比塞进一条长消息,模型召回率高23%。这和Kalal的"脚手架"理论互相印证。
国内这边,字节跳动的Seed团队今年初有个内部分享,主题叫"Prompt的密度战争"。讲者放了张图:同样1000token,信息熵(entropy)分布不同的prompt,模型表现差距能到40%。
这些信号指向同一个结论:token优化的战场,已经从"压缩算法"转向"信息架构"。
Kalal在文章结尾留了个开放问题:「If we can't trust our own intuition about what LLMs "understand," what should we trust?」
他的答案是测试,更刁钻的测试。不是看模型能不能答对,是看它在信息被故意压缩、打乱、污染时,还能不能保持稳定的推理链条。
这大概是2026年AI工程最残酷的真相——你以为在优化成本,其实是在和模型的认知盲区博弈。而对手不会告诉你它哪里看不懂。
热门跟贴