OpenAI工程师踩坑实录：压缩30%token后

算力游侠

2026-04-07 13:28 ·北京

去年有个数据在硅谷传疯了：某头部AI公司的推理成本里，token费用占比超过60%。但没人告诉你的是，为了省这笔钱，多少团队把模型"养残"了。

本文作者Pallav Kalal在OpenAI干了四年，专门啃这块硬骨头。他最近公开了一次翻车经历——本想给公司省点钱，结果把系统搞"傻"了。这不是个例，是行业通病。

从"堆料"到"缩骨"：一个经典的技术债故事

从"堆料"到"缩骨"：一个经典的技术债故事

Kalal当时在做检索增强生成（RAG）系统。这种架构的原理很简单：用户提问时，先从知识库搜一堆相关文档，塞进提示词（prompt）里让大模型（LLM）参考。文档越多，回答越准，但token消耗也越吓人。

他的做法很"标准"： aggressive summarization（激进摘要）+ 截断长文本。成本确实下来了，降幅还很好看。但测试时团队发现，模型开始给出"自信的错误答案"——不是胡编乱造的幻觉，而是基于残缺信息做了一套漂亮推理。

「I hadn't optimized tokens. I had optimized away the signal.」Kalal的原话。翻译成大白话：他没压缩信息，他压缩的是模型能看懂的信息结构。

这里有个反直觉的点。人类觉得"意思一样就行"，但LLM不吃这套。它处理的是token序列上的统计模式，你删掉重复内容的同时，可能也在拆掉模型用来定位、关联、验证的"脚手架"。

为什么"冗余"对AI不是浪费

为什么"冗余"对AI不是浪费

Kalal把这种现象叫"注意力伪装成token问题"。工程师盯着账单上的数字，真正卡脖子的却是模型能关注多少有效信号。

他举了个例子：一段技术文档里，"这个功能在2023年Q2上线"和"该功能于2023年第二季度发布"对人类完全等价。但对某些模型，日期格式的细微差别会影响它和训练数据中对齐方式，进而改变推理路径。

更麻烦的是评估陷阱。团队通常用"回答长度"或"格式正确性"当指标，这些和"事实准确性"根本是两回事。一个被过度压缩的prompt，可能输出更流畅的废话——检测成本比幻觉还高。

「Redundancy is not waste. It's scaffolding.」Kalal的这句判断，现在被不少Prompt Engineer（提示词工程师）抄在备忘录里。

省钱的正确姿势：不是少token，是对token

省钱的正确姿势：不是少token，是对token

Kalal没只骂街，他后来搭了一套新的优化框架。核心思路换了个方向：从"怎么塞更少"变成"怎么让模型看得更清"。

具体做法包括分层检索——先让一个小模型筛一遍，再让大模型精读；还有动态上下文，根据问题类型决定塞多少背景信息。最狠的一招是"结构化冗余"：故意保留关键信息的多种表述方式，让模型有更多锚点可以抓。

这套玩法的token用量其实没比"暴力压缩"高多少，但准确率回了血。Kalal没透露具体数字，只说是"statistically significant improvement"（统计显著的提升）。

有个细节很有意思。他团队现在评估prompt质量，会加一个"困惑度波动"指标——看模型在生成过程中，对关键事实的置信度变化曲线。波动太平滑，说明信息密度不够；波动太剧烈，可能是关键锚点缺失。

行业正在经历的认知翻转

行业正在经历的认知翻转

Kalal的文章发在2026年4月，但讨论早就开始了。Anthropic去年发布的Claude 3技术报告里，专门有一节讲"long-context degradation"（长上下文退化）——不是token不够长，是模型在长序列里抓不住重点。

Google DeepMind同期的工作更直接：他们发现把同样信息拆成多条短消息，比塞进一条长消息，模型召回率高23%。这和Kalal的"脚手架"理论互相印证。

国内这边，字节跳动的Seed团队今年初有个内部分享，主题叫"Prompt的密度战争"。讲者放了张图：同样1000token，信息熵（entropy）分布不同的prompt，模型表现差距能到40%。

这些信号指向同一个结论：token优化的战场，已经从"压缩算法"转向"信息架构"。

Kalal在文章结尾留了个开放问题：「If we can't trust our own intuition about what LLMs "understand," what should we trust?」

他的答案是测试，更刁钻的测试。不是看模型能不能答对，是看它在信息被故意压缩、打乱、污染时，还能不能保持稳定的推理链条。

这大概是2026年AI工程最残酷的真相——你以为在优化成本，其实是在和模型的认知盲区博弈。而对手不会告诉你它哪里看不懂。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴