你有没有发现,让AI agent连续工作几小时后,它的表现会莫名其妙下滑?JetBrains的研究团队给这个现象起了个名字——"上下文腐烂"(context rot)。更反直觉的是,他们找到的解决方案简单到让人怀疑:别折腾复杂的智能总结,直接把旧内容盖掉就行。

一个12月实验,推翻了两条行业共识

打开网易新闻 查看精彩图片

2025年12月,JetBrains研究团队在NeurIPS深度学习代码工作坊上发布了论文《The Complexity Trap》。他们测试了两种处理长上下文的策略:

第一种是行业主流做法——用大语言模型做智能总结。Cursor、OpenHands等头部工具都在用这招,让模型自己把历史对话压缩成摘要。

第二种简单得多,叫"观察掩码"(observation masking)。老旧的工具输出直接替换成占位符,只保留推理过程和行动记录,不碰具体内容。

结果让在场很多人愣住:复杂的LLM总结,效果并不比简单的掩码更好。而掩码的成本只有前者的——确切数字——一半。

如果两种方法一起用,还能再省7%的成本(相比单独用掩码)或11%(相比单独用总结)。

上下文窗口的悖论:能装≠能用

要理解这个发现为什么重要,得先看懂技术背景。

现在的前沿模型,上下文窗口已经卷到20万token起步,部分支持超过100万token。Google的Gemini甚至能一次性塞进整本书或多文件代码库。

但Chroma Labs的研究证实了一个尴尬的事实:模型在短输入上表现惊艳,处理长上下文时却稳定掉链子。

2025年2月,Adobe的研究人员升级了经典的"大海捞针"测试。不是让模型找一段隐藏文字,而是要基于这段文字做推理。短提示下,主流模型准确率超90%;提示长度拉到32,000 token后,成绩断崖式下跌。

这说明一个问题:上下文窗口的"容量"和"有效利用能力"是两回事。就像一个人能记住一本书,不代表他能随时调取书中任意细节做复杂思考。

掩码策略的隐藏逻辑

观察掩码为什么能行?JetBrains的论文没深讲,但从实验设计能反推出思路。

LLM总结的问题在于:它本身也是一次模型调用,既消耗token,又可能丢失关键信息。而掩码直接砍掉旧输出的具体内容,保留的是结构——"这里曾经有个文件读取结果,现在省略"——让模型知道发生过什么,但不用处理具体内容。

这相当于给AI agent配了一个"外部硬盘"。工作记忆只存索引,需要时再调取。成本砍半的同时,任务完成率不降反升。

这个发现直接挑战了行业的技术路线。过去两年,各大厂商把大量资源砸向上下文压缩算法,试图让模型"更聪明地遗忘"。JetBrains的数据暗示,这条路可能本身就偏了。

数据收束:省下的不只是钱

50%的成本削减,7%-11%的额外优化空间——这些数字背后是一个更根本的转向。

AI coding工具的竞争,正从"谁能塞更多上下文"转向"谁更清楚该扔掉什么"。JetBrains的实验规模不算大,但方法论干净:控制变量、直接对比、给出精确百分比。

对于每天烧掉成千上万美元token的企业来说,这意味着现有技术栈可能被高估了。复杂方案的光环正在褪色,简单有效的策略重新获得话语权。