为什么AI写代码越久越笨？

赛博兰博

2026-04-28 19:12 ·北京

你有没有发现，让AI agent连续工作几小时后，它的表现会莫名其妙下滑？JetBrains的研究团队给这个现象起了个名字——"上下文腐烂"（context rot）。更反直觉的是，他们找到的解决方案简单到让人怀疑：别折腾复杂的智能总结，直接把旧内容盖掉就行。

一个12月实验，推翻了两条行业共识

2025年12月，JetBrains研究团队在NeurIPS深度学习代码工作坊上发布了论文《The Complexity Trap》。他们测试了两种处理长上下文的策略：

第一种是行业主流做法——用大语言模型做智能总结。Cursor、OpenHands等头部工具都在用这招，让模型自己把历史对话压缩成摘要。

第二种简单得多，叫"观察掩码"（observation masking）。老旧的工具输出直接替换成占位符，只保留推理过程和行动记录，不碰具体内容。

结果让在场很多人愣住：复杂的LLM总结，效果并不比简单的掩码更好。而掩码的成本只有前者的——确切数字——一半。

如果两种方法一起用，还能再省7%的成本（相比单独用掩码）或11%（相比单独用总结）。

上下文窗口的悖论：能装≠能用

要理解这个发现为什么重要，得先看懂技术背景。

现在的前沿模型，上下文窗口已经卷到20万token起步，部分支持超过100万token。Google的Gemini甚至能一次性塞进整本书或多文件代码库。

但Chroma Labs的研究证实了一个尴尬的事实：模型在短输入上表现惊艳，处理长上下文时却稳定掉链子。

2025年2月，Adobe的研究人员升级了经典的"大海捞针"测试。不是让模型找一段隐藏文字，而是要基于这段文字做推理。短提示下，主流模型准确率超90%；提示长度拉到32,000 token后，成绩断崖式下跌。

这说明一个问题：上下文窗口的"容量"和"有效利用能力"是两回事。就像一个人能记住一本书，不代表他能随时调取书中任意细节做复杂思考。

掩码策略的隐藏逻辑

观察掩码为什么能行？JetBrains的论文没深讲，但从实验设计能反推出思路。

LLM总结的问题在于：它本身也是一次模型调用，既消耗token，又可能丢失关键信息。而掩码直接砍掉旧输出的具体内容，保留的是结构——"这里曾经有个文件读取结果，现在省略"——让模型知道发生过什么，但不用处理具体内容。

这相当于给AI agent配了一个"外部硬盘"。工作记忆只存索引，需要时再调取。成本砍半的同时，任务完成率不降反升。

这个发现直接挑战了行业的技术路线。过去两年，各大厂商把大量资源砸向上下文压缩算法，试图让模型"更聪明地遗忘"。JetBrains的数据暗示，这条路可能本身就偏了。

数据收束：省下的不只是钱

50%的成本削减，7%-11%的额外优化空间——这些数字背后是一个更根本的转向。

AI coding工具的竞争，正从"谁能塞更多上下文"转向"谁更清楚该扔掉什么"。JetBrains的实验规模不算大，但方法论干净：控制变量、直接对比、给出精确百分比。

对于每天烧掉成千上万美元token的企业来说，这意味着现有技术栈可能被高估了。复杂方案的光环正在褪色，简单有效的策略重新获得话语权。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴