为什么AI写代码越久越笨？JetBrains找到了解法|agent|jetbrains|上下文|代码|官方文档|掩码|算法

你有没有发现，让AI agent连续工作几小时后，它的表现会莫名其妙下滑？这不是错觉——JetBrains研究人员给这个现象起了个名字："上下文腐烂"。

更反直觉的是，他们测试后发现：花大力气做的智能摘要，效果居然不如直接删掉旧内容。

一、问题：AI的"工作记忆"会过载

AI coding agent的承诺很美好：能独立工作数小时，自主推理、写代码、迭代优化，无需人类持续监督。但现实是，开发团队普遍遭遇"上下文腐烂"——agent积累的信息超出处理能力，性能逐渐衰减。

要理解这个瓶颈，得先看上下文窗口（context window）的运作机制。每次交互、文件读取、测试结果、调试记录，都会累积进agent的"工作记忆"。前沿模型已能处理20万token以上，部分支持超过100万token的窗口。Google的Gemini模型甚至能单次分析整本书或多文件代码库。

但容量只是故事的一半。Chroma Labs的研究证实了一个令人不安的规律：模型在聚焦输入上表现优异，处理完整长上下文时却持续退化。

2025年2月，Adobe研究人员设计了更严苛的"大海捞针"变体测试——不仅要定位埋藏在长文本中的事实，还要基于该事实做推理。领先模型在短提示下准确率超90%，但在3.2万token的提示中，准确率断崖式下跌。

二、JetBrains的实验：简单策略击败复杂方案

2025年12月，JetBrains研究团队在NeurIPS深度学习代码研讨会上发表了《复杂性陷阱》。他们对比了两种上下文管理策略：

一是行业主流做法——基于大语言模型的复杂摘要技术，Cursor、OpenHands等领先工具都在用；二是他们提出的"观察掩码"（observation masking）：直接用占位符替换旧工具输出，同时完整保留agent的推理与行动历史。

结果出人意料。观察掩码将成本降至无上下文管理agent的一半，任务完成率却与复杂LLM摘要持平甚至略高。两者结合还能再降7%成本（相比单独用观察掩码），或11%（相比单独用摘要）。

研究团队的核心发现是：行业追逐的"越来越复杂的上下文压缩"，可能搞错了问题方向。

三、为什么"删掉"比"总结"更有效

这个结论挑战了直觉。按理说，智能摘要保留更多信息，应该比粗暴删除更好。但实验数据不支持这个假设。

可能的解释是：LLM摘要本身消耗token和计算资源，且摘要过程可能丢失关键细节或引入偏差。相比之下，观察掩码保留了agent的决策链条——知道"我做了什么"比知道"具体输出是什么"对后续推理更重要。

这对产品设计有直接影响。Cursor等工具正在堆叠摘要算法，而JetBrains的证据表明，基础设施层面的轻量级干预可能更划算。

四、行业启示：重新思考AI辅助开发的优先级

这项研究揭示了一个更广泛的张力：计算效率与代码质量之间的权衡正在被重新定义。

当前行业叙事聚焦于"更大的上下文窗口"和"更智能的压缩算法"。但JetBrains的数据指向另一个优化维度——不是如何让AI记住更多，而是如何设计让它需要记住更少。

对于每天依赖AI coding agent的开发团队，这意味着成本结构可能剧变。如果简单掩码策略能在半数成本下达到同等效果，企业的AI基础设施预算分配逻辑将被迫调整。

更深层的问题是：当"复杂方案"持续输给"简单方案"，我们对LLM能力的假设是否需要系统性修正？Adobe的推理测试、Chroma的退化研究、JetBrains的成本分析，三者指向同一结论——上下文管理的瓶颈不在压缩技术，而在我们对模型长程推理机制的理解缺口。

2025年NeurIPS的这项研究，或许会成为AI辅助开发成本曲线的转折点。当观察掩码这类基础设施级优化被主流工具集成，行业可能迎来一轮效率重估——不是谁的大模型更聪明，而是谁的上下文策略更"克制"。

为什么AI写代码越久越笨？JetBrains找到了解法