你有没有想过,让AI连续写几小时代码,它的表现反而越来越差?这不是你的错觉。全球数千个开发团队正在经历同一种崩溃:代理记得住海量信息,却做不出正确决策。

2025年12月的NeurIPS会议上,JetBrains扔下一枚炸弹

打开网易新闻 查看精彩图片

他们的论文《复杂性陷阱》直指行业痛点。研究团队对比了两种解决"上下文腐烂"(context rot)的策略:一边是Cursor、OpenHands等主流工具追捧的复杂大语言模型摘要技术,另一边是简单到近乎粗暴的"观察遮蔽"——直接把旧工具输出替换成占位符,提示"此处内容已省略",但完整保留代理的推理和行动历史。

结果让所有人意外。观察遮蔽的成本只有无上下文管理代理的一半,任务完成率却持平甚至略胜。两者叠加还能再降7%成本。那些花大力气研发的精密压缩算法,可能从一开始就搞错了方向。

上下文窗口的残酷真相:装得下≠用得好

现代前沿模型能处理20万甚至百万级词元(token),Google的Gemini系列足以一次性吞下一整本书或多文件代码库。但这只是纸面数字。

Chroma Labs的研究证实了一个尴尬规律:模型在聚焦输入上表现惊艳,面对完整长上下文时却持续滑坡。2025年2月,Adobe的研究人员升级了经典的"大海捞针"测试——不仅要定位隐藏信息,还要基于它做推理。领先模型在短提示下准确率超90%,词元数涨到3.2万时,成绩断崖式下跌。

问题出在注意力机制的本质。模型并非平等对待上下文中的每个词元,早期信息会被后续输入稀释。当代理连续运行数小时,积累了数百次工具调用、文件读取和调试记录,关键决策依据可能淹没在噪声里。

JetBrains的实验设计:用数据说话

研究团队选取了SWE-bench Verified基准测试的子集,这是评估AI编程能力的行业标准。他们控制变量对比了四种配置:无上下文管理(基线)、纯LLM摘要、纯观察遮蔽,以及两者组合。

核心发现层层递进。第一,简单遮蔽策略在成本效率上碾压复杂方案——50%的降幅不是小数目。第二,任务完成率没有牺牲,甚至在部分子任务上反超。第三,组合策略的边际收益有限,7%和11%的额外降幅暗示着收益递减的边界。

论文作者之一在报告中指出:「行业过度投资于上下文压缩的复杂性,却忽视了信息筛选的基本原则。」

为什么遮蔽比摘要更有效?

这涉及AI代理的工作机制差异。LLM摘要试图用模型自身压缩历史,但摘要过程本身消耗词元、引入噪声,还可能丢失关键细节。观察遮蔽则采取完全不同的哲学:承认代理的推理链条比原始输出更重要。

举个例子。代理读取了某个配置文件,三小时后再次需要该信息。摘要方案会让模型重写这段内容,可能扭曲原意;遮蔽方案只显示"[文件内容已省略,曾读取于某时]",但保留"我读取此文件是为了解决X问题"的推理痕迹。代理知道信息存在过,知道获取路径,这比模糊的摘要更利于决策。

成本结构也因此改变。摘要需要实时调用模型生成,遮蔽只是文本替换。在长时间运行的代理会话中,这一差距会指数级放大。

行业连锁反应:工具厂商的十字路口

Cursor和OpenHands代表的复杂派不会立刻投降。他们的技术栈建立在深度上下文理解上,转向简单遮蔽意味着架构重构。但JetBrains的数据给出了难以忽视的财务论据:在规模化部署中,50%的成本差距直接决定商业模式可行性。

更深层的影响在于评估标准。此前行业比拼的是上下文窗口大小、压缩算法的精巧程度,现在可能要转向"有效信息密度"——单位成本内,代理能保留多少 actionable 的决策依据。

Google的Gemini团队尚未公开回应,但其百万级词元窗口的营销话术已显尴尬。窗口再大,模型用不好也是摆设。Adobe的"推理型大海捞针"测试正在成为新的性能基准,它暴露的不仅是定位能力,更是长程逻辑连贯性。

开发者的实操启示

对于正在评估AI编程工具的团队,JetBrains的研究提供了即时可用的筛选框架。第一,追问厂商的上下文管理策略——是摘要、遮蔽,还是混合方案?第二,要求看长时间任务的成本曲线,而非单次调用的报价。第三,测试场景要包含多文件、多轮迭代的真实工作流,而非孤立编码题。

对于自建代理系统的工程师,论文给出了清晰的实验路径。从纯遮蔽基线开始,逐步叠加摘要,监控任务完成率和词元消耗的比值。7%的组合收益是否值得额外复杂度,取决于具体场景的错误成本。

数据收束:一个被量化的悖论

JetBrains的实验最终留下一组冰冷数字:50%成本降幅,7%组合边际收益,90%→断崖的准确率曲线。它们共同指向同一个结论——在AI编程代理的上下文管理中,简单策略击败了复杂工程,而行业花了太久才承认这一点。

当技术竞赛从"谁能压缩更多信息"转向"谁更懂该扔掉什么",我们或许正在见证一个更务实的AI开发时代的开端。不是更大的窗口,而是更聪明的遗忘。