AI编程代理为何越干越蠢？JetBrains实验颠覆行业认知|ai编程代理|jetbrains|上下文|代码|新论文|算法|调用

你有没有想过，让AI连续写几小时代码，它的表现反而越来越差？这不是你的错觉。全球数千个开发团队正在经历同一种崩溃：代理记得住海量信息，却做不出正确决策。

2025年12月的NeurIPS会议上，JetBrains扔下一枚炸弹

他们的论文《复杂性陷阱》直指行业痛点。研究团队对比了两种解决"上下文腐烂"（context rot）的策略：一边是Cursor、OpenHands等主流工具追捧的复杂大语言模型摘要技术，另一边是简单到近乎粗暴的"观察遮蔽"——直接把旧工具输出替换成占位符，提示"此处内容已省略"，但完整保留代理的推理和行动历史。

结果让所有人意外。观察遮蔽的成本只有无上下文管理代理的一半，任务完成率却持平甚至略胜。两者叠加还能再降7%成本。那些花大力气研发的精密压缩算法，可能从一开始就搞错了方向。

上下文窗口的残酷真相：装得下≠用得好

现代前沿模型能处理20万甚至百万级词元（token），Google的Gemini系列足以一次性吞下一整本书或多文件代码库。但这只是纸面数字。

Chroma Labs的研究证实了一个尴尬规律：模型在聚焦输入上表现惊艳，面对完整长上下文时却持续滑坡。2025年2月，Adobe的研究人员升级了经典的"大海捞针"测试——不仅要定位隐藏信息，还要基于它做推理。领先模型在短提示下准确率超90%，词元数涨到3.2万时，成绩断崖式下跌。

问题出在注意力机制的本质。模型并非平等对待上下文中的每个词元，早期信息会被后续输入稀释。当代理连续运行数小时，积累了数百次工具调用、文件读取和调试记录，关键决策依据可能淹没在噪声里。

JetBrains的实验设计：用数据说话

研究团队选取了SWE-bench Verified基准测试的子集，这是评估AI编程能力的行业标准。他们控制变量对比了四种配置：无上下文管理（基线）、纯LLM摘要、纯观察遮蔽，以及两者组合。

核心发现层层递进。第一，简单遮蔽策略在成本效率上碾压复杂方案——50%的降幅不是小数目。第二，任务完成率没有牺牲，甚至在部分子任务上反超。第三，组合策略的边际收益有限，7%和11%的额外降幅暗示着收益递减的边界。

论文作者之一在报告中指出：「行业过度投资于上下文压缩的复杂性，却忽视了信息筛选的基本原则。」

为什么遮蔽比摘要更有效？

这涉及AI代理的工作机制差异。LLM摘要试图用模型自身压缩历史，但摘要过程本身消耗词元、引入噪声，还可能丢失关键细节。观察遮蔽则采取完全不同的哲学：承认代理的推理链条比原始输出更重要。

举个例子。代理读取了某个配置文件，三小时后再次需要该信息。摘要方案会让模型重写这段内容，可能扭曲原意；遮蔽方案只显示"[文件内容已省略，曾读取于某时]"，但保留"我读取此文件是为了解决X问题"的推理痕迹。代理知道信息存在过，知道获取路径，这比模糊的摘要更利于决策。

成本结构也因此改变。摘要需要实时调用模型生成，遮蔽只是文本替换。在长时间运行的代理会话中，这一差距会指数级放大。

行业连锁反应：工具厂商的十字路口

Cursor和OpenHands代表的复杂派不会立刻投降。他们的技术栈建立在深度上下文理解上，转向简单遮蔽意味着架构重构。但JetBrains的数据给出了难以忽视的财务论据：在规模化部署中，50%的成本差距直接决定商业模式可行性。

更深层的影响在于评估标准。此前行业比拼的是上下文窗口大小、压缩算法的精巧程度，现在可能要转向"有效信息密度"——单位成本内，代理能保留多少 actionable 的决策依据。

Google的Gemini团队尚未公开回应，但其百万级词元窗口的营销话术已显尴尬。窗口再大，模型用不好也是摆设。Adobe的"推理型大海捞针"测试正在成为新的性能基准，它暴露的不仅是定位能力，更是长程逻辑连贯性。

开发者的实操启示

对于正在评估AI编程工具的团队，JetBrains的研究提供了即时可用的筛选框架。第一，追问厂商的上下文管理策略——是摘要、遮蔽，还是混合方案？第二，要求看长时间任务的成本曲线，而非单次调用的报价。第三，测试场景要包含多文件、多轮迭代的真实工作流，而非孤立编码题。

对于自建代理系统的工程师，论文给出了清晰的实验路径。从纯遮蔽基线开始，逐步叠加摘要，监控任务完成率和词元消耗的比值。7%的组合收益是否值得额外复杂度，取决于具体场景的错误成本。

数据收束：一个被量化的悖论

JetBrains的实验最终留下一组冰冷数字：50%成本降幅，7%组合边际收益，90%→断崖的准确率曲线。它们共同指向同一个结论——在AI编程代理的上下文管理中，简单策略击败了复杂工程，而行业花了太久才承认这一点。

当技术竞赛从"谁能压缩更多信息"转向"谁更懂该扔掉什么"，我们或许正在见证一个更务实的AI开发时代的开端。不是更大的窗口，而是更聪明的遗忘。

AI编程代理为何越干越蠢？JetBrains实验颠覆行业认知

热搜

热门跟贴

热搜

热门跟贴

相关推荐

Agent中的“爱马仕”来啦：100k+ Star 的开源AI Agent ，正在偷偷给自己升级

马斯克的Grok 4.3悄悄上线，跑分评测出炉

不好！1930年的AI都来抢程序员饭碗了

Karpathy：很多App就不该出生,人类护城河只剩理解,CPU将沦为配角

这套题，GPT-5.5、Opus 4.7加起来没考到1分，人类却拿了满分100

GPT-5.5参数有10T？病毒式论文刚刚被打假，实际缩水至1.5T

神经计算机横空出世：AI不再调用软件，而是直接长成一台计算机

Anthropic惊悚报告：当AI开始破坏实验室代码，人类已无险可守

图灵奖得主：劝年轻人别学计算机，行业红利正在消失

OpenAI参与，重卷ImageNet：终于把FID做成训练

支持远程操控和通用GUI操作3

MIT校友用AI帮人接电话，竟做成了一家独角兽

新一代具身智能仿真框架：高吞吐并行高保真渲染助力规模化训练

00后小哥复刻Claude最强神话模型OpenMythos

DeepSeek V4最大的遗憾

美军新一代班用机枪，XM250轻机枪，重塑美军火力压制逻辑！

这就是最基础的逻辑了，所以学校不教逻辑学

围棋实战解析：柒柒黑先困境，实用策略揭秘

连扳3局逆转 "00后"吴宜泽首次晋级斯诺克世锦赛决赛

横跨大西洋11小时，中国开发者用Mac跑Llama 70 B？评论区吵翻了