代码上下文窗口悖论：更大的窗口为何让AI更笨|上下文|代码|字符串|新论文|窗口|调用

每个用大型语言模型处理遗留代码的工程师都会撞上一堵墙：上下文窗口。直觉告诉我们，窗口越大越好。但研究和实践反复证明，更大的上下文反而降低输出质量——信息过载、注意力稀释，以及那个被反复验证的"中间迷失"问题。真正的解药不是扩容，而是更聪明的上下文管理。

上下文窗口是模型的"工作记忆"。它像一扇滑动窗，容纳你的提示、对话历史、喂进去的代码和文档。模型没有持久记忆，所有对你问题的理解都必须挤进这个token上限里。三件事决定了窗口内发生什么：焦点——模型始终关注特定token及其周边，判断什么重要；语境关系——模型通过token间的关联构建意义表征，而非简单字符串匹配；窗口大小——任何时候能容纳的数据硬 ceiling。

当你粘贴几个文件询问业务逻辑时，这些约束很快变得真实。要么撞token上限，要么更糟：模型显示还有余量，输出却错了，因为关键上下文被挤出窗口，或被其他内容稀释。

工程任务的质量与模型能访问的上下文直接挂钩，这在三个维度上体现。代码理解需要周边语境。解析遗留代码时，模型需要的不仅是函数签名，还有导入语句、调用代码、传递的数据结构、引用的copybook。没有这些，模型只能靠猜。而在大型机现代化项目中，猜测会在月末处理时引发回归故障——总账突然差出六位数的那种。

模式遵循依赖可见模式。LLM根据窗口中观察到的模式调整输出。喂给它结构良好的上下文——命名规范、架构模式、错误处理标准、业务规则——它就能学会遵循。但前提是这些内容能塞进窗口。

推理深度受窗口组织方式制约。模型在窗口内构建思维链。信息组织越清晰，推理越可靠；信息杂乱无章，模型就会在无关细节中迷失。

面对这些约束，工程团队的反应通常是：换更大的窗口。100K不够就200K，200K不够就1M。但这个策略有个根本缺陷。Anthropic的研究人员系统性地测试了模型在不同上下文长度下的表现，发现随着上下文增长，准确率并非线性提升，而是呈现"中间迷失"效应——模型对窗口中间位置信息的提取能力显著下降。

更大的窗口还带来隐性成本。推理时间与上下文长度成正比，成本随之攀升。更隐蔽的是注意力稀释：当窗口塞满数百个文件，模型被迫在噪声中筛选信号，关键细节被淹没在无关代码的海洋里。

真正的突破口在于重新组织上下文，而非扩展窗口。具体做法是沿着代码库的自然架构边界渐进分解，再重组为结构化智能。不是把整个模块塞进去，而是提取接口契约、数据流图、关键决策记录——让模型获得恰好足够的语境来准确推理复杂系统。

这要求开发者从"喂更多"转向"喂更精"。识别代码库的模块化边界，建立层级化的上下文摘要，在需要时按需展开细节。窗口大小仍是约束，但不再是瓶颈。