LLM上下文压缩后质量反升？实测发现可能坑更深|上下文|新论文|编程

“也许是我的错觉，也许只适用于我的模型、我的提示词、我的工作流。”在连续使用DeepSeek V4进行了大约70次会话后，这位开发者写下了一个让他自己都无法完全确信的观察结论。但这个发现实在过于反常，反常到他不吐不快：当编程助手Claude Code压缩他的会话上下文时，模型输出质量并未线性下滑。在第二次压缩之后，模型表现反而短暂变好了一小会儿，然后才掉头向下，并且再也没有恢复过来。这不是什么玄学，而是一个可能的工程问题——假如上下文压缩真的存在一条曲线，为什么到今天还没人认真测绘过它？

他决定去查一圈文献和基准测试，看看有没有人专门测量过“多轮上下文压缩带来的性能衰减”。结果用四个字概括就是：几乎为零。目前学界和业界拿得出手的相关工具，方向全对，但瞄准的问题全都擦边而过。RULER基准测试干的事，是测量当静态输入文本持续变长时，模型的表现如何下滑，它不关心你把同样的内容压缩之后再喂给模型会发生什么。Chroma Research在2025年发布的“上下文腐烂”研究动员了18个模型，结论很清晰——令牌越多，退化越狠，但依然只测静态文本。多轮对话评估倒是跟踪了模型在来回交谈中是否跑偏，可偏偏不涉及压缩这个动作。他自己在笔记里列了一圈引用，发现参数压缩领域——无论是剪枝还是量化——早就有了被广泛验证的缩放定律。2019年那篇大名鼎鼎的“彩票假说”论文和2025年新鲜出炉的“大语言模型压缩定律”都能精确告诉你在哪里会触及性能峰值。偏偏上下文摘要压缩，这个每一次智能体运行/compact指令时都在发生的基础动作，反而没有人给它画过一条曲线。

如果这条曲线真的存在，那能做的事情就太多了。以下是作者列出的三条很实际的场景：第一，你可以像看仪表盘一样，精准知道什么时候该新建一个会话，赶在质量断崖前离开这趟快要脱轨的列车。第二，模型评测可以多出一个全新的比较维度——同样是往死里压缩上下文，谁的质量能撑得更久？第三，你甚至可以给大模型供应商一个硬邦邦的参照系：“你们家的压缩质量，比竞品X下滑速度快了整整20%。”而眼下，MMLU、HELM、BigBench、RULER这些主流评测套件里，没有一个纳入了“压缩持久性”这种指标。作者给出一句很直接的判断：只要上下文窗口还在膨胀，会话还在变长，这个缺口每年都会变得更大。

所以他没有停留在空想。这位开发者自己动手搭了一个极简的监测工具compact-counter，外加一个粗糙的实验框架。体量小到什么程度？总共50行Python代码，10个基准任务，评分标准简单到0到5分之间打钩。他自己也承认，这东西拿不出手，就是个起点。他现在公开喊了三件事：第一，希望有Claude Opus、GPT-5或者Gemini账号的人，帮忙试着复现一下他的发现；第二，他希望听到反馈，这个方法到底靠谱还是从根本上站不住脚；第三，如果这真是一个客观存在的东西，他想知道该怎么正规地测量它。他自陈没有足够的算力，也没有统计学背景来单干这件事。但如果足够多的人愿意在不同模型上贡献数据点，那他们或许就能一起搞清楚，这条曲线到底存不存在——假设它真的存在，受益的恐怕就不止他一个人了。