“也许是我的错觉,也许只适用于我的模型、我的提示词、我的工作流。”在连续使用DeepSeek V4进行了大约70次会话后,这位开发者写下了一个让他自己都无法完全确信的观察结论。但这个发现实在过于反常,反常到他不吐不快:当编程助手Claude Code压缩他的会话上下文时,模型输出质量并未线性下滑。在第二次压缩之后,模型表现反而短暂变好了一小会儿,然后才掉头向下,并且再也没有恢复过来。这不是什么玄学,而是一个可能的工程问题——假如上下文压缩真的存在一条曲线,为什么到今天还没人认真测绘过它?

他决定去查一圈文献和基准测试,看看有没有人专门测量过“多轮上下文压缩带来的性能衰减”。结果用四个字概括就是:几乎为零。目前学界和业界拿得出手的相关工具,方向全对,但瞄准的问题全都擦边而过。RULER基准测试干的事,是测量当静态输入文本持续变长时,模型的表现如何下滑,它不关心你把同样的内容压缩之后再喂给模型会发生什么。Chroma Research在2025年发布的“上下文腐烂”研究动员了18个模型,结论很清晰——令牌越多,退化越狠,但依然只测静态文本。多轮对话评估倒是跟踪了模型在来回交谈中是否跑偏,可偏偏不涉及压缩这个动作。他自己在笔记里列了一圈引用,发现参数压缩领域——无论是剪枝还是量化——早就有了被广泛验证的缩放定律。2019年那篇大名鼎鼎的“彩票假说”论文和2025年新鲜出炉的“大语言模型压缩定律”都能精确告诉你在哪里会触及性能峰值。偏偏上下文摘要压缩,这个每一次智能体运行/compact指令时都在发生的基础动作,反而没有人给它画过一条曲线。

如果这条曲线真的存在,那能做的事情就太多了。以下是作者列出的三条很实际的场景:第一,你可以像看仪表盘一样,精准知道什么时候该新建一个会话,赶在质量断崖前离开这趟快要脱轨的列车。第二,模型评测可以多出一个全新的比较维度——同样是往死里压缩上下文,谁的质量能撑得更久?第三,你甚至可以给大模型供应商一个硬邦邦的参照系:“你们家的压缩质量,比竞品X下滑速度快了整整20%。”而眼下,MMLU、HELM、BigBench、RULER这些主流评测套件里,没有一个纳入了“压缩持久性”这种指标。作者给出一句很直接的判断:只要上下文窗口还在膨胀,会话还在变长,这个缺口每年都会变得更大。

所以他没有停留在空想。这位开发者自己动手搭了一个极简的监测工具compact-counter,外加一个粗糙的实验框架。体量小到什么程度?总共50行Python代码,10个基准任务,评分标准简单到0到5分之间打钩。他自己也承认,这东西拿不出手,就是个起点。他现在公开喊了三件事:第一,希望有Claude Opus、GPT-5或者Gemini账号的人,帮忙试着复现一下他的发现;第二,他希望听到反馈,这个方法到底靠谱还是从根本上站不住脚;第三,如果这真是一个客观存在的东西,他想知道该怎么正规地测量它。他自陈没有足够的算力,也没有统计学背景来单干这件事。但如果足够多的人愿意在不同模型上贡献数据点,那他们或许就能一起搞清楚,这条曲线到底存不存在——假设它真的存在,受益的恐怕就不止他一个人了。