Cursor连发四代模型：便宜和好用能兼得吗？|cursor|上下文|人工智能模型|代码|基准

两个月前，Cursor的Composer 2刚把Opus 4.6拉下编码基准测试的榜首，价格还便宜一大截。这周，Composer 2.5又来了。这是Cursor七个月内发布的第四个Composer版本，迭代速度快得让人有点跟不上。

新版本主打三项升级：长时编码任务、复杂指令跟随、训练效率，还有"沟通风格和努力程度校准"的行为改进。但Cursor自己也留了余地——基准测试的提升能不能变成真实开发体验的提升，还得看时间。

Composer 2.5的底层还是月之暗面的Kimi K2.5，这是一款开源的原生多模态智能体模型。Cursor说这次在智能和行为表现上都超过了Composer 2，秘诀在于扩大训练规模、更复杂的强化学习，以及新的学习方法。

数字上看确实进步明显：Terminal-Bench 2.0从61.7%涨到69.3%，Cursor自家的CursorBench v3.1从52.2%跳到63.2%。不过它还没能全面超越Opus 4.7和GPT-5.5——只在SWE-Bench Multilingual上比GPT-5.5高了2个百分点。

但基准测试就是基准测试。Reddit上有开发者说得很直接："还没测，但基准太夸张了。有意思的是，原始模型性能不总是等于实际编码效率。我见过很多'更好'的模型，生成的代码还是要大量清理，或者根本不符合项目上下文。"另一位补充："用过Claude或GPT-4做实际项目的人都知道，基准上的聪明不等于实践中的好用。"

真正的考验在于多文件修改和代码库一致性。Composer 2.5能不能在真实项目里保持上下文不跑偏，这比跑分重要得多。

针对长时任务，Cursor这次用了个新招：在强化学习过程中，给模型"精准反馈"。具体来说，就是在轨迹中模型本可以做得更好的那个点，直接插入简短提示。这样既纠正具体错误，又不丢掉强化学习的大目标。

发布才一天，这招灵不灵还不知道。但Cursor的打法已经很清楚了：用开源模型打底，靠快速迭代和针对性优化，在高端编码工具市场里抢一块"性价比"的地盘。问题是，开发者愿不愿意为省下来的钱，承担"可能不太稳定"的风险？