两个月前,Cursor的Composer 2刚把Opus 4.6拉下编码基准测试的榜首,价格还便宜一大截。这周,Composer 2.5又来了。这是Cursor七个月内发布的第四个Composer版本,迭代速度快得让人有点跟不上。

新版本主打三项升级:长时编码任务、复杂指令跟随、训练效率,还有"沟通风格和努力程度校准"的行为改进。但Cursor自己也留了余地——基准测试的提升能不能变成真实开发体验的提升,还得看时间。

打开网易新闻 查看精彩图片

Composer 2.5的底层还是月之暗面的Kimi K2.5,这是一款开源的原生多模态智能体模型。Cursor说这次在智能和行为表现上都超过了Composer 2,秘诀在于扩大训练规模、更复杂的强化学习,以及新的学习方法。

数字上看确实进步明显:Terminal-Bench 2.0从61.7%涨到69.3%,Cursor自家的CursorBench v3.1从52.2%跳到63.2%。不过它还没能全面超越Opus 4.7和GPT-5.5——只在SWE-Bench Multilingual上比GPT-5.5高了2个百分点。

但基准测试就是基准测试。Reddit上有开发者说得很直接:"还没测,但基准太夸张了。有意思的是,原始模型性能不总是等于实际编码效率。我见过很多'更好'的模型,生成的代码还是要大量清理,或者根本不符合项目上下文。"另一位补充:"用过Claude或GPT-4做实际项目的人都知道,基准上的聪明不等于实践中的好用。"

真正的考验在于多文件修改和代码库一致性。Composer 2.5能不能在真实项目里保持上下文不跑偏,这比跑分重要得多。

针对长时任务,Cursor这次用了个新招:在强化学习过程中,给模型"精准反馈"。具体来说,就是在轨迹中模型本可以做得更好的那个点,直接插入简短提示。这样既纠正具体错误,又不丢掉强化学习的大目标。

发布才一天,这招灵不灵还不知道。但Cursor的打法已经很清楚了:用开源模型打底,靠快速迭代和针对性优化,在高端编码工具市场里抢一块"性价比"的地盘。问题是,开发者愿不愿意为省下来的钱,承担"可能不太稳定"的风险?