5月18日,Cursor发布了Composer 2.5。这个时间点本身就很微妙——一天之后,Google在I/O 2026上推出了Antigravity 2.0。两个直接竞争的产品在24小时内相继亮相,这种发布节奏比任何参数对比都更能说明这个赛道的激烈程度。

Composer 2.5的核心指标是这样的:SWE-Bench Multilingual得分79.8%,CursorBench v3.1得分63.2%。把这两个数字放在Claude Opus 4.7和GPT-5.5旁边看,基本在同一个水平线上。但真正让开发者注意的,是它旁边标注的价格——标准版每百万输入token收费0.50美元,输出token收费2.50美元。这意味着完成一次任务的成本,大约是那些同等性能前沿模型的十分之一

打开网易新闻 查看精彩图片

这个价格是怎么做到的?技术栈揭示了一个值得关注的拆分。Composer 2.5跑在Moonshot AI开源的Kimi K2.5检查点上,但Cursor把大约85%的计算预算花在了自己的后训练上,包括在比Composer 2多25倍的合成编程任务数据上做强化学习。基础模型来自北京的一家实验室,而开发者真正感受到的行为表现来自Cursor的训练流程。这种分工透露了一个2026年的趋势:基础权重正在变成大宗商品,后训练才是产品。

打开网易新闻 查看精彩图片

产品定位上,Composer 2.5不是为一次性解决小问题设计的。它能读取文件、执行终端命令、跨多个文件编辑、运行测试、根据结果自我迭代。Cursor团队针对持续工作和指令遵循能力做了调优,而不仅仅是刷基准测试分。两个月内的变化曲线能看出迭代速度:SWE-Bench Multilingual从73.7%提升到79.8%,Terminal-Bench 2.0从61.7%提升到69.3%。

但Composer 2.5只是Cursor本月故事的一半。编辑器本身正在朝另一个方向演变——更像一个团队级别代理的控制台。5月7日上线的Cursor 3.3推出了并行构建功能,可以同时把异步子代理派发到一个计划的各个独立步骤上去执行。5月20日跟进的Cursor 3.5加入了多仓库自动化和团队共享画布功能。这个演进路径很清晰:Cursor想成为你管理多个代理的地方,而不只是自动补全一行代码的地方。

打开网易新闻 查看精彩图片

Google的回应速度值得注意。I/O 2026上发布的Antigravity 2.0搭配Gemini 3.5 Flash,瞄准的完全是同一个代理级开发环境的位置。它的功能组合包括多代理编排、内置Chromium浏览器、动态子代理和后台任务调度。当这个领域最大的两个玩家在24小时内先后推出竞品代理编程环境时,真正重要的信号是节奏本身。

性能对比上有些细节需要仔细看。Composer 2.5并没有全方位超越Opus 4.7或GPT-5.5。在围绕真实Cursor工作流构建的CursorBench v3.1上,它略占优势。在Terminal-Bench 2.0上,它与Opus 4.7并列69.3%,但落后于GPT-5.5的82.7%。Opus在深层架构推理和长文本单次生成能力上仍然保持优势。所以前沿模型的差距还在,但Composer 2.5提供了一个让开发者重新考虑成本结构的选项。