Cursor公司周四发布了Composer 2,这是其第三代自研编程模型。该模型在一些关键编程基准测试中超越了Anthropic的Claude Opus 4.6,且成本仅为后者的一小部分。
新的Cursor模型成本极低,输入Token仅需0.5美元每百万,输出Token为2.5美元每百万。模型还提供快速模式作为默认选项,价格为标准模式的3倍,即输入/输出Token分别为1.5美元和7.5美元每百万,但智能程度相同。
相比之下,Claude Opus 4.6的价格为5美元/25美元每百万Token,OpenAI的GPT-5.4为2.5美元/15美元每百万Token。
在Terminal-Bench 2.0基准测试中,该测试用于衡量AI智能体在终端环境中处理真实软件工程任务的能力,Composer 2获得了61.7%的分数,超越了Anthropic的Claude Opus 4.6的58.0%。虽然仍落后于OpenAI GPT-5.4的75.1%,但这表明Cursor在加速自有模型项目的同时,正在迅速追赶竞争对手。
由于Cursor支持多模型,开发者可以选择运行哪个模型,或使用Cursor的自动模式,该模式会根据智能程度、速度和成本的权衡自动选择最佳模型。
快速迭代发展
Composer 2是自去年10月以来的第三次Composer发布。Cursor在2025年10月发布了原版Composer模型及其2.0平台重设计。今年2月推出了Composer 1.5,当时在Terminal-Bench 2.0上仍落后Opus 4.6约10%。
之前的Composer模型是在现有基础模型上应用强化学习,而不修改基础模型本身。Cursor指出,Composer 2是第一个进行连续预训练的版本,公司表示这提供了"更强大的基础来扩展我们的强化学习"。
自总结技术创新
这一新模型的关键技术创新是Cursor称为"自总结"的训练技术。"我们通过一个名为自总结的强化学习过程训练Composer处理长期任务。通过将自总结纳入Composer的训练中,我们可以从远超模型最大上下文窗口的轨迹中获得训练信号,"公司在公告中写道。
智能体编程往往会生成长的动作历史,很快就会超出模型的上下文窗口。传统上,像Cursor这样的公司要么创建模型先前工作的紧凑文本摘要,要么使用滑动上下文窗口,丢弃较旧的上下文以支持更近期的工作。
"这些压缩方法的共同缺点是可能导致模型忘记上下文中的关键信息,降低其在长期运行任务中的有效性,"Cursor认为。
Cursor的方法被团队称为循环压缩强化学习,将摘要功能直接构建到训练循环中。当生成达到Token长度触发器时,模型会暂停并将自己的上下文压缩到大约1000个Token,而传统方法通常需要5000个或更多Token。由于团队在训练模型时使用的强化学习奖励覆盖了整个链条,包括摘要步骤,模型学会了保留哪些细节,丢弃哪些内容。
根据Cursor的研究报告,自总结技术将压缩错误减少了50%。
Q&A
Q1:Cursor的Composer 2有什么特别之处?
A:Composer 2是Cursor的第三代自研编程模型,在Terminal-Bench 2.0基准测试中得分61.7%,超越了Claude Opus 4.6的58.0%,且成本仅为0.5美元每百万输入Token,远低于竞争对手。这是首个采用连续预训练的Composer版本。
Q2:什么是自总结技术?它如何改善编程效果?
A:自总结是Cursor开发的训练技术,通过循环压缩强化学习将摘要功能直接构建到训练循环中。当达到Token长度限制时,模型会自动压缩上下文到约1000个Token,学会保留关键信息并丢弃无关内容,将压缩错误减少了50%。
Q3:Composer 2的定价策略如何?与竞争对手相比有什么优势?
A:Composer 2提供两种模式:标准模式输入/输出Token分别为0.5美元和2.5美元每百万,快速模式为1.5美元和7.5美元每百万。相比Claude Opus 4.6的5美元/25美元和OpenAI GPT-5.4的2.5美元/15美元,具有明显的成本优势。
热门跟贴