打开网易新闻 查看精彩图片
AI编程工具Composer 2的第三方评测结果开始流出。
评测数据与官方博客公布的指标基本吻合。
但开发者自己泼了冷水。
「benchmarks are an imperfect measure」,官方账号在X平台直言。
这句话的潜台词很微妙:数字好看,不代表真好用。
Composer 2主打"AI软件工程师"定位,能端到端完成编码任务。
打开网易新闻 查看精彩图片
其母公司Anysphere年初刚完成9亿美元融资,估值飙至90亿美元。
此前官方宣称该模型在SWE-bench编码基准上超越GPT-4。
但具体领先幅度、测试场景细节,博客并未完全公开。
第三方评测机构也未披露完整方法论。
AI编程赛道正陷入"跑分内卷":Cursor、Windsurf、Devin轮番刷新榜单。
用户真正的痛点是:代码能跑,但维护成本谁算?
热门跟贴