号称碾压GPT-4的AI，实测数据却不敢放全？

固件更新中

2026-03-23 14:08 ·北京

AI编程工具Composer 2的第三方评测结果开始流出。

评测数据与官方博客公布的指标基本吻合。

但开发者自己泼了冷水。

「benchmarks are an imperfect measure」，官方账号在X平台直言。

这句话的潜台词很微妙：数字好看，不代表真好用。

Composer 2主打"AI软件工程师"定位，能端到端完成编码任务。

其母公司Anysphere年初刚完成9亿美元融资，估值飙至90亿美元。

此前官方宣称该模型在SWE-bench编码基准上超越GPT-4。

但具体领先幅度、测试场景细节，博客并未完全公开。

第三方评测机构也未披露完整方法论。

AI编程赛道正陷入"跑分内卷"：Cursor、Windsurf、Devin轮番刷新榜单。

用户真正的痛点是：代码能跑，但维护成本谁算？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴