两个月前,SWE-bench Verified leaderboard还是Claude和OpenAI的拉锯战,双方都在80%左右来回交换位置。到了2026年5月中旬,局面彻底变了。
Anthropic的Claude Mythos Preview以93.9%的验证通过率登顶,这是首次有模型在该基准测试中突破90%。OpenAI的GPT-5.5(2026年4月23日发布)在marc0.dev的5月快照和OpenAI官方材料中均显示为88.7%。Anthropic此前的旗舰模型Claude Opus 4.7 Adaptive版本以87.6%位列第三。
打开网易新闻 查看精彩图片
中间梯队对开发者更有参考价值。Google的Gemini 3.1 Pro和DeepSeek的V4 Pro Max并列80.6%——一个是闭源,一个是开源权重,许可证成本相差数个数量级。
打开网易新闻 查看精彩图片
这个差距意味着什么?同样的基准表现,选择开源方案可能省下一大笔API费用。对于正在选型代码Agent的团队,这张表不只是技术排名,也是采购决策的参考。
打开网易新闻 查看精彩图片
Claude Mythos Preview的90%突破是否代表代码生成进入新阶段?至少从benchmark数据看,头部模型的差距正在拉大,而中游选手开始分化出完全不同的商业模式。
热门跟贴