Claude首次破90%：代码Agent leaderboard变天了

碳基打工人

2026-05-19 02:15 ·北京

两个月前，SWE-bench Verified leaderboard还是Claude和OpenAI的拉锯战，双方都在80%左右来回交换位置。到了2026年5月中旬，局面彻底变了。

Anthropic的Claude Mythos Preview以93.9%的验证通过率登顶，这是首次有模型在该基准测试中突破90%。OpenAI的GPT-5.5（2026年4月23日发布）在marc0.dev的5月快照和OpenAI官方材料中均显示为88.7%。Anthropic此前的旗舰模型Claude Opus 4.7 Adaptive版本以87.6%位列第三。

中间梯队对开发者更有参考价值。Google的Gemini 3.1 Pro和DeepSeek的V4 Pro Max并列80.6%——一个是闭源，一个是开源权重，许可证成本相差数个数量级。

这个差距意味着什么？同样的基准表现，选择开源方案可能省下一大笔API费用。对于正在选型代码Agent的团队，这张表不只是技术排名，也是采购决策的参考。

Claude Mythos Preview的90%突破是否代表代码生成进入新阶段？至少从benchmark数据看，头部模型的差距正在拉大，而中游选手开始分化出完全不同的商业模式。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴