开源模型首次击败所有闭源对手：代码能力登顶意味着什么

全栈遛狗员

2026-05-25 01:36 ·北京

SWE-Bench Verified榜单上，DeepSeek V4 Pro以80.6%的成绩刷新了纪录。这个数字超过了Claude Sonnet 4的77.2%、GPT-5的74.9%和Gemini 2.5的71.8%。这是开源权重模型首次在代码生成基准上全面超越同期闭源产品。

GPQA Diamond测试中，V4 Pro拿到90.1分，已逼近顶尖闭源推理模型的水平。更关键的是上下文窗口——100万token，足以吞下整个代码库做全局分析。权重文件今天就能下载，部署到本地GPU集群后，源代码不会流向任何第三方API。

这一点恰恰是整件事的核心。对企业来说，代码资产不出内网是硬需求。金融、医疗、芯片设计等行业的合规红线，过去只能被迫接受闭源模型的功能阉割或天价私有化部署。现在有一套公开权重、性能更强的替代方案摆在桌上。

不过榜单领先是暂时的。开源模型的迭代速度意味着Llama 4、Qwen 3.5、Gemma 4和Mistral的新版本随时可能反超。这种" leapfrog "竞争已成常态，开发者真正该关注的是模型权重的可获取性——它决定了你是被供应商锁定，还是保有迁移和定制的自由。

80.6%这个数字会过时，但开源权重模型首次在核心生产力场景击败闭源对手，这个拐点已经确立。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴