SWE-Bench Verified榜单上,DeepSeek V4 Pro以80.6%的成绩刷新了纪录。这个数字超过了Claude Sonnet 4的77.2%、GPT-5的74.9%和Gemini 2.5的71.8%。这是开源权重模型首次在代码生成基准上全面超越同期闭源产品。
GPQA Diamond测试中,V4 Pro拿到90.1分,已逼近顶尖闭源推理模型的水平。更关键的是上下文窗口——100万token,足以吞下整个代码库做全局分析。权重文件今天就能下载,部署到本地GPU集群后,源代码不会流向任何第三方API。
打开网易新闻 查看精彩图片
这一点恰恰是整件事的核心。对企业来说,代码资产不出内网是硬需求。金融、医疗、芯片设计等行业的合规红线,过去只能被迫接受闭源模型的功能阉割或天价私有化部署。现在有一套公开权重、性能更强的替代方案摆在桌上。
打开网易新闻 查看精彩图片
不过榜单领先是暂时的。开源模型的迭代速度意味着Llama 4、Qwen 3.5、Gemma 4和Mistral的新版本随时可能反超。这种" leapfrog "竞争已成常态,开发者真正该关注的是模型权重的可获取性——它决定了你是被供应商锁定,还是保有迁移和定制的自由。
打开网易新闻 查看精彩图片
80.6%这个数字会过时,但开源权重模型首次在核心生产力场景击败闭源对手,这个拐点已经确立。
热门跟贴