开源大模型必会附上在不同 benchmark 上的刷分情况以及排名
SWE-bench、GPQA、HLE、Terminal-Bench……
很多同学看不明白,这些 benchmark 都具体考验的模型的哪些能力
刚在 HF 上看到一个动态 race 图展示最近一年开源大模型在不同 benchmark 上,不同大模型的排名
本文就逐个、详细介绍一下
地址:huggingface.co/spaces/davanstrien/benchmark-race 一、SWE-bench Verified —— 真实代码仓库的「修 bug 终极考」
出品方 :OpenAI × Princeton(Preparedness 团队联合普林斯顿)
测什么 :AI Agent 在 真实开源项目 里端到端解决 GitHub Issue 的能力
数据形式 :500 道经过人工筛查的任务,全部来自 12 个主流 Python 开源仓库(Django、sympy、scikit-learn 等)
怎么算对 :每道题自带两组单元测试——
FAIL_TO_PASS(修好后才该通过)+PASS_TO_PASS(不能把别的功能改坏),全部通过才算解决
为啥叫 Verified?因为原版 SWE-bench 里有不少题目本身描述模糊、测试不靠谱,会冤枉模型。OpenAI 找了一批专业工程师把 2294 道题逐道筛选,留下 500 道描述清晰、测试合理、人类工程师能搞定的高质量题,作为业界公认的「干净版」SWE-bench
简单说就是:把 AI 当一个真实程序员丢进开源项目里,让它自己读 issue、自己改代码、自己跑测试,看它能不能把 bug 真的修掉
❝ 这是衡量「AI 编程 Agent」能力最权威的指标之一
目前最强:DeepSeek-V4-Pro
我没想到 DeepSeek-V4-Flash 居然也这么强,可以拍第三
出品方 :Scale AI
测什么 :在 更大、更脏、更长链路 的工程任务上,Agent 能不能扛得住
数据形式 :1865 道人工验证的任务,覆盖 41 个仓库,平均一个补丁要改 100+ 行代码、跨多个文件
核心创新 :抗污染设计,专门用 GPL 强 copyleft 协议仓库 + 商业闭源仓库,降低被训练数据「背过」的可能
数据集分三块:
Public Set(731 题,11 个开源仓库,公开可评测)
Held-Out Set(858 题,12 个私有仓库,防过拟合)
Commercial Set(276 题,18 个商业仓库,仅放榜不放数据)
主指标叫 Resolve Rate——Agent 给出的补丁能否在 Docker 隔离环境里完整通过 build + test
为什么要搞 Pro 版?因为 SWE-bench Verified 任务相对短小,而真实工业代码动不动就几百行修改、跨多文件重构。SWE-bench Pro 就是冲着「长程任务(long-horizon)」去的,目前顶级模型 Pass@1 也就 25% 左右,区分度极强
目前最强:Kimi-K2.6
出品方 :滑铁卢大学 TIGER-Lab,NeurIPS 2024 收录
测什么 :跨学科知识 + 推理能力 (不再是单纯背知识)
数据形式 :12000+ 道题,覆盖数学、物理、化学、生物、计算机、经济、法律、心理、哲学等 14 个学科
关键改造 :选项从 4 个扩到 10 个 ,蒙对概率从 25% 直降到 10%;同时剔除 MMLU 里的噪声题、加入更多需要多步推理的难题
老牌的 MMLU 这两年已经被打榜打到「饱和」,顶级模型动辄 88-90%,区分不出谁更强。MMLU-Pro 一上来就把所有模型分数砍掉 16-33%,重新拉开差距
更关键的变化:在 MMLU 上「直接答」往往比 CoT(思维链)还好;但在 MMLU-Pro 上,**带 CoT 推理的提分能到 20%**,说明它真的在测推理而不是测记忆
❝ 简单理解:MMLU-Pro 是给 LLM 准备的「研究生综合考试」,知识面 + 推理力一起考
目前最强:Qwen3.5-397B-A17B
为何不是 Qwen3.6,因为它没开源呢
出品方 :NYU + Cohere + Anthropic 联合研究团队
测什么 : 博士级 生物、物理、化学的硬核推理能力
数据形式 :从原版 GPQA 448 道题里抽出 最难的 198 道 作为 Diamond 子集,全是 PhD 出题、PhD 复核
核心特性 :Google-Proof—— 专家联网搜也搜不到答案 ,必须靠真理解
人类参考分数很有意思:
学科内 PhD 专家:约 81% 准确率
学科外的高水平非专家(联网答题):约 22%(基本等于瞎蒙的 25%)
题目长这样:核磁共振谱里某个化学位移的位置变化,对应的反应可能用了哪一族元素?4 选 1,但每个选项都精心设计成似是而非。这种题你想用搜索引擎走捷径基本没戏
GPQA Diamond 已经是开源/闭源大模型评测的「博士理科卷」标配,你看到的多数模型 GPQA 分数指的就是 Diamond 子集
目前最强:Kimi-K2.6
出品方 :Center for AI Safety(CAIS)× Scale AI,2026 年 1 月 Nature 正刊发表
测什么 : 人类知识前沿 的封闭式考试,定位是「最后一份这种类型的学术 benchmark」
数据形式 :2500 道公开题(另有私有集防过拟合),覆盖数学、理工、人文、医学、计算机等 100+ 学科;约 24% 是多选,其余是短答精确匹配;约 14% 题目带图(多模态)
参与出题的有近 1000 位贡献者,来自 50+ 国家、500+ 机构,绝大多数是科研一线的教授/博士
为啥叫「最后一卷」?因为 MMLU、GPQA 这种已经被顶级模型打到 90%+,区分度走到尽头。HLE 把难度往人类专家天花板推:
人类领域专家:约 90%
主流前沿模型(2026 年初):40-50% 上下
每道题答案都设计成可机器自动验证(精确匹配或单选),同时还能评估模型的「自信度校准」(calibration)——答错时它有没有自知之明
❝ 这是目前公认最难的封闭式学术 benchmark
目前最强:Kimi-K2.6
出品方 :题目源自 MAA(美国数学协会)每年举办的 American Invitational Mathematics Examination
测什么 : 奥数级 多步符号推理、代数/几何/数论/组合的硬核解题能力
数据形式 :30 道题(AIME I 15 道 + AIME II 15 道,2026 年 2 月刚开考),每题答案是 0–999 的整数 , 不给部分分
评测方式 :Pass@1 精确匹配,闭卷做题,没有任何工具/搜索辅助
为什么社区都在用 AIME 当数学 benchmark?
新鲜不污染 :每年题目当年 2 月才公开,对任何 2025 年前训练完的模型都是「真盲考」
不可背答案 :30 道全是新题,没有题库可背
强逼 CoT :每道题平均 5-10 步推理,不写思维链根本做不出
难度足够 :高中竞赛级,比 GSM8K、MATH 都更硬
人类顶级 AIME 选手中位数也就 4-6 题(约 30-40%),现在顶级 LLM 已经能做到 95%+,是 LLM 数学能力近两年突飞猛进最直接的证据
目前最强:Step-3.5-Flash
这个模型我不太了解啊,不评价
这个榜单 DeepSeek-V4 没参与
出品方 :题目来自 Harvard-MIT Math Tournament(HMMT),评测平台主要是 ETH Zurich SRI Lab 的 MathArena
测什么 :和 AIME 同类,但 整体更难 ——介于 AIME 和奥赛之间
数据形式 :2026 年 2 月赛的题目,覆盖代数、几何、数论、组合,部分是开放式答案
核心价值 : 反污染 ——MathArena 的设计原则就是用「赛后第一时间发布」的新题来测 LLM,确保模型没在训练集里见过
HMMT 是和 Putnam、AMC、AIME 齐名的顶级高中/大学预科数学竞赛,难度比 AIME 高一档。这也是为啥同样一个模型在 AIME 上能 95+,在 HMMT 上往往就掉到 80-90
如果你看到一个开源模型只刷 AIME 不刷 HMMT,那就要警惕——很可能在 AIME 上有「专项训练」,但在更难、更新的 HMMT 上原形毕露
目前最强:Kimi-K2.6
出品方 :Allen Institute for AI(AI2)
测什么 : 真实复杂文档 的 OCR / 文档理解能力(公式、表格、阅读顺序、扫描件、多栏排版……)
数据形式 :1403 份真实/合成 PDF,附带 7000+ 单元测试 (pass/fail 二元判定)
创新点 :不再用「整页字符串编辑距离」这种粗糙指标,而是把每道题做成 可机器验证的「事实断言」
具体来看,每个测试就是一条断言,比如:
「这段文字必须出现,且顺序正确」
「这个数学公式里 x 必须在分子位置」
「表格 A1 单元格的值必须出现在 B1 之上」
「页眉/页脚不该出现在正文里」
考点覆盖六大典型场景:arXiv 论文里的公式、复杂嵌套表格、多栏布局、老旧扫描件、密集小字、页眉页脚的去除
❝ 这是目前评测「VLM/OCR 模型在真实文档上能不能用」最严谨的开放 benchmark,国产 dots.ocr、PaddleOCR-VL、MinerU 等很多模型都在拿它打分
目前最强:不不熟悉的模型
眼熟的就拍第三的 dots
出品方 :Stanford × Laude Institute,Anthropic 等前沿实验室深度参与
测什么 :AI Agent 在 真实 Linux 终端 里完成端到端工程任务的能力
数据形式 :80+ 道人工策划任务(2.0 版本),每道题在独立 Docker 容器里运行,自动化测试判定成败
覆盖范围 :软件工程(构建/调试/部署)、系统管理(服务器配置/网络)、安全(漏洞评估/加密)、科学计算(蛋白质组装/数据流水线)、机器学习(模型训练/推理部署)
任务设计三原则:Solvable(人类有参考解法)、Realistic(真实工作场景)、Well-specified(成功标准明确可自动判定)
举几个真实题目你感受下:
编译指定版本 Linux Kernel 并打补丁
给内网服务配置自签 TLS 证书
调试一段并发 bug 的 Python async 代码
在显存/精度约束下跑完一次 ML 训练
评测框架叫 Harbor,统一管理 Agent 生命周期、命令交互、日志记录。这是目前 Anthropic、OpenAI、Google 都在卷的「Agentic 系统」实战考场,跟 SWE-bench 的「修代码」是互补的,更偏「在系统里干活」
目前最强:GLM-5.1
出品方 :开源团队(IIIIQIIII),论文挂在 arXiv 2601.09142
测什么 :模型在面对 敏感/尖锐问题 时,是否在用「话术绕过」「答非所问」这种隐性 evasion
数据来源 :2270 万对 S&P Capital IQ 上市公司财报电话会议 Q&A,过滤后构建 84000 训练集 + 1000 道金标测试集(专家标注)
它把 evasion 分成三档:
| 等级 | 含义 | ||| | Direct | 完整、明确地正面回答了核心问题 | | Intermediate | 给出相邻信息、打太极、拐弯抹角不正面回答 | | Fully Evasive | 直接忽略问题、拒答,或彻底跑题 |
标注方法用了 Multi-Model Consensus(MMC):多个强 LLM 投票打标,分歧大的题反而被当作「高价值难题」重点人工裁决,最终一致性 Cohen's κ = 0.835,相当扎实
配套还有一个 4B 参数的分类器 Eva-4B(基于 Qwen3-4B 微调),在金标集 Macro-F1 跑到 84.9%,反而把 Claude 4.5、GPT-5.2、Gemini 3 Flash 这些前沿模型都甩在后面——说明这件事「难在数据,不难在参数」
❝ 大模型评测从「答得对不对」走向「答得真不真」、「躲没躲」,这是个有意思的方向
这个就不截图了,N 多模型厂商不在此榜单公布分数了
One More Thing
回头看这 10 个 benchmark,其实可以分成 5 个能力维度,方便你下次看榜单时心里有数:
| 能力维度 | 对应 Benchmark | ||-| | 代码工程能力 | SWE-bench Verified、SWE-bench Pro | | 综合知识 + 推理 | MMLU-Pro、GPQA Diamond、HLE | | 数学推理 | AIME 2026、HMMT Feb 2026 | | 多模态/文档理解 | olmOCR-bench | | Agent 实战 | Terminal-Bench 2.0 | | 诚实性/对齐 | EvasionBench |
下次再看到一张写满 benchmark 的开源模型海报,至少不会再被一堆缩写绕晕了
几个看榜单的小建议:
别只看一个数 :每个 benchmark 测的是一个切面,编程强的不一定数学好,数学好的不一定 Agent 能力强
警惕「专项过拟合」 :只刷 AIME 不刷 HMMT、只刷 Verified 不刷 Pro,往往有猫腻
HLE 是新天花板 :MMLU/GPQA 已经卷到 90+,HLE 这种 40-50% 段位的 benchmark 才是接下来一两年衡量「前沿能力」的真正标尺
Agent 类 benchmark 是下一个主战场 :Terminal-Bench、SWE-bench Pro 这种长链路、真实环境的考核,比传统 QA 更能反映「能不能真用」
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
热门跟贴