开源大模型榜单,10个主流Benchmark一次讲清，附排名|benchmark|多模态|大模型|拟合|推理|数学

开源大模型必会附上在不同 benchmark 上的刷分情况以及排名

SWE-bench、GPQA、HLE、Terminal-Bench……

很多同学看不明白，这些 benchmark 都具体考验的模型的哪些能力

刚在 HF 上看到一个动态 race 图展示最近一年开源大模型在不同 benchmark 上，不同大模型的排名

本文就逐个、详细介绍一下

地址：huggingface.co/spaces/davanstrien/benchmark-race 一、SWE-bench Verified —— 真实代码仓库的「修 bug 终极考」

出品方 ：OpenAI × Princeton（Preparedness 团队联合普林斯顿）
测什么 ：AI Agent 在 真实开源项目 里端到端解决 GitHub Issue 的能力
数据形式 ：500 道经过人工筛查的任务，全部来自 12 个主流 Python 开源仓库（Django、sympy、scikit-learn 等）
怎么算对 ：每道题自带两组单元测试—— FAIL_TO_PASS （修好后才该通过）+ PASS_TO_PASS （不能把别的功能改坏），全部通过才算解决

为啥叫 Verified？因为原版 SWE-bench 里有不少题目本身描述模糊、测试不靠谱，会冤枉模型。OpenAI 找了一批专业工程师把 2294 道题逐道筛选，留下 500 道描述清晰、测试合理、人类工程师能搞定的高质量题，作为业界公认的「干净版」SWE-bench

简单说就是：把 AI 当一个真实程序员丢进开源项目里，让它自己读 issue、自己改代码、自己跑测试，看它能不能把 bug 真的修掉

❝ 这是衡量「AI 编程 Agent」能力最权威的指标之一

目前最强：DeepSeek-V4-Pro

我没想到 DeepSeek-V4-Flash 居然也这么强，可以拍第三

SWE-bench Verified 二、SWE-bench Pro —— 工业级长链路代码工程考核

出品方 ：Scale AI

测什么 ：在 更大、更脏、更长链路 的工程任务上，Agent 能不能扛得住

数据形式 ：1865 道人工验证的任务，覆盖 41 个仓库，平均一个补丁要改 100+ 行代码、跨多个文件

核心创新 ：抗污染设计，专门用 GPL 强 copyleft 协议仓库 + 商业闭源仓库，降低被训练数据「背过」的可能

数据集分三块：

Public Set（731 题，11 个开源仓库，公开可评测）
Held-Out Set（858 题，12 个私有仓库，防过拟合）
Commercial Set（276 题，18 个商业仓库，仅放榜不放数据）

主指标叫 Resolve Rate——Agent 给出的补丁能否在 Docker 隔离环境里完整通过 build + test

为什么要搞 Pro 版？因为 SWE-bench Verified 任务相对短小，而真实工业代码动不动就几百行修改、跨多文件重构。SWE-bench Pro 就是冲着「长程任务（long-horizon）」去的，目前顶级模型 Pass@1 也就 25% 左右，区分度极强

目前最强：Kimi-K2.6

SWE-bench Pro 三、MMLU-Pro —— MMLU 的「加难版」，14 个学科混合推理

出品方 ：滑铁卢大学 TIGER-Lab，NeurIPS 2024 收录

测什么 ：跨学科知识 + 推理能力 （不再是单纯背知识）

数据形式 ：12000+ 道题，覆盖数学、物理、化学、生物、计算机、经济、法律、心理、哲学等 14 个学科

关键改造 ：选项从 4 个扩到 10 个 ，蒙对概率从 25% 直降到 10%；同时剔除 MMLU 里的噪声题、加入更多需要多步推理的难题

老牌的 MMLU 这两年已经被打榜打到「饱和」，顶级模型动辄 88-90%，区分不出谁更强。MMLU-Pro 一上来就把所有模型分数砍掉 16-33%，重新拉开差距

更关键的变化：在 MMLU 上「直接答」往往比 CoT（思维链）还好；但在 MMLU-Pro 上，**带 CoT 推理的提分能到 20%**，说明它真的在测推理而不是测记忆

❝ 简单理解：MMLU-Pro 是给 LLM 准备的「研究生综合考试」，知识面 + 推理力一起考

目前最强：Qwen3.5-397B-A17B

为何不是 Qwen3.6，因为它没开源呢

MMLU-Pro 四、GPQA Diamond —— 博士级别的「Google-Proof」科学推理

出品方 ：NYU + Cohere + Anthropic 联合研究团队

测什么 ： 博士级 生物、物理、化学的硬核推理能力

数据形式 ：从原版 GPQA 448 道题里抽出 最难的 198 道 作为 Diamond 子集，全是 PhD 出题、PhD 复核

核心特性 ：Google-Proof—— 专家联网搜也搜不到答案 ，必须靠真理解

人类参考分数很有意思：

学科内 PhD 专家：约 81% 准确率
学科外的高水平非专家（联网答题）：约 22%（基本等于瞎蒙的 25%）

题目长这样：核磁共振谱里某个化学位移的位置变化，对应的反应可能用了哪一族元素？4 选 1，但每个选项都精心设计成似是而非。这种题你想用搜索引擎走捷径基本没戏

GPQA Diamond 已经是开源/闭源大模型评测的「博士理科卷」标配，你看到的多数模型 GPQA 分数指的就是 Diamond 子集

目前最强：Kimi-K2.6

GPQA Diamond 五、HLE（Humanity's Last Exam）—— 人类的「最后一卷」

出品方 ：Center for AI Safety（CAIS）× Scale AI，2026 年 1 月 Nature 正刊发表

测什么 ： 人类知识前沿 的封闭式考试，定位是「最后一份这种类型的学术 benchmark」

数据形式 ：2500 道公开题（另有私有集防过拟合），覆盖数学、理工、人文、医学、计算机等 100+ 学科；约 24% 是多选，其余是短答精确匹配；约 14% 题目带图（多模态）

参与出题的有近 1000 位贡献者，来自 50+ 国家、500+ 机构，绝大多数是科研一线的教授/博士

为啥叫「最后一卷」？因为 MMLU、GPQA 这种已经被顶级模型打到 90%+，区分度走到尽头。HLE 把难度往人类专家天花板推：

人类领域专家：约 90%
主流前沿模型（2026 年初）：40-50% 上下

每道题答案都设计成可机器自动验证（精确匹配或单选），同时还能评估模型的「自信度校准」（calibration）——答错时它有没有自知之明

❝ 这是目前公认最难的封闭式学术 benchmark

目前最强：Kimi-K2.6

出品方 ：题目源自 MAA（美国数学协会）每年举办的 American Invitational Mathematics Examination

测什么 ： 奥数级 多步符号推理、代数/几何/数论/组合的硬核解题能力

数据形式 ：30 道题（AIME I 15 道 + AIME II 15 道，2026 年 2 月刚开考），每题答案是 0–999 的整数 ， 不给部分分

评测方式 ：Pass@1 精确匹配，闭卷做题，没有任何工具/搜索辅助

为什么社区都在用 AIME 当数学 benchmark？

新鲜不污染 ：每年题目当年 2 月才公开，对任何 2025 年前训练完的模型都是「真盲考」
不可背答案 ：30 道全是新题，没有题库可背
强逼 CoT ：每道题平均 5-10 步推理，不写思维链根本做不出
难度足够 ：高中竞赛级，比 GSM8K、MATH 都更硬

人类顶级 AIME 选手中位数也就 4-6 题（约 30-40%），现在顶级 LLM 已经能做到 95%+，是 LLM 数学能力近两年突飞猛进最直接的证据

目前最强：Step-3.5-Flash

这个模型我不太了解啊，不评价

这个榜单 DeepSeek-V4 没参与

AIME 2026 七、HMMT Feb 2026 —— 哈佛-MIT 数学竞赛 2 月赛

出品方 ：题目来自 Harvard-MIT Math Tournament（HMMT），评测平台主要是 ETH Zurich SRI Lab 的 MathArena

测什么 ：和 AIME 同类，但 整体更难 ——介于 AIME 和奥赛之间

数据形式 ：2026 年 2 月赛的题目，覆盖代数、几何、数论、组合，部分是开放式答案

核心价值 ： 反污染 ——MathArena 的设计原则就是用「赛后第一时间发布」的新题来测 LLM，确保模型没在训练集里见过

HMMT 是和 Putnam、AMC、AIME 齐名的顶级高中/大学预科数学竞赛，难度比 AIME 高一档。这也是为啥同样一个模型在 AIME 上能 95+，在 HMMT 上往往就掉到 80-90

如果你看到一个开源模型只刷 AIME 不刷 HMMT，那就要警惕——很可能在 AIME 上有「专项训练」，但在更难、更新的 HMMT 上原形毕露

目前最强：Kimi-K2.6

HMMT Feb 2026 八、olmOCR-bench —— 文档 OCR 的「单元测试式」评测

出品方 ：Allen Institute for AI（AI2）

测什么 ： 真实复杂文档 的 OCR / 文档理解能力（公式、表格、阅读顺序、扫描件、多栏排版……）

数据形式 ：1403 份真实/合成 PDF，附带 7000+ 单元测试 （pass/fail 二元判定）

创新点 ：不再用「整页字符串编辑距离」这种粗糙指标，而是把每道题做成 可机器验证的「事实断言」

具体来看，每个测试就是一条断言，比如：

「这段文字必须出现，且顺序正确」
「这个数学公式里 x 必须在分子位置」
「表格 A1 单元格的值必须出现在 B1 之上」
「页眉/页脚不该出现在正文里」

考点覆盖六大典型场景：arXiv 论文里的公式、复杂嵌套表格、多栏布局、老旧扫描件、密集小字、页眉页脚的去除

❝ 这是目前评测「VLM/OCR 模型在真实文档上能不能用」最严谨的开放 benchmark，国产 dots.ocr、PaddleOCR-VL、MinerU 等很多模型都在拿它打分

目前最强：不不熟悉的模型

眼熟的就拍第三的 dots

olmOCR-bench 九、Terminal-Bench 2.0 —— Agent 在真实命令行里搞工程

出品方 ：Stanford × Laude Institute，Anthropic 等前沿实验室深度参与
测什么 ：AI Agent 在 真实 Linux 终端 里完成端到端工程任务的能力
数据形式 ：80+ 道人工策划任务（2.0 版本），每道题在独立 Docker 容器里运行，自动化测试判定成败
覆盖范围 ：软件工程（构建/调试/部署）、系统管理（服务器配置/网络）、安全（漏洞评估/加密）、科学计算（蛋白质组装/数据流水线）、机器学习（模型训练/推理部署）

任务设计三原则：Solvable（人类有参考解法）、Realistic（真实工作场景）、Well-specified（成功标准明确可自动判定）

举几个真实题目你感受下：

编译指定版本 Linux Kernel 并打补丁
给内网服务配置自签 TLS 证书
调试一段并发 bug 的 Python async 代码
在显存/精度约束下跑完一次 ML 训练

评测框架叫 Harbor，统一管理 Agent 生命周期、命令交互、日志记录。这是目前 Anthropic、OpenAI、Google 都在卷的「Agentic 系统」实战考场，跟 SWE-bench 的「修代码」是互补的，更偏「在系统里干活」

目前最强：GLM-5.1

Terminal-Bench 2.0 十、EvasionBench —— 检测 LLM「答非所问、避而不答」

出品方 ：开源团队（IIIIQIIII），论文挂在 arXiv 2601.09142

测什么 ：模型在面对 敏感/尖锐问题 时，是否在用「话术绕过」「答非所问」这种隐性 evasion

数据来源 ：2270 万对 S&P Capital IQ 上市公司财报电话会议 Q&A，过滤后构建 84000 训练集 + 1000 道金标测试集（专家标注）

它把 evasion 分成三档：

| 等级 | 含义 | ||| | Direct | 完整、明确地正面回答了核心问题 | | Intermediate | 给出相邻信息、打太极、拐弯抹角不正面回答 | | Fully Evasive | 直接忽略问题、拒答，或彻底跑题 |

标注方法用了 Multi-Model Consensus（MMC）：多个强 LLM 投票打标，分歧大的题反而被当作「高价值难题」重点人工裁决，最终一致性 Cohen's κ = 0.835，相当扎实

配套还有一个 4B 参数的分类器 Eva-4B（基于 Qwen3-4B 微调），在金标集 Macro-F1 跑到 84.9%，反而把 Claude 4.5、GPT-5.2、Gemini 3 Flash 这些前沿模型都甩在后面——说明这件事「难在数据，不难在参数」

❝ 大模型评测从「答得对不对」走向「答得真不真」、「躲没躲」，这是个有意思的方向

这个就不截图了，N 多模型厂商不在此榜单公布分数了

One More Thing

回头看这 10 个 benchmark，其实可以分成 5 个能力维度，方便你下次看榜单时心里有数：

| 能力维度 | 对应 Benchmark | ||-| | 代码工程能力 | SWE-bench Verified、SWE-bench Pro | | 综合知识 + 推理 | MMLU-Pro、GPQA Diamond、HLE | | 数学推理 | AIME 2026、HMMT Feb 2026 | | 多模态/文档理解 | olmOCR-bench | | Agent 实战 | Terminal-Bench 2.0 | | 诚实性/对齐 | EvasionBench |

下次再看到一张写满 benchmark 的开源模型海报，至少不会再被一堆缩写绕晕了

几个看榜单的小建议：

别只看一个数 ：每个 benchmark 测的是一个切面，编程强的不一定数学好，数学好的不一定 Agent 能力强
警惕「专项过拟合」 ：只刷 AIME 不刷 HMMT、只刷 Verified 不刷 Pro，往往有猫腻
HLE 是新天花板 ：MMLU/GPQA 已经卷到 90+，HLE 这种 40-50% 段位的 benchmark 才是接下来一两年衡量「前沿能力」的真正标尺
Agent 类 benchmark 是下一个主战场 ：Terminal-Bench、SWE-bench Pro 这种长链路、真实环境的考核，比传统 QA 更能反映「能不能真用」

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！