仅需50道题就能测准GSM8K?大模型评测界的“瘦身革命”来了!
上海交通大学、阿里Qwen团队等提出 EssenceBench——首个由粗到细、结合进化算法的评测基准压缩框架。它不仅能剔除榜单中的“水分”,还能通过遗传算法(GA)精选出最具代表性的“精华题”,仅用 1/200 的数据量,就能实现 95% 的排名一致性!
就像一位经验丰富的考官,不用让学生做完整本五三模拟,只挑几道关键大题,就能精准排好全班座次。
论文基本信息
论文标题:Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data?
论文链接:https://arxiv.org/abs/2510.10457
Github地址:https://github.com/gszfwsb/EssenceBench
关键词:基准压缩、大模型评测、遗传算法、样本冗余、排名一致性
本文共同第一作者王少博(Shaobo Wang)为上海交通大学博士生,王聪(Cong Wang)来自上海交大 EPIC Lab, Wenjie Fu 来自复旦大学。通讯作者为其导师、上海交大助理教授张林峰。本文其他作者来自香港科技大学、上海AI Lab、智谱AI等机构。
01
评测大模型,跑分跑断腿?
模型有苦难言:“OpenCompass有上百个任务,测我一次要烧掉大约1000个GPU小时,能不能省省?”
随着大模型能力维度的扩张,Benchmark(评测基准)的数量和体积也急剧膨胀。传统的全量评测存在三大痛点:
贵:测一个Qwen2.5-7B-Instruct就要耗费数千万Token;
慢:迭代一个版本等评测结果要等到花儿都谢了;
水:很多题目其实是“重复造轮子”,测了也白测。
而 EssenceBench 就像评测界的“浓缩咖啡”——体积虽小,提神醒脑(效果保真)。
02
现象洞察:榜单“注水”有多严重?
EssenceBench 首先对Open LLM Leaderboard进行了深入的“体检”,发现样本冗余现象普遍存在。论文定义了两种冗余:
文本冗余 (Text Redundancy):
定义:利用 BGE-M3 等嵌入模型计算题目间的语义相似度。
现象:很多题目仅仅是更换了人名、地名或微调了句式,核心语义完全一致。这种“换皮题”在榜单中大量存在。
排名冗余 (Ranking Redundancy):
定义:这是一种更隐蔽的冗余。论文计算了不同题目在所有模型上的排名之间的皮尔逊相关系数。
现象:如果两道题,所有模型的得分模式都一样(例如:模型A、B都对,模型C、D都错),那么它们提供的“区分度信息”就是重复的。保留两道这样的题,除了增加计算量,无法提供更多关于模型能力差异的信息。
03
方法机制:由粗到细,遗传算法“进化”出黄金考卷
与传统的训练侧数据压缩不同,训练数据的压缩往往基于注意力分数,梯度,EL2N分数,保证最终的性能与全集数据训练的性能持平甚至超过。测试集压缩往往注重模型的排名一致性,而不简单的只进行分数重构。
EssenceBench 将基准压缩视为一个复杂的组合优化问题,提出了一个三阶段的由粗到细 (Coarse-to-Fine)框架:
1. 粗粒度过滤 (Coarse Filtering) —— 先把水的挤干
榜单里充斥着“孪生题”!EssenceBench 发现主要有两种冗余:
文本冗余:题目换个说法,意思完全一样;
排名冗余:有些题大家要么都对、要么都错,根本拉不开分差。 利用二进制得分矩阵,直接砍掉这些无效样本。
2. 子集搜索 (Subset Search) —— 遗传算法登场
如何在剩下的题目中选出最好的组合?暴力搜索是不可能的(组合数是天文数字)。EssenceBench 引入了遗传算法 (GA):
利用遗传算法 (GA)在剩下的题目中进行“优胜劣汰”;
通过交叉、变异、锦标赛选择,寻找能最小化预测误差(RMSE)的题目组合;
训练一个轻量级预测器(GAM),快速预判子集分数。
3. 归因细化 (attribution refinement) —— 归因分析保多样
为了防止选出来的题太偏(比如只选了难题,忽略了基础题),EssenceBench 引入了EBM (Explainable Boosting Machine)进行归因分析:
为了防止选出来的题太偏,利用EBM (Explainable Boosting Machine)计算样本归因分数;
根据分数将题目分组(高贡献、低贡献、随机),再次进行微观筛选,确保考卷既有区分度又覆盖全面。
这种策略确保了生成的考卷既有区分度(高贡献),又覆盖了容易被忽视的角落(低贡献),保证了评测的鲁棒性。
这一套组合拳打下来,既保证了分数准,又保证了排名稳!
04
实验结果:效果炸裂,刷新SOTA
1. 误差大幅降低
在五个主流榜单上,EssenceBench 的表现均优于 MetaBench、GraNd、PPL 等现有方法。在 GSM8K 数据集上,当子集大小为 500 时,EssenceBench 的预测误差(RMSE)仅为 0.3769,相比 SOTA 方法 MetaBench (0.9579) 降低了 60.7%。这意味着用极少的数据就能极准地预测模型分数。
2. 排名高度一致
评测的核心是“比大小”。EssenceBench 在压缩后,依然能完美保持模型间的相对排名。在 HellaSwag 上,EssenceBench(橙色)的排名波动显著小于 MetaBench(绿色)。即便压缩 200 倍(仅用 50 题),95% 的模型排名位移仍在 5% 以内。
05
案例分析:它到底剔除了什么
EssenceBench 之所以高效,是因为它拥有一双“火眼金睛”,能精准识别出那些看似不同、实则重复的题目。论文展示了两个极具代表性的剔除案例:
1. 文本冗余:换汤不换药的“孪生题”
在 GSM8K 数学集中,EssenceBench 发现了大量仅仅是数字或变量微调的题目:
题目 A:“Zack 的储物柜大小是 Timothy 的一半。Peter 的储物柜大小是 Zack 的 1/4。如果 Peter 的储物柜是 5 立方英寸,请问 Timothy 的储物柜是多少立方英寸?”
题目 B:“Timothy 的储物柜是 24 立方英寸。Zack 的储物柜大小是 Timothy 的一半。Peter 的储物柜大小是 Zack 的 1/4。请问 Peter 的储物柜是多少立方英寸?”
[解析]这两道题虽然问法相反(已知部分求整体 vs 已知整体求部分),但其核心考察的算术结构和逻辑链条是完全一致的。对于大模型来说,只要能做对 A,大概率也能做对 B。EssenceBench 果断剔除其中之一,避免了无效的重复测试。
2. 排名冗余:异曲同工的“隐形重复”
这是 EssenceBench 最“聪明”的地方——它能发现那些题面完全不同,但区分度完全一致的题目:
题目 A(货币计算):“Axel 有 50 个银比索和 80 个金比索。他去拜访朋友 Anna,Anna 拥有的银比索数量是 Axel 的两倍,金比索比 Axel 多 40 个。请问他们两人总共有多少比索?”
题目 B(考试计分):“Amy 正在参加历史考试。她答对了 80% 的多选题,90% 的判断题,以及 60% 的简答题。多选题和判断题每题 1 分,简答题每题 5 分。如果试卷上有 10 道多选题,20 道判断题和 5 道简答题,请问 Amy 得了多少分?”
[解析]乍一看,一个是算钱,一个是算分,风马牛不相及。但 EssenceBench 通过分析模型表现发现,这两道题在模型排名上的贡献是高度冗余的。它们都要求模型具备复杂的多步数值推理、中间变量推导以及加权求和的能力。 数据表明,能做对 A 的模型几乎都能做对 B,做错 A 的也几乎都做错 B。这意味着保留两道题并不会改变模型的相对排名,删掉一道,排名依然稳如泰山。
06
泛化能力:不止老榜单,新题库也通吃
EssenceBench 不仅在经典榜单上强,面对MathVista(多模态)、LiveMCPBench(Agent工具调用)、GPQA(博士级难题)等8个现代高难度基准测试,同样展现出强大的泛化能力。 例如在 GSM-Plus 对抗性数学评测中,RMSE 低至 0.010,几乎完美复刻全量榜单表现。
07
核心优势总结
相比于 MetaBench 或传统的基于梯度/困惑度的选择方法,EssenceBench 的杀手锏在于:
1. 考虑了样本间的相互作用:不是孤立地看一道题好不好,而是看它们组合起来能不能代表整体;
2. 搜索效率高:遗传算法比暴力搜索或简单启发式更聪明地在巨大空间中寻找最优解;
3. 关注排名一致性:评测的核心是“比大小”,EssenceBench 紧紧咬住 Rank Stability 这一关键指标。
08
启示与未来
EssenceBench 告诉我们,大模型评测的“摩尔定律”失效了——榜单规模的指数级增长是不可持续的。未来的评测范式将从“大数据暴力测试”转向“小数据精准评估”。
只要考题出得精,几百道题足矣看穿一个千亿参数模型的真实水平。从此以后,评测不再是巨头专属的“算力游戏”,小实验室也能快速迭代、精准打榜!
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴