数学题判卷，为什么机器比人还死板？

固件更新中

2026-04-28 16:21 ·北京

你有没有想过，那些号称能解高考数学题的AI，可能本来做对了，却被系统判了零分？

4月24日提交到arXiv的一篇论文，揭露了一个尴尬的行业现状：主流数学评测框架Lighteval和SimpleRL，正在用"字符串匹配"的方式给AI判卷。1/2和0.5被当成错误答案，只因为格式不对。

谁发现了这个问题

论文作者团队设计了一套"大语言模型当裁判"（LLM-as-a-Judge）的评测框架，核心思路很简单：不再比对字符串是否完全相同，而是让另一个AI来判断——这两个数学答案，本质上是不是一回事？

他们在论文中展示了具体的失败案例。在Lighteval和SimpleRL这两个广泛使用的评测框架里，符号化对比方法会产生"假阴性"——模型其实做对了，却被系统标记为错误。这种系统性的低估，直接影响我们对AI数学能力的判断。

作者没有透露他们用了哪个具体模型当"裁判"，也没有给出延迟或成本的对比数据。但这套框架被设计成"即插即用"的替换方案，可以直接接入现有的评测流水线。

为什么符号对比会失效

数学答案的表达方式极其灵活。同样是二分之一，可以写成1/2、0.5、\frac{1}{2}，甚至"half"。符号对比系统需要预设所有可能的等价形式，这几乎是不可能完成的任务。

更麻烦的是解题路径。一道题可能有多种正确解法，最终答案的形式也会不同。符号对比只认"标准答案"的精确字符串，其他一律判错。

论文作者指出，这种脆弱性在模型接近人类水平时尤为致命。当AI在MATH、GSM8K等竞赛级题目上的表现越来越好，评测方法本身的误差反而成了瓶颈——你可能看到模型"停滞"了，实际上它是被误判卡住了。

用AI评AI，代价是什么

LLM-as-a-Judge的代价显而易见：计算成本。符号对比几乎是瞬间完成，而调用大模型做判断需要时间和金钱。作者没有给出具体数字，但承认这是一种"用计算换鲁棒性"的权衡。

这种权衡是否值得？论文的立场很明确：对于高风险的基准测试， yes。如果评测本身不可靠，那么所有基于它的研究结论都站不住脚。

不过作者也保持了克制。他们在论文中承认，类似的"AI评AI"思路已经在摘要生成、代码生成等领域出现过。这次的创新点在于针对数学推理的特定场景做了适配，而非提出全新的方法论。

这件事为什么重要

数学评测是衡量大语言模型能力的核心标尺之一。如果这个标尺本身有系统性偏差，整个行业的进展评估都会失真。

论文揭示了一个更深层的趋势：评测基础设施正在成为大模型研究的瓶颈。我们花了大量精力训练更好的模型，却还在用粗糙的工具衡量它们。当模型能力逼近甚至超越人类时，这种错配只会越来越严重。

作者没有给出框架的具体准确率数字，只定性描述了"在多种数学表达形式下检测到正确答案的能力更强"。这种谨慎反而增加了说服力——在缺乏完整数据时，不做过度承诺。

一个值得关注的细节：论文提交日期是2026年4月24日。这意味着我们讨论的是一项非常新的工作，其影响还有待社区检验。它会被主流评测框架采纳，还是成为又一个被遗忘的提案？

目前可以确定的是，Lighteval和SimpleRL的用户需要重新审视自己的评测结果。如果你的模型在数学题上"突然退步"，也许问题不在模型，而在判卷系统。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴