你有没有想过,那些号称能解高考数学题的AI,可能本来做对了,却被系统判了零分?

4月24日提交到arXiv的一篇论文,揭露了一个尴尬的行业现状:主流数学评测框架Lighteval和SimpleRL,正在用"字符串匹配"的方式给AI判卷。1/2和0.5被当成错误答案,只因为格式不对。

打开网易新闻 查看精彩图片

谁发现了这个问题

论文作者团队设计了一套"大语言模型当裁判"(LLM-as-a-Judge)的评测框架,核心思路很简单:不再比对字符串是否完全相同,而是让另一个AI来判断——这两个数学答案,本质上是不是一回事?

他们在论文中展示了具体的失败案例。在Lighteval和SimpleRL这两个广泛使用的评测框架里,符号化对比方法会产生"假阴性"——模型其实做对了,却被系统标记为错误。这种系统性的低估,直接影响我们对AI数学能力的判断。

作者没有透露他们用了哪个具体模型当"裁判",也没有给出延迟或成本的对比数据。但这套框架被设计成"即插即用"的替换方案,可以直接接入现有的评测流水线。

为什么符号对比会失效

数学答案的表达方式极其灵活。同样是二分之一,可以写成1/2、0.5、\frac{1}{2},甚至"half"。符号对比系统需要预设所有可能的等价形式,这几乎是不可能完成的任务。

更麻烦的是解题路径。一道题可能有多种正确解法,最终答案的形式也会不同。符号对比只认"标准答案"的精确字符串,其他一律判错。

论文作者指出,这种脆弱性在模型接近人类水平时尤为致命。当AI在MATH、GSM8K等竞赛级题目上的表现越来越好,评测方法本身的误差反而成了瓶颈——你可能看到模型"停滞"了,实际上它是被误判卡住了。

用AI评AI,代价是什么

LLM-as-a-Judge的代价显而易见:计算成本。符号对比几乎是瞬间完成,而调用大模型做判断需要时间和金钱。作者没有给出具体数字,但承认这是一种"用计算换鲁棒性"的权衡。

这种权衡是否值得?论文的立场很明确:对于高风险的基准测试, yes。如果评测本身不可靠,那么所有基于它的研究结论都站不住脚。

不过作者也保持了克制。他们在论文中承认,类似的"AI评AI"思路已经在摘要生成、代码生成等领域出现过。这次的创新点在于针对数学推理的特定场景做了适配,而非提出全新的方法论。

这件事为什么重要

数学评测是衡量大语言模型能力的核心标尺之一。如果这个标尺本身有系统性偏差,整个行业的进展评估都会失真。

论文揭示了一个更深层的趋势:评测基础设施正在成为大模型研究的瓶颈。我们花了大量精力训练更好的模型,却还在用粗糙的工具衡量它们。当模型能力逼近甚至超越人类时,这种错配只会越来越严重。

作者没有给出框架的具体准确率数字,只定性描述了"在多种数学表达形式下检测到正确答案的能力更强"。这种谨慎反而增加了说服力——在缺乏完整数据时,不做过度承诺。

一个值得关注的细节:论文提交日期是2026年4月24日。这意味着我们讨论的是一项非常新的工作,其影响还有待社区检验。它会被主流评测框架采纳,还是成为又一个被遗忘的提案?

目前可以确定的是,Lighteval和SimpleRL的用户需要重新审视自己的评测结果。如果你的模型在数学题上"突然退步",也许问题不在模型,而在判卷系统。