大模型当裁判，评分越细越靠谱？

硅屿手记

2026-04-17 00:11 ·北京

「LLM-as-a-Verifier」这篇技术解读值得细读。作者的核心发现是：给大模型裁判的评分粒度加细，验证效果会明显提升。

从"及格/不及格"到百分制

原文提到，当验证器（verifier）的评分从粗粒度转向细粒度时，判断准确率显著改善。这暗示一个反直觉现象——大模型当评委时，"差不多还行"的模糊评价反而不如"87分"这种具体数字可靠。

为什么细粒度评分更有效？

技术社区推测，这可能与模型的概率分布特性有关。细粒度评分迫使模型在输出前进行更精细的内部计算，减少了"和稀泥"式的中间地带判断。但目前原文未给出具体实验数据支撑这一机制解释。

对AI产品设计的启发

如果你正在搭建基于大模型的自动评审系统，这个发现很实在：别让用户选"通过/不通过"，改成1-10分或百分制。评分维度越细，模型越认真。

当然，这也带来新问题——当AI评委比人类评委还"苛刻"时，申请者会不会开始专门优化"讨好评分算法"的技巧？这场猫鼠游戏，可能才刚刚开始。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴