「LLM-as-a-Verifier」这篇技术解读值得细读。作者的核心发现是:给大模型裁判的评分粒度加细,验证效果会明显提升。

从"及格/不及格"到百分制

打开网易新闻 查看精彩图片

原文提到,当验证器(verifier)的评分从粗粒度转向细粒度时,判断准确率显著改善。这暗示一个反直觉现象——大模型当评委时,"差不多还行"的模糊评价反而不如"87分"这种具体数字可靠。

为什么细粒度评分更有效?

技术社区推测,这可能与模型的概率分布特性有关。细粒度评分迫使模型在输出前进行更精细的内部计算,减少了"和稀泥"式的中间地带判断。但目前原文未给出具体实验数据支撑这一机制解释。

对AI产品设计的启发

如果你正在搭建基于大模型的自动评审系统,这个发现很实在:别让用户选"通过/不通过",改成1-10分或百分制。评分维度越细,模型越认真。

当然,这也带来新问题——当AI评委比人类评委还"苛刻"时,申请者会不会开始专门优化"讨好评分算法"的技巧?这场猫鼠游戏,可能才刚刚开始。