打开网易新闻 查看精彩图片

本文共同第一作者王一栋(北京大学)和宋昀泽(新加坡国立大学)主要从事大语言模型评估与对齐研究。通讯作者王存翔(清华大学)和叶蔚、张世琨(北京大学)分别在自然语言处理、软件工程和知识推理等方向有长期积累。团队成员来自北大清华、南大、NUS、CMU、西湖大学、东南大学、东京科学大学等多所高校,长期关注 LLM 可信评估问题。

让 GPT-4 给两篇文章打分,A 拿了 4 分、B 拿了 3 分。按常理 A 应该比 B 好吧?但换成成对比较,同一个模型却说「B 更好」。更离谱的情况也有——A > B > C > A 的「石头剪刀布」循环,连传递性都守不住。这事还真不少见。

北京大学、清华大学等八所高校的研究团队在ICLR 2026上提出了TrustJudge,一个基于概率的评估框架。核心想法不复杂:与其让模型吐一个离散分数了事,不如把它内部的完整概率分布也用上。不用额外训练,评估不一致性就降了一大截,准确率还跟着涨了。

打开网易新闻 查看精彩图片

  • 论文标题:TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
  • 作者:Yidong Wang*, Yunze Song*, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Cunxiang Wang†, Wei Ye†, Shikun Zhang†
  • 单位:北京大学、清华大学、新加坡国立大学、南京大学、卡内基梅隆大学、西湖大学、东南大学、东京科学大学
  • 论文链接:https://arxiv.org/abs/2509.21117
  • 开源代码:https://github.com/TrustJudge/TrustJudge

01|问题有多严重?

用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。但这个裁判的两种考法给出的结论,经常打架。

TrustJudge 的作者做了系统测量,把问题量化成了两类:

评分-比较不一致(Score-Comparison Inconsistency)

打分时 A 比 B 高,拉到一起比较时又说 B 好。用 Llama-3.1-70B 测试,不一致率 23.32%——差不多每四次评估就矛盾一次。

成对传递性不一致(Pairwise Transitivity Inconsistency)

成对比较出现循环偏好(A > B > C > A)或者等价矛盾(A = B = C 但 A ≠ C)。Llama-3.1-70B 上的不一致率是15.22%

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 1:左图是 Llama-3 系列在 1,200 条指令上的评分熵分布,右图是成对比较中两种传递性错误的占比。

02|问题出在哪?

数据摆出来了,接下来的问题是:这两类不一致的根源是什么?作者从信息论的角度做了归因。

离散评分丢信息

5 分制打分,本质上是把模型心里的连续判断硬塞进几个整数格子里。比方说两条回复质量分别是 3.8 和 4.2,5 分制下都成了 4 分,打分看不出差别。但拉到一起做比较,模型是感知得到这 0.4 差距的——矛盾就这么来了。

作者还在理论上证了一条:存在两个不同的概率分布,离散评分下完全相同,但信息熵不同。换句话说,离散化在结构上就一定会丢东西。

模糊平局带来传递性问题

做成对比较时,模型对质量相近的回复经常给「平局」。但平局和平局不一样——有的是模型真觉得半斤八两,有的纯粹是拿不准。这些「含糊的平局」在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。

03|TrustJudge 怎么做的?

思路说白了就一句话:别只取模型吐出的那个离散答案,把背后的概率分布也用起来。框架分两块:

分布敏感评分(Distribution-Sensitive Scoring)

传统做法是让模型输出一个分数然后直接采纳。TrustJudge 不这样干:

  • 把评分尺度从 5 分拉到 100 分,先把粒度给够。
  • 对所有候选分数的 logits 做 softmax,得到一个完整的概率分布。
  • 算加权期望作为最终分数:

打开网易新闻 查看精彩图片

效果就是:原来 5 分制下都是 4 分的两条回复,现在一个 3.82、一个 4.17,差异保住了。

跟 G-Eval 的区别在于,TrustJudge 用 softmax 归一化确保概率和严格为 1,不会被非评分 token 干扰。

似然感知聚合(Likelihood-Aware Aggregation)

成对比较这边,TrustJudge 给了两种策略来打破平局:

策略一:基于困惑度(PPL-Based)

遇到平局时,分别算 A 在前和 B 在前两种排列的困惑度,选困惑度低的那个方向的结果——模型读起来更通顺的排列,判断往往更靠谱:

打开网易新闻 查看精彩图片

策略二:双向概率聚合

把两个方向的偏好概率加起来,取置信度最高的:

打开网易新闻 查看精彩图片

由于是两个方向聚合,位置偏差(position bias)也在这个过程中被抵消了。

04|理论上也站得住

上面的方法直觉上说得通,但有没有更严格的保证?作者给出了形式化的理论证明:

打开网易新闻 查看精彩图片

一句话概括:信息保留得更多了,判断的不确定性降下去了。

05|实验结果

实验数据来自 MT-Bench(80 题)和 ArenaHard(500 题),裁判模型覆盖 Llama-3 系列(3B / 8B / 70B)和 GPT-4o。

主实验

打开网易新闻 查看精彩图片

表 1:所有模型上两类不一致性都明显下降,精确匹配率同步上升。其中 Llama-3.2-3B 的传递性不一致从 54.69% 直接降到 17.76%,落差接近 37 个点。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 2:不同容忍度 δ 下的不一致性对比。TrustJudge(方块 / 三角)在各个设置下都低于 Baseline(虚线)。

消融实验

为了搞清楚每个组件的贡献,作者做了逐项消融(这里额外加入了 GPT-3.5-Turbo 作为参考):

打开网易新闻 查看精彩图片

表 2:逐个拆开看,softmax 归一化和 100 分制对评分不一致各有贡献;似然聚合和 PPL 方法对传递性不一致效果都很明显,似然聚合整体略优。

06|换个模型还管用吗?

上面的主实验只用了 Llama-3 和 GPT-4o。一个自然的问题是:换成别的架构还有效吗?

管用。作者把实验扩展到Qwen-2.5(7B / 14B / 32B)、Gemma-2(2B / 9B / 27B)、Llama-3(3B / 8B / 70B)、GPT四个家族、共 12 个变体。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 3:四个模型家族上的不一致性对比。左图为评分-比较不一致,右图为传递性不一致,TrustJudge 在所有架构上都有改善。

几个值得注意的点:

  • 分布敏感评分的效果跟模型架构无关,都能降不一致性。
  • 加上似然感知聚合后,8B 模型的传递性甚至比未使用 TrustJudge 的 70B 模型更好。
  • 9B 的 Gemma 比 27B 的 Gemma 不一致性更低——不是越大越好。

07|推理模型反而更不靠谱

一个意外发现:专门练过推理能力的模型,做评估时反而更容易自相矛盾。

打开网易新闻 查看精彩图片

DeepSeek-R1 蒸馏版的评分-比较不一致率58.75%,是同参数量 Llama 的将近两倍。看起来在数学数据上做强化训练这件事,是以评估能力为代价的。

不过 TrustJudge 在这么高的不一致基线上依然有效:CR 降了将近 10 个点,传递性不一致从 63.98% 压到了 18.50%。

08|拿来做 Reward 也好使

除了评估,TrustJudge 还有一个实际用途:给强化学习提供奖励信号。

作者把它接到GRPO(Group Relative Policy Optimization)上训练 Qwen2.5-7B-Instruct,训练数据覆盖摘要、数学推理、指令遵循等,一共 8,600 条。

打开网易新闻 查看精彩图片

表 3:用 Baseline 奖励训练的模型在两种协议下都没超过原始模型(反而略降);用 TrustJudge 奖励训练的模型两边都涨了。

打开网易新闻 查看精彩图片

图 4:训练过程中的奖励变化。TrustJudge 的奖励信号全程高于 Baseline。

打开网易新闻 查看精彩图片

图 5:验证集上各任务的奖励曲线,实线是 TrustJudge,虚线是 Baseline。改善不是靠单个任务拉的,是全面的。

道理也好理解:评估越一致,奖励信号噪声越小,模型学得越准。

09|光提高打分精度够不够?

看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5 分 → 100 分),又加了概率归一化。那要是我只做前者,不做后者,行不行?

打开网易新闻 查看精彩图片

图 6:5 分、10 分、100 分三档粒度下的不一致性变化。粒度越高不一致越低,但在同一粒度下 TrustJudge(虚线)始终低于 Baseline(实线)。

结论是:提高粒度有帮助,但光靠粒度不够。TrustJudge 赢在粒度提升 + 概率归一化两件事叠加到一起。

10|小结

TrustJudge 做的事情可以用两句话讲清楚:

  • 离散评分丢信息→ 改用分布敏感评分,把概率分布的信息保住。
  • 模糊平局坏传递性→ 改用似然感知聚合,让模糊判定变得清晰。

实际效果上,它不用训练,开箱即用;跨 Llama、GPT、Qwen、Gemma 四个架构都有效;除了做评估,接上 GRPO 当奖励信号也能用;而且有理论证明兜底。说到底,如果我们要让大模型来当裁判,总得先确认这个裁判自己别前后矛盾才行。