ICLR 2026 | 大模型当裁判也「翻车」？北大清华联合多校提出TrustJudge|trustjudge|不一致|似然|信号|北大清华|大模型|实验

来源：市场资讯

本文共同第一作者王一栋（北京大学）和宋昀泽（新加坡国立大学）主要从事大语言模型评估与对齐研究。通讯作者王存翔（清华大学）和叶蔚、张世琨（北京大学）分别在自然语言处理、软件工程和知识推理等方向有长期积累。团队成员来自北大、清华、南大、NUS、CMU、西湖大学、东南大学、东京科学大学等多所高校，长期关注 LLM 可信评估问题。

让 GPT-4 给两篇文章打分，A 拿了 4 分、B 拿了 3 分。按常理 A 应该比 B 好吧？但换成成对比较，同一个模型却说「B 更好」。更离谱的情况也有——A > B > C > A 的「石头剪刀布」循环，连传递性都守不住。这事还真不少见。

北京大学、清华大学等八所高校的研究团队在 ICLR 2026 上提出了 TrustJudge，一个基于概率的评估框架。核心想法不复杂：与其让模型吐一个离散分数了事，不如把它内部的完整概率分布也用上。不用额外训练，评估不一致性就降了一大截，准确率还跟着涨了。

论文标题：TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
作者：Yidong Wang*, Yunze Song*, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Cunxiang Wang†, Wei Ye†, Shikun Zhang†
单位：北京大学、清华大学、新加坡国立大学、南京大学、卡内基梅隆大学、西湖大学、东南大学、东京科学大学
论文链接：https://arxiv.org/abs/2509.21117
开源代码：https://github.com/TrustJudge/TrustJudge

01｜问题有多严重？

用大模型给其他模型当裁判，已经是评估界的标配——MT-Bench 用单项评分，AlpacaEval 用成对比较，RLHF/GRPO 做偏好标注。但这个裁判的两种考法给出的结论，经常打架。

TrustJudge 的作者做了系统测量，把问题量化成了两类：

评分-比较不一致（Score-Comparison Inconsistency）

打分时 A 比 B 高，拉到一起比较时又说 B 好。用 Llama-3.1-70B 测试，不一致率 23.32%——差不多每四次评估就矛盾一次。

成对传递性不一致（Pairwise Transitivity Inconsistency）

成对比较出现循环偏好（A > B > C > A）或者等价矛盾（A = B = C 但 A ≠ C）。Llama-3.1-70B 上的不一致率是 15.22%。

02｜问题出在哪？

数据摆出来了，接下来的问题是：这两类不一致的根源是什么？作者从信息论的角度做了归因。

离散评分丢信息

5 分制打分，本质上是把模型心里的连续判断硬塞进几个整数格子里。比方说两条回复质量分别是 3.8 和 4.2，5 分制下都成了 4 分，打分看不出差别。但拉到一起做比较，模型是感知得到这 0.4 差距的——矛盾就这么来了。

作者还在理论上证了一条：存在两个不同的概率分布，离散评分下完全相同，但信息熵不同。换句话说，离散化在结构上就一定会丢东西。

模糊平局带来传递性问题

做成对比较时，模型对质量相近的回复经常给「平局」。但平局和平局不一样——有的是模型真觉得半斤八两，有的纯粹是拿不准。这些「含糊的平局」在不同组合里不一致地冒出来，A = B、B = C、但 A ≠ C 的情况就出现了。

03｜TrustJudge 怎么做的？

思路说白了就一句话：别只取模型吐出的那个离散答案，把背后的概率分布也用起来。框架分两块：

分布敏感评分（Distribution-Sensitive Scoring）

传统做法是让模型输出一个分数然后直接采纳。TrustJudge 不这样干：

把评分尺度从 5 分拉到 100 分，先把粒度给够。
对所有候选分数的 logits 做 softmax，得到一个完整的概率分布。
算加权期望作为最终分数：

效果就是：原来 5 分制下都是 4 分的两条回复，现在一个 3.82、一个 4.17，差异保住了。

跟 G-Eval 的区别在于，TrustJudge 用 softmax 归一化确保概率和严格为 1，不会被非评分 token 干扰。

似然感知聚合（Likelihood-Aware Aggregation）

成对比较这边，TrustJudge 给了两种策略来打破平局：

策略一：基于困惑度（PPL-Based）

遇到平局时，分别算 A 在前和 B 在前两种排列的困惑度，选困惑度低的那个方向的结果——模型读起来更通顺的排列，判断往往更靠谱：

策略二：双向概率聚合

把两个方向的偏好概率加起来，取置信度最高的：

由于是两个方向聚合，位置偏差（position bias）也在这个过程中被抵消了。

04｜理论上也站得住

上面的方法直觉上说得通，但有没有更严格的保证？作者给出了形式化的理论证明：

定理 1（信息保持）：存在两个不同的概率分布

，离散评分无法区分

），但分布敏感评分可以（

）。

命题 1（不确定性降低）：当裁判模型高度模糊时，基于困惑度得到的置信分布的熵严格低于原始判断的最大熵：

一句话概括：信息保留得更多了，判断的不确定性降下去了。

05｜实验结果

实验数据来自 MT-Bench（80 题）和 ArenaHard（500 题），裁判模型覆盖 Llama-3 系列（3B / 8B / 70B）和 GPT-4o。

主实验

表 1：所有模型上两类不一致性都明显下降，精确匹配率同步上升。其中 Llama-3.2-3B 的传递性不一致从 54.69% 直接降到 17.76%，落差接近 37 个点。

消融实验

为了搞清楚每个组件的贡献，作者做了逐项消融（这里额外加入了 GPT-3.5-Turbo 作为参考）：

表 2：逐个拆开看，softmax 归一化和 100 分制对评分不一致各有贡献；似然聚合和 PPL 方法对传递性不一致效果都很明显，似然聚合整体略优。

06｜换个模型还管用吗？

上面的主实验只用了 Llama-3 和 GPT-4o。一个自然的问题是：换成别的架构还有效吗？

管用。作者把实验扩展到 Qwen-2.5（7B / 14B / 32B）、Gemma-2（2B / 9B / 27B）、Llama-3（3B / 8B / 70B）、GPT 四个家族、共 12 个变体。

图 3：四个模型家族上的不一致性对比。左图为评分-比较不一致，右图为传递性不一致，TrustJudge 在所有架构上都有改善。

几个值得注意的点：

分布敏感评分的效果跟模型架构无关，都能降不一致性。
加上似然感知聚合后，8B 模型的传递性甚至比未使用 TrustJudge 的 70B 模型更好。
9B 的 Gemma 比 27B 的 Gemma 不一致性更低——不是越大越好。

07｜推理模型反而更不靠谱

一个意外发现：专门练过推理能力的模型，做评估时反而更容易自相矛盾。

DeepSeek-R1 蒸馏版的评分-比较不一致率 58.75%，是同参数量 Llama 的将近两倍。看起来在数学数据上做强化训练这件事，是以评估能力为代价的。

不过 TrustJudge 在这么高的不一致基线上依然有效：CR 降了将近 10 个点，传递性不一致从 63.98% 压到了 18.50%。

08｜拿来做 Reward 也好使

除了评估，TrustJudge 还有一个实际用途：给强化学习提供奖励信号。

作者把它接到 GRPO（Group Relative Policy Optimization）上训练 Qwen2.5-7B-Instruct，训练数据覆盖摘要、数学推理、指令遵循等，一共 8,600 条。

表 3：用 Baseline 奖励训练的模型在两种协议下都没超过原始模型（反而略降）；用 TrustJudge 奖励训练的模型两边都涨了。

道理也好理解：评估越一致，奖励信号噪声越小，模型学得越准。

09｜光提高打分精度够不够？

看完前面的实验，可能会有人问：TrustJudge 里面既提高了评分粒度（5 分 → 100 分），又加了概率归一化。那要是我只做前者，不做后者，行不行？

图 6：5 分、10 分、100 分三档粒度下的不一致性变化。粒度越高不一致越低，但在同一粒度下 TrustJudge（虚线）始终低于 Baseline（实线）。

结论是：提高粒度有帮助，但光靠粒度不够。TrustJudge 赢在粒度提升 + 概率归一化两件事叠加到一起。

10｜小结

TrustJudge 做的事情可以用两句话讲清楚：

离散评分丢信息 → 改用分布敏感评分，把概率分布的信息保住。
模糊平局坏传递性 → 改用似然感知聚合，让模糊判定变得清晰。

实际效果上，它不用训练，开箱即用；跨 Llama、GPT、Qwen、Gemma 四个架构都有效；除了做评估，接上 GRPO 当奖励信号也能用；而且有理论证明兜底。说到底，如果我们要让大模型来当裁判，总得先确认这个裁判自己别前后矛盾才行。

ICLR 2026 | 大模型当裁判也「翻车」？北大清华联合多校提出TrustJudge

热搜

热门跟贴

热搜

热门跟贴

相关推荐

亚马逊Bedrock藏了3年：一个API打通7家大模型

三大模态模型全部登顶后，昆仑万维正式披露了 2026 年 AGI 战略

计算所 x 上交大论文：只用双人数据，也能生成多人动画丨CVPR 2026

手机跑100亿参数大模型，高通把AI塞进你口袋

《第十三位陪审员》：正义不仅会迟到，还会被篡改

杨立昆发布史上最“轻”世界模型，单GPU可训，规划速度提升48倍

OpenAI把"意识"写进2026路线图，科学家集体头铁

DeepSeek网页版大升级！随后宕机11小时崩上热搜，新模型真的来了

GitHub 412个仓库实测：AI编程工具让代码返工量暴涨47

2026最新Nature排名出炉！中科大位居全球第3，清北格局要变了？

北京大学青岛校友会第七届会员代表大会顺利召开

中国工程院院士任211大学校长

快讯！汉口学院顺利通过教育部本科教学工作合格评估

数智赋能山东商务职业学院国贸专业 校企共商合作发展

数智赋能皮具 产教双向奔赴 邵阳职院与醇龙科技“双向挂牌”

灯火映山河，骐骥踏春潮！中国地质大学（武汉）2026年迎春灯会举行

张雪峰：760分能考上清华吗？

张雪峰：大学期间一定要考的两个证，想尽一切办法也要考下来！

张雪峰：家长是医生不让孩子学医，没日没夜太辛苦，尤其是女孩！

张雪峰：不同专业毕业难度不同，家长心里要有数！

数智赋能山东商务职业学院国贸专业校企共商合作发展

数智赋能皮具产教双向奔赴邵阳职院与醇龙科技“双向挂牌”