从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨ICML 2026|icml|rlhf|信号|拟合|新论文|训练

SelectiveRM：从点对点拟合噪声偏好，转向带选择机制的分布对齐，重构奖励模型的训练目标。

在大语言模型对齐研究中，一个看似自然、却值得重新审视的问题长期存在：

一方面，RLHF、RLAIF、GRPO等方法不断推动模型对齐能力演进；另一方面，奖励模型训练阶段却普遍默认一个前提——收集到的偏好标注能够准确反映真实人类偏好。

但现实并非如此。无论是人工标注、众包反馈，还是LLM-as-a-Judge，偏好数据都不可避免地包含噪声：标注疲劳、主观分歧、随机失误、模型幻觉，都可能让“观测偏好”偏离“真实偏好”。

这使得奖励模型训练面临一个根本问题：如果监督信号本身并不可靠，那么模型究竟应该学习什么？

针对这一问题，浙江大学、小红书、北京大学等机构的研究团队提出了SelectiveRM：一种基于最优传输（Optimal Transport）的奖励模型训练框架。该方法不再要求模型无条件拟合所有观测偏好，而是通过选择性分布对齐，自动识别并排除与语义一致性相冲突的Noisy Preference，从而学习更可靠的奖励函数。这项工作不仅为Noisy Reward Modeling提供了新的理论与方法，也从更一般的意义上，对“在噪声反馈下应当如何训练奖励模型”这一问题给出了新的回答。

论文地址：http://arxiv.org/abs/2605.06036

当“观测偏好 = 真实偏好”的假设被打破之后

当前主流奖励模型训练，本质上仍然沿用标准监督学习范式：给定prompt-response x 对及其偏好标注 r ，最小化模型预测与标注之间的点对点误差。

这种做法隐含了一个强假设：训练数据中的偏好标签是干净且可信的。然而，在真实场景中，这一假设往往并不成立。偏好数据天然具有主观性和不稳定性：人类标注员可能因疲劳或理解差异给出不一致反馈；众包场景下可能存在随意标注；LLM-as-a-Judge也可能因能力不足或幻觉产生系统性误差。因此，奖励模型面对的并不是“纯净偏好”，而往往是真实偏好与错误偏好的混合体。

研究团队从理论上揭示了这一问题：在实例相关噪声（Instance-Dependent Noise）下，直接最小化经验风险，并不仅仅是在拟合真实偏好，同时也在拟合错误偏好。对于高噪声样本，模型的优化方向甚至会被错误标签主导，从而逐渐记住噪声，而不是学习真正的人类偏好逻辑。

更关键的是，这种偏差还会被 RLHF 的后续策略优化进一步放大。一旦奖励模型学错了，策略模型就会主动利用这些错误信号，诱发Reward Hacking，最终损害模型的安全性与对齐质量。

团队还对多个公开偏好数据集进行了噪声分析，结果表明Noisy Preference并非个别现象，而是普遍存在于人类与 LLM 标注数据中的系统性问题。一些数据集中的估计噪声比例甚至接近40%–50%。这说明：噪声偏好不是奖励建模中的边缘问题，而是必须被正面解决的核心挑战。

SelectiveRM：从点对点拟合转向选择性分布对齐

为了解决Noisy Preference问题，研究团队提出了SelectiveRM。它的核心思想是：不要再把奖励模型训练看作简单的点对点回归，而要将其重构为一个分布对齐问题。具体来说，SelectiveRM考虑两类联合分布：（1）数据中的经验联合分布：；（2）模型诱导出的联合分布：。

如果奖励模型真正学到了偏好规律，那么这两个分布应当是对齐的。基于这一思想，论文提出了Joint Consistency Discrepancy，利用最优传输来衡量这两个联合分布之间的差异。

与传统损失不同，这里的传输代价同时考虑：（1）语义距离：两个样本在语义空间中是否接近；（2）偏好差异：它们的偏好值是否一致。这样一来，模型不再只是逐点拟合标签，而是在全局上学习“语义-偏好”之间的一致结构。

但团队进一步指出，标准最优传输仍然存在局限。原因在于，它要求所有样本都必须被匹配，即严格满足“质量守恒”。这意味着，即使某些样本本身是带噪错误偏好，模型也仍然会被迫去拟合它们。

为此，SelectiveRM进一步引入了部分最优传输（Partial Optimal Transport），构造出带有Mass Relaxation机制的训练目标。它允许传输计划只匹配一部分质量，而把那些代价过高、与语义一致性明显冲突的样本排除在外。

基于这一设计，SelectiveRM 能够自动保留低成本、高一致性的可靠样本，同时忽略高成本、疑似带噪的偏好数据。换句话说，它不再要求模型“解释所有数据”，而是允许模型只向可信监督对齐。

研究团队还从理论上证明：SelectiveRM所优化的是一个比标准经验风险更紧的clean-risk 上界，因此这种“选择性对齐”不仅有效，而且具有严格的理论支撑。

在大量实验中，一致验证优势

为了验证SelectiveRM的有效性，研究团队在多个公开偏好数据集上开展了系统实验，包括HelpSteer、UltraFeedback和PKU-SafeRLHF，并与多类Noisy Label Learning方法进行了比较。

实验结果表明：

首先，标准训练方式在Noisy Preference下最容易失效。Naive baseline在多个数据集上都表现最差，说明“把所有偏好都当真”会显著损害奖励模型质量。

其次，现有降噪方法虽然能缓解噪声影响，但提升有限。无论是基于噪声转移矩阵的统计方法，还是基于样本筛选的启发式方法，都能在一定程度上改善性能，但往往受限于过强的噪声假设或不稳定的筛选机制。相比之下，SelectiveRM在各项指标上均取得最优结果。

进一步的消融实验也验证了方法中两个关键组件的作用：引入联合代价后，模型能更好利用语义一致性来判断偏好是否可靠；引入部分传输后，模型获得了自动排除高成本Noisy Preference的能力。二者结合后，SelectiveRM达到最佳表现，说明其优势并非来自单一技巧，而是来自“语义一致性判断 + 选择性匹配机制”的协同作用。

此外，研究团队还在不同Backbone上测试了方法的泛化能力，包括Qwen2.5 和LLaMA2系列不同参数规模模型。结果表明，SelectiveRM在从7B到72B的多个模型上都稳定带来性能增益，显示出良好的模型无关性与泛化能力。

不只是奖励模型更准，更重要的是下游 RLHF 更安全

SelectiveRM的价值并不止于奖励模型本身的指标提升。研究团队进一步考察了它对下游RLHF的实际影响。团队使用不同奖励模型为GRPO提供奖励信号，并在HarmBench、FFT、DAN等安全基准上评估最终策略模型表现。

结果表明，由SelectiveRM训练得到的奖励模型，能够稳定提升策略模型的安全得分，并在不同Backbone上都表现出更好的鲁棒性。这说明：更干净的奖励模型，会直接转化为更可靠的策略优化信号。

相比之下，由Naive Reward Model引导的策略更容易受到Noisy Preference的误导，从而在对抗性Jailbreak Prompt下暴露安全漏洞；而SelectiveRM由于在训练阶段就主动过滤掉与语义一致性冲突的偏好噪声，因此能有效抑制Reward Hacking的传播。

从更一般的角度看，这项工作的意义并不只在于提出了一个新的Noisy Reward Modeling方法，更在于它重新审视了一个长期被忽视的问题：当监督信号本身不可靠时，学习目标不应只是“更好地拟合数据”，而应当进一步回答“哪些数据值得被学习”。SelectiveRM所倡导的“选择性分布对齐”思想，为这一问题提供了一个新的答案。它表明，在Noisy Preference场景中，奖励模型训练不应无条件相信所有观测标签，而应当在结构一致性约束下，自主识别并保留更可信的监督信号。因此，这项工作不仅推进了奖励建模研究，也为如何在噪声反馈下学习可靠目标提供了一种更具原则性的训练范式。

作者信息

论文第一作者潘黎铖，现为浙江大学计算机科学与技术学院网络空间安全专业博士研究生，研究方向聚焦于多任务学习、时间序列分析，以及构建安全可信的大语言模型。在本项目中，他依托小红书开展合作研究，深入探索了强化学习中奖励模型的鲁棒性与人类价值观对齐。

论文共同通讯作者李昊轩，现为北京大学数据科学专业博士研究生，同时兼任牛津大学访问研究员。他在ICML、NeurIPS、ICLR、SIGKDD、WWW、SIGIR、CVPR、ICDE和ACL等人工智能顶级会议上发表论文80余篇，相关研究曾被《麻省理工科技评论》报道。此外，他曾担任ICML、NeurIPS、ICLR、SIGKDD等顶级会议的领域主席（AC），并受邀担任TKDE、TOIS、TKDD、TNNLS和JASA等知名学术期刊的审稿人。

论文共同通讯作者王浩，现为浙江大学工业控制技术国家重点实验室博士研究生，研究方向聚焦于因果推断、多任务学习技术及其在大语言模型中的应用。2022年-2023年，他曾在蚂蚁金服、微软亚洲研究院科研实习，从事推荐系统理论研究。2025年起，他在小红书参加RedStar实习项目，进行大语言模型、可信奖励模型领域的研究工作。