打开网易新闻 查看精彩图片

从 Base 到 RuFT→RuRL,提升不止一点点

打开网易新闻 查看精彩图片

在数学和代码领域,AI 有明确的“对错”可循;但在医疗建议、创意写作等开放式任务中,评价好坏往往成了“玄学”。近日,由理想汽车基座模型团队联合多所高校发布的RubricHub数据集,令人惊喜的是,通过该数据集训练的Qwen3-14B小模型,在OpenAI提出的权威医疗基准测试HealthBench上达到了69.3的高分,一举超越了GPT-5等顶级商业模型。

这意味着通过精准的监督信号,小模型在开放生成领域完全可以实现对顶尖大模型的逆袭。这也让RubicHub数据集发布仅不到3周时间,强势登顶Hugging Face趋势榜榜首

打开网易新闻 查看精彩图片

01

痛点:为什么开放式生成总是“差点意思”?

当我们向模型提出非开放式任务时——比如“请帮我解这道二元一次方程”或者“写一段Python代码”,我们的体验通常很直接:代码报错就是错,答案不对就是不对。这种任务有着天然的“黑白分明”的界限,模型很容易通过自我验证来优化。

然而,一旦我们将场景切换到开放式任务,情况就变得复杂了。当询问“我该怎么缓解偏头痛?”或“帮我写一份年度营销方案”。在这种场景下,模型的主要问题通常不是“完全不会写”,而是呈现出一种“似是而非”的状态:

▪ 关键点遗漏:比如给出的医疗建议看似专业,却唯独少了关键的“禁忌症提示”或“就医指引”;

▪ 细节不够可执行:写的方案逻辑通顺,但缺乏具体的执行步骤和边界条件,无法落地;

▪ 极不稳定:同一个问题,仅仅是换了一种问法,生成的质量就可能天差地别;

▪ 评测难以复现:到底写得好不好?不同的评审员或不同的自动评测器,得出的结论往往不一致。

而导致这一切的核心原因在于:开放式任务缺少像数学和代码那样“天然可验证”的监督信号

▪ 在非开放式任务中,“对/错”能被规则或执行器直接验证,奖励信号明确,优化目标清晰,有助于RLVR(可验证奖励强化学习)开展

▪ 但在开放式任务中,很难说“只有一个正确答案”。这就导致了监督的困境:

  • 奖励太粗:如果只看整体偏好,模型容易学到“表面像那么回事”的套路;

  • 成本太贵:依赖人工进行细致的标注和评审,很难规模化;

  • 标准不稳:自动评测器往往对风格和措辞过于敏感,容易带来偏差。

既然无法直接照搬数学领域的“标准答案”模式,解决问题的关键就在于如何为这些开放式任务创造出“可验证”的监督信号。

打开网易新闻 查看精彩图片

01

RubricHub:把“玄学”变成可检查的评分细则

为了解决开放式问题“玄学”的问题,理想汽车引入Rubic(评分细则)并构建了RubricHub数据集,它将模糊的主观评价转化为精确量化标准的工具。

2.1 什么是Rubic?

就像是体操比赛的评分表,它把原本主观的“表演是否精彩”,变成了对每一个具体动作(如落地是否站稳、旋转度数是否够)的精准扣分或得分项。

Rubric不再依赖“写得好”或“写得差”这种笼统的定性判断,而是将“好答案”拆解为一组清晰、可检查的具体条目;通过为每个条目分配不同的权重与分值,最终以加权汇总的方式计算总分,把开放式生成质量变成了可执行、可复现的“检查清单”。

Rubric的两个关键属性:可检查 + 可分解

在我们的定义里,一个Rubric由多个评估条目组成。条目大致分两类:

▪ 可验证条目(Verifiable Criteria):能用规则或确定性程序检查(例如格式、字数、是否包含某字段、是否满足硬约束等);

▪ 语义条目(Semantic Criteria):需要LLM grader判断(例如推理是否完整、表达是否清晰、是否覆盖关键风险点、是否前后一致等)。

对齐的关键在于:把“开放式质量”拆成很多条可检查的小目标,让训练信号变得密集、稳定、可解释。

现有Rubrics的三大瓶颈:规模、覆盖、区分度

Rubric并非全新概念,但长期以来未能成为通用的基础设施,主要受限于三大核心瓶颈:

1. 难以规模化:传统模式依赖人工撰写,成本高昂且效率低下,难以应对海量需求;

2. 覆盖不全面:单一视角往往带有主观偏差,难以做到客观与普适,容易陷入局部视角;

3. 区分度不足:评估条目过于宽泛,导致顶尖模型极易触及“天花板”(Ceiling Effect),难以有效区分模型间的能力差异。

RubricHub针对上述痛点提出的解决方案:它实现了全流程自动化、引入了多元异构视角,并显著提升了评分的区分度。

2.2 RubricHub 是如何工作的?

为了保证这份“清单”的质量,理想汽车提出的一套全自动Coarse-to-Fine Rubric Generation(由粗到细)框架,旨在同时做到:

▪ 相关:紧贴问题与真实回答,不跑偏;

▪ 全面:覆盖不同表达方式、减少单一偏见;

▪ 高区分度:能把“优秀”和“卓越”拉开差距。

打开网易新闻 查看精彩图片

第一步:锚定事实(Response-Grounded),保证相关性与可评估性

当我们让AI写一段“新款汽车宣传文案”为例,若只看问题生成Rubric,容易出现Rubric Drift:生成诸如“文案是否吸引人”、“是否有创意”等泛化、空泛的条目,评测者难以统一标准。

我们的做法是把Rubric生成“锚定”在包含具体卖点(如“座椅”“内饰”等)的回答上,同时加入一组元原则约束:

▪ Consistency & Alignment:比如问题强调“高端定位”,就要剔除“性价比高”这种自相矛盾的条目;

▪ Structure & Scope:确保评分维度覆盖合理,既有“功能介绍”也有“情感共鸣”;

▪ Clarity & Quality:把“写得好”细化为“无语病、参数术语准确”等清晰、可执行的描述;

▪ Reasoning & Evaluability:确保“是否提到座椅舒适”是客观可查的,能形成稳定信号。

要点: 先通过“参考回答”提取关键点,再通过“元原则”规范评分逻辑。

第二步:多模型聚合(Multi-Model Aggregation),降低视角偏差、提升覆盖

单一模型生成的Rubric仍可能带有“视角偏差”:模型A可能像个“硬核工程师”,只盯着“马力、扭矩数据是否准确”,却完全忽略了“驾驶体验”或“用户使用”等方面。

因此,我们引入多个异构模型分别“出题”:有的侧重动力性能,有的侧重内饰奢华感,有的侧重安全合规。通过整合GPT5、Gemini等顶尖模型的视点,去重与冲突消解,得到一份集百家之长的Base Rubric。

打开网易新闻 查看精彩图片

从训练角度看,这一步相当于把“车辆工程师(看参数)、品牌总监(看调性)、法务(看合规)”三方的标准,融合成了一份更客观、无死角的评分细则。

第三步:难度演化(Difficulty Evolution),突破天花板的关键

虽然Base Rubric融合了多方视角,但它往往止步于“基本正确”。生成的内容只要参数没写错、没有语病、符合法规,模型就能轻松拿到高分。但这无法区分“合格的说明书”与“具有感染力的文章”,导致模型很快触及分数天花板(Ceiling Effect),训练失去有效梯度。

为此,我们引入难度演化,是RubricHub最具竞争力的贡献。分析高质量参考回答,从中抽取“让答案从优秀变卓越”的差异点,生成更严格、更细致的增量条目,把Rubric变“更难、更挑剔”。这种机制强迫模型不断在“卓越”与“极致”之间自我竞赛,从而打破性能天花板。

2.3 RubricHub 数据集:110k、高密度、全覆盖的实战题库

RubricHub 数据集并非简单的数据堆砌,而是通过“广度、深度、高度”的立体化构建,打造了一个包含约 110k 对(Question, Rubric)的高质量样本库,为模型提供了前所未有的高密度监督信号。

广度:覆盖五大核心领域的 110k 实战题库

为了构建通用的评估基座,RubricHub聚合清洗了来自 RaR-science、WildChat等权威开源的源数据,最终精选出约110k对(Question, Rubric) 高质量样本。

打开网易新闻 查看精彩图片

数据分布经过精心设计,重点强化了对严谨性要求极高的医疗(Medical)与科学(Science)领域(各占 27.1%),同时兼顾了指令遵循(20.9%)、创意写作(15.9%)与开放对话(9.0%)。这种全方位的覆盖,确保了模型不仅能聊闲天,更能处理复杂的专业推理任务。

深度:从“给个分”进化到“30+维度的全身扫描”

RubricHub数据集最大的特色在于“高密度监督”。不同于传统数据只给一个笼统的总分,RubricHub将质量拆解为密集的检查清单。

在医疗和写作这类复杂任务中,平均每个问题对应30条以上的细分标准(Medical Avg 31, Writing Avg 32)。这意味着模型不再是接收模糊的“好/坏”信号,而是收到了一组结构化的、精确到细节的“诊断报告”,明确知道自己在哪里做对了、哪里遗漏了。

高度:拒绝“天花板效应”,保留优化空间

为了保证训练的有效性,数据集特别强调“高区分度”。通过前述的“难度演化”机制,生成的评分细则足够严苛,避免了分数饱和(Score Saturation)。

数据显示,即便是目前的顶尖模型,在RubricHub上的平均得分也仅为0.6左右。这预留了充足的 Headroom(提升空间),确保在强化学习过程中,监督信号始终能区分出“优秀”与“卓越”的差异,持续提供有效的优化梯度。

打开网易新闻 查看精彩图片

03
RubricHub实战:小模型如何逆袭闭源巨头

有了这份高质量的“检查清单”,我们探索出了一套RuFT(拒绝采样微调)RuRL(强化学习)的两阶段训练流程

1.RuFT:利用准则作为过滤器,筛选出最优质的数据进行冷启动训练。

2.RuRL:将准则得分转化为密集的奖励信号,像发“计件工资”一样精细化引导模型优化。

3.1 Rubric 不只是评测:两种训练用法 (RuFT + RuRL)

打开网易新闻 查看精彩图片

RuFT:优中选优的“选拔赛” (Rubric-based Rejection Sampling Fine-Tuning)

在监督微调(SFT)阶段,我们需要高质量的训练数据。

▪ 出题:把同一个问题(如“写汽车文案”)当作一张试卷,让模型生成多份回答(如 10 份),相当于 10 个学生同时作答。

▪ 阅卷:使用 Rubrics 作为统一评分标准,对这 10 份“学生答案”打分。

  • 学生 A(只罗列参数):0.7分 → 淘汰

  • 学生 B(有语病):0.5分 → 淘汰

  • 学生 C(参数完整且有情感共鸣):0.9分 → 保留

▪ 录取:只将通过 Rubrics 高分筛选的优秀答案(如 C)作为标准答案用于 SFT 训练,相当于在训练前先进行一轮“考试筛选”,确保模型只向最优样本学习,从而缓解冷启动阶段的数据质量问题。

RuRL:按点给分的“计件工资” (Rubric-based Reinforcement Learning)

在强化学习(RL)阶段,模型需要明确的奖励信号(Reward)。

▪ 传统痛点: 以前模型写完,只得到一个笼统的“好”或“坏”,模型不知道自己具体好在哪、坏在哪。

▪ RuRL 做法: 我们把总分拆解为一个个具体的二值检查(Yes/No),按权重发“工资”。

  • 检查点 1: 提到真皮座椅了吗? → 满足(+10分)

  • 检查点 2: 提到静音技术了吗? → 满足(+7分)

  • 检查点 3: 有感官描写吗? → 不满足(0分)

  • 最终奖励: 总分是这些细项的加权汇总。

▪ 优势:

  • 更稳定: 把复杂的“文案好不好”拆成了简单的“有没有做到”,减少了主观误判。

  • 可解释: 模型(和开发者)能清楚地知道,分低是因为“没写感官描写”,优化目标非常清晰。

3.2 实验结果:从 Base 到 RuFT→RuRL,提升不止一点点。

评测方案:五大领域全覆盖,两阶段训练验证

为了全面验证RubricHub的有效性,我们在科学、指令遵循、写作、医疗、对话这五大核心领域,选取了 ResearchQA、IFEval、HealthBench等多个权威公开基准进行评测。实验基于Qwen3-4B和Qwen3-14B两个基座模型,采用了两阶段后训练策略:

▪ 首先通过 RuFT(基于 Rubric 的拒绝采样)筛选出约 30k 高质量样本进行 SFT 冷启动;

▪ 随后利用 RuRL(基于 Rubric 的强化学习),将细粒度的评分细则转化为结构化奖励,使用 DAPO 算法进行对齐训练,以此来观察不同训练阶段带来的性能变化。

实验结果:阶梯式显著提升,小模型逆袭巨头

打开网易新闻 查看精彩图片

实验数据显示了一个清晰的性能阶梯:Base < RuFT < RuRL < RuFT+RuRL。

这证明了“筛选数据”与“奖励对齐”两者叠加能产生最强的综合效果。Qwen3-14B (RuFT+RuRL) 的表现,它在多项基准上实现了大幅跃升。以医疗领域的 HealthBench 为例,该模型得分高达69.3,不仅远超原始基座,甚至击败了GPT-5 (67.2)等顶尖闭源模型。

打开网易新闻 查看精彩图片

关于 Grader(判分器)的消融实验发现,判分模型的能力存在阈值(至少需 30B 级别才能达到与人类高度一致的 κ≈0.74κ≈0.74),判分器越强,训练出的模型效果越稳健。

总结:并非“刷分”,而是全维度的能力进化

分析训练动态发现,模型性能的提升并非单点“刷指标”,而是多维度的同步上涨。在HealthBench 的细分维度分析中,准确性(Accuracy)、完整性(Completeness)、沟通质量(Communication Quality)等指标均随步数同步上升。

这表明,RubricHub提供的高密度、高区分度监督信号,成功引导模型实现了从“投机取巧”到“全面变强”的质变,证明了通过构建高质量的验证信号,小模型完全具备在特定领域超越大模型的潜力。

04
结语

开放式生成的难点已从“能不能写”转向“能不能写好”。RubricHub的核心价值在于打破了“好坏难评”的僵局,将主观评价转化为可生成、可训练的通用基础设施。

通过“固化标准 → 筛选数据 → 奖励建模”的标准化路径,RubricHub成功将模糊偏好转化为可验证的监督信号。这不仅证明了“高质量监督”在特定领域优于单纯堆砌参数,更为大模型从“泛泛而谈”迈向“精准专业”提供了一条可规模化的新范式。

https://huggingface.co/datasets/sojuL/RubricHub_v1

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。