来源:AI寒武纪
今天给大家带来一篇重磅研究解读,来自新加坡国立大学 和SeaAILab团队 Zichen Liu 博士的最新工作,直击 R1-Zero-Like 训练的核心痛点,信息量爆炸!
这篇论文题目就非常硬核:《Understanding R1-Zero-Like Training: A Critical Perspective》(理解类 R1-Zero 训练:批判性视角)。他们没有盲目跟风,而是选择了 “先理解,再改进” 的硬核路线,深入剖析了 R1-Zero 这类训练方法的两大基石:基座模型和强化学习 (RL)
重磅发现一:基座模型才是真大佬?“顿悟时刻” 比你想的早!
文章一上来就抛出震撼弹:DeepSeek-V3-Base 竟然在 RL 微调之前就展现出了 “Aha moment”(顿悟时刻)!这直接颠覆了我们之前的认知,难道 RL 只是锦上添花?
更让人惊讶的是,他们发现Qwen2.5 基座模型,这个 R1-Zero-like 训练的 “网红选手”, 即使不用 Prompt 模板,推理能力也强到离谱!平均 benchmark 分数直接飙升 ~60%!这简直不像基座模型,更像是用 QA 数据集 SFT 过的模型!
这些现象都在暗示一个扎心的真相:基座模型的预训练阶段可能已经注入了太多 “偏见”。比如,自我反思能力、数学解题技巧,可能在 RL 奖励信号强化之前就早已埋下种子。
等等,那模型回复越来越长,真的是 RL 的功劳吗?这里面可能另有隐情…
重磅发现二:RL 环节暗藏 “长度偏见”?GRPO 原来没那么完美!
研究团队深入扒了 RL 环节,尤其是 GRPO (Generalized Reward Policy Optimization) 算法,结果发现… GRPO 竟然是有偏见的!
具体来说,GRPO 的 长度归一化 (length normalization)会偏爱短的正确答案,却对 长的错误答案更宽容!这就导致了 “长度偏见” (length bias)。
更可怕的是,GRPO 的标准差归一化 (std normalization)还会偏爱太简单或太难的问题,而忽略难度适中的题目!这又带来了“难度偏见”** (difficulty bias)
PPO 也躺枪?开源实现竟然也引入了 “长度偏见”!
更让人意想不到的是,即使理论上PPO (Proximal Policy Optimization)算法是无偏的,但几乎所有开源实现都通过计算 masked_mean 引入了 “长度偏见”!这简直防不胜防!
划重点:“长度偏见” 可能就是模型回复越来越长的幕后黑手之一!
利器:Dr. GRPO 横空出世!两行代码解决 “偏见” 问题!
为了解决 GRPO 的 “偏见” 问题,研究团队祭出大招 —— Dr. GRPO (Doctor GRPO)!只需两行代码的魔改:移除长度归一化和标准差归一化 (图中红色部分)!
Dr. GRPO 不仅无偏,还能提升 Token 效率!因为它能有效阻止 GRPO 产生越来越长的错误答案,避免浪费计算资源。
R1-Zero 训练极简配方大公开!7B 模型 AIME 怒刷 SOTA!
基于以上分析,研究团队给出了一个极简的 R1-Zero 训练配方,没有花里胡哨的技巧:
算法:Dr. GRPO (无偏优化器)
数据:MATH level 3-5 难度问题
模板:Qwen-Math
算力:27 小时 * 8 * A100
结果震撼:7B 模型在 Zero-RL setting 下,AIME 2024 怒刷 43.3 分 SOTA!
这还不是全部!这篇论文和代码库里还有更多有趣发现,例如:
a.基础代数 (+ − × ÷) 问题上的 RL 训练,竟然能提升奥赛级别的推理能力!
b.Llama 模型也能 “顿悟”!
强烈建议大家去围观论文和代码
论文地址:
https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf
代码地址:
https://github.com/sail-sg/understand-r1-zero
总结一下:这项研究不仅揭示了 R1-Zero-like 训练的深层机制,更指出了现有方法的潜在问题,并提出了有效的改进方案。对于想要深入理解和实践 R1-Zero 训练的朋友们来说,绝对是不可多得的宝藏资料!赶紧学起来吧!
作者信息:Zichen Liu, PhD student, RL believer @SeaAIL @NUSingapore
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告
热门跟贴