DeepSeek更新R1论文：猛增64页，能公开的全部公开

多多爱探索

2026-01-13 05:37 ·四川

这可不是简单的内容扩充，而是把AI训练的“家底”全亮了出来：从算法创新到失败尝试，连花了多少钱都写得明明白白。

这在大模型圈里简直像当众拆自家发动机，以前谁家不是把技术藏着掖着？这次DeepSeek-R1玩这么大，怕是要改写行业规则。

聊技术绕不开算法，DeepSeek-R1最狠的一手是掏出了GRPO算法，直接叫板行业主流的PPO。

本来想顺着传统思路用PPO做强化学习，但后来发现这玩意儿太“烧钱”，得训练一个和主模型差不多大的价值模型，算起来成本高到肉疼。

GRPO的思路就野多了：不搞价值预测，直接“组内比烂”。

同一个问题让模型生成16个答案，按奖励分数排个名，用均值和标准差归一化后更新模型。

这么一来，既不用额外训练价值模型，又避开了跨时间步预测的坑。

MATH数据集上一测，没调参的GRPO居然比精心优化的PPO还好使，尤其长链推理时优势明显。

搞AI的都知道，算法好不好使，最终还得看工程落地。

他们这套分布式训练架构拆成了四个模块：采样、推理、奖励计算、策略更新，中间还用了显存动态卸载和自投机解码，硬是撑住了单次训练32个问题×16个输出的超大工作量。

最让人意外的是训练成本。

以前总听人说顶级大模型训练要几千万美元，结果DeepSeek-R1的增量成本才29.4万美元，648块H800GPU跑198小时花了20.2万，数据准备1万，后续优化8.2万。

连它的基座模型V3-Base也才556.6万美元，这数字直接把行业所谓的“千万美元门槛”砸了个稀碎。

为啥能这么省？四阶段训练流水线功不可没。

第一阶段R1-Zero纯靠强化学习瞎摸索，居然摸出了“自我反思”能力，训练到8000步时，模型突然开始频繁用“wait”“mistake”这类词，正确率跟着飙升。

本来以为这就成了，结果第二阶段加了监督微调（SFT），语言是流畅了，推理能力反而掉了点。

后来又用拒绝采样搞了80万条数据，才算把性能拉回来。

整个过程像极了科研狗做实验：试错、调整、再试错，最后在第四阶段融合规则奖励和偏好模型，才摸到最优解。

这说明啥？中小模型与其死磕强化学习，不如老老实实搞蒸馏。

当然，想突破人类智能边界，还得靠大基座+大规模RL，二者各有各的道。

比如过程奖励模型（PRM），标注成本高不说，还容易让模型学会“奖励作弊”，蒙特卡洛树搜索（MCTS）更惨，token级搜索空间直接爆炸，根本玩不转。

这种“把伤疤揭开给人看”的操作，在AI圈实属罕见。

安全方面他们也下了功夫，10.6万条样本训出来的安全奖励模型（SRM），加上部署层的双重审核，外部测试安全分能到95%，就是版权问题还得再琢磨琢磨。

以前大家比谁的模型参数大、谁的效果好，现在突然有人把训练日志、失败经验、成本明细全晒出来，这等于逼着整个行业从“闭门造车”转向“开源协作”。

复杂推理能力原来可以不靠堆数据，靠“困难问题+可靠验证器+足量RL资源”就能自然涌现，这个结论，怕是要让不少还在死磕标注数据的团队重新想想路该怎么走了。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴