这可不是简单的内容扩充,而是把AI训练的“家底”全亮了出来:从算法创新到失败尝试,连花了多少钱都写得明明白白。
这在大模型圈里简直像当众拆自家发动机,以前谁家不是把技术藏着掖着?这次DeepSeek-R1玩这么大,怕是要改写行业规则。
聊技术绕不开算法,DeepSeek-R1最狠的一手是掏出了GRPO算法,直接叫板行业主流的PPO。
本来想顺着传统思路用PPO做强化学习,但后来发现这玩意儿太“烧钱”,得训练一个和主模型差不多大的价值模型,算起来成本高到肉疼。
GRPO的思路就野多了:不搞价值预测,直接“组内比烂”。
同一个问题让模型生成16个答案,按奖励分数排个名,用均值和标准差归一化后更新模型。
这么一来,既不用额外训练价值模型,又避开了跨时间步预测的坑。
MATH数据集上一测,没调参的GRPO居然比精心优化的PPO还好使,尤其长链推理时优势明显。
搞AI的都知道,算法好不好使,最终还得看工程落地。
他们这套分布式训练架构拆成了四个模块:采样、推理、奖励计算、策略更新,中间还用了显存动态卸载和自投机解码,硬是撑住了单次训练32个问题×16个输出的超大工作量。
最让人意外的是训练成本。
以前总听人说顶级大模型训练要几千万美元,结果DeepSeek-R1的增量成本才29.4万美元,648块H800GPU跑198小时花了20.2万,数据准备1万,后续优化8.2万。
连它的基座模型V3-Base也才556.6万美元,这数字直接把行业所谓的“千万美元门槛”砸了个稀碎。
为啥能这么省?四阶段训练流水线功不可没。
第一阶段R1-Zero纯靠强化学习瞎摸索,居然摸出了“自我反思”能力,训练到8000步时,模型突然开始频繁用“wait”“mistake”这类词,正确率跟着飙升。
本来以为这就成了,结果第二阶段加了监督微调(SFT),语言是流畅了,推理能力反而掉了点。
后来又用拒绝采样搞了80万条数据,才算把性能拉回来。
整个过程像极了科研狗做实验:试错、调整、再试错,最后在第四阶段融合规则奖励和偏好模型,才摸到最优解。
这说明啥?中小模型与其死磕强化学习,不如老老实实搞蒸馏。
当然,想突破人类智能边界,还得靠大基座+大规模RL,二者各有各的道。
比如过程奖励模型(PRM),标注成本高不说,还容易让模型学会“奖励作弊”,蒙特卡洛树搜索(MCTS)更惨,token级搜索空间直接爆炸,根本玩不转。
这种“把伤疤揭开给人看”的操作,在AI圈实属罕见。
安全方面他们也下了功夫,10.6万条样本训出来的安全奖励模型(SRM),加上部署层的双重审核,外部测试安全分能到95%,就是版权问题还得再琢磨琢磨。
以前大家比谁的模型参数大、谁的效果好,现在突然有人把训练日志、失败经验、成本明细全晒出来,这等于逼着整个行业从“闭门造车”转向“开源协作”。
复杂推理能力原来可以不靠堆数据,靠“困难问题+可靠验证器+足量RL资源”就能自然涌现,这个结论,怕是要让不少还在死磕标注数据的团队重新想想路该怎么走了。
热门跟贴