谷歌DeepMind 最新研究成果挑战了 LLM 训练的传统观念:想要训练推理能力强大的LLM,用“小弱鸡”模型生成数据,比用“高大上”的模型更省钱、效果还好

这篇题为《更小、更弱,却更好:通过计算最优采样训练LLM推理器》的论文,核心观点是:在固定计算预算下,使用更弱但更便宜 (WC) 的模型生成数据,训练出的 LLM 推理能力,比用更强但更贵 (SE) 的模型生成数据训练的效果更优

挑战传统:小模型数据真的更好?

通常,为了提升 LLM 推理能力,我们会用强大的 LLM 生成高质量的合成数据来训练其他 LLM。然而,这种方法的成本很高,限制了实际应用

DeepMind 的研究另辟蹊径,他们认为,在有限的计算预算下,WC 模型生成的数据反而更有优势。为了证明这一点,他们从三个关键指标对 WC 模型和 SE 模型生成的数据进行了比较:

覆盖率:指解决的独特问题的数量

多样性:指每个问题获得的独特解决方案的平均数量

误报率 (FPR):指推理过程错误但最终答案正确的解决方案的百分比。

分析结果显示,WC 模型生成的数据在覆盖率和多样性方面更高,因为它可以用同样的计算预算生成更多样本。虽然 WC 模型的 FPR 更高,但研究人员认为这并不影响最终效果,因为训练 LLM 时更关注的是最终答案的正确性,而非推理过程的正确性

实验验证:三种训练方法,WC 数据都更胜一筹!

为了进一步验证 WC 模型数据的优势,DeepMind 设计了三种不同的训练场景,涵盖了多种训练模式:

学生模型微调:用 WC/SE 模型生成的数据分别训练一个独立的学生模型,对应知识蒸馏模式

WC 模型微调:用 WC/SE 模型生成的数据分别训练 WC 模型本身,对应自我改进知识蒸馏模式

SE 模型微调:用 WC/SE 模型生成的数据分别训练 SE 模型本身,对应弱到强改进 (W2S-I)自我改进模式

实验结果令人震惊:在所有三种训练场景下,使用 WC 模型生成的数据都取得了比 SE 模型数据更好的效果!这意味着,使用 WC 模型生成数据不仅更省钱,还能训练出更强大的 LLM 推理器!

省钱秘籍:更低成本,更高性能!

更令人惊喜的是,研究人员发现,即使使用成本更低的 WC 模型数据(例如,生成 5 个解决方案的成本与 SE 模型生成 1 个解决方案的成本相同),也能训练出性能更强的 LLM

小模型的时代即将来临?

DeepMind 的研究结果表明,小模型的推理能力提升速度比大模型更快,这意味着未来小模型在 AI 领域将扮演越来越重要的角色

图:开原模型随时间的推理能力变化

这项研究为我们提供了训练强大 LLM 推理器的全新思路,也让我们对小模型的未来充满了期待!

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~