谷歌DeepMind颠覆常识：训练强推理LLM，用“小弱鸡”模型生成数据更香

AI寒武纪

2024-09-01 16:44 ·江苏 ·优质互联网领域创作者

谷歌DeepMind 最新研究成果挑战了 LLM 训练的传统观念：想要训练推理能力强大的LLM，用“小弱鸡”模型生成数据，比用“高大上”的模型更省钱、效果还好

这篇题为《更小、更弱，却更好：通过计算最优采样训练LLM推理器》的论文，核心观点是：在固定计算预算下，使用更弱但更便宜 (WC) 的模型生成数据，训练出的 LLM 推理能力，比用更强但更贵 (SE) 的模型生成数据训练的效果更优

挑战传统：小模型数据真的更好？

通常，为了提升 LLM 推理能力，我们会用强大的 LLM 生成高质量的合成数据来训练其他 LLM。然而，这种方法的成本很高，限制了实际应用

DeepMind 的研究另辟蹊径，他们认为，在有限的计算预算下，WC 模型生成的数据反而更有优势。为了证明这一点，他们从三个关键指标对 WC 模型和 SE 模型生成的数据进行了比较：

覆盖率：指解决的独特问题的数量

多样性：指每个问题获得的独特解决方案的平均数量

误报率 (FPR)：指推理过程错误但最终答案正确的解决方案的百分比。

分析结果显示，WC 模型生成的数据在覆盖率和多样性方面更高，因为它可以用同样的计算预算生成更多样本。虽然 WC 模型的 FPR 更高，但研究人员认为这并不影响最终效果，因为训练 LLM 时更关注的是最终答案的正确性，而非推理过程的正确性

实验验证：三种训练方法，WC 数据都更胜一筹！

为了进一步验证 WC 模型数据的优势，DeepMind 设计了三种不同的训练场景，涵盖了多种训练模式：

学生模型微调：用 WC/SE 模型生成的数据分别训练一个独立的学生模型，对应知识蒸馏模式

WC 模型微调：用 WC/SE 模型生成的数据分别训练 WC 模型本身，对应自我改进和知识蒸馏模式

SE 模型微调：用 WC/SE 模型生成的数据分别训练 SE 模型本身，对应弱到强改进 (W2S-I)和自我改进模式

实验结果令人震惊：在所有三种训练场景下，使用 WC 模型生成的数据都取得了比 SE 模型数据更好的效果！这意味着，使用 WC 模型生成数据不仅更省钱，还能训练出更强大的 LLM 推理器！

省钱秘籍：更低成本，更高性能！

更令人惊喜的是，研究人员发现，即使使用成本更低的 WC 模型数据（例如，生成 5 个解决方案的成本与 SE 模型生成 1 个解决方案的成本相同），也能训练出性能更强的 LLM

小模型的时代即将来临？

DeepMind 的研究结果表明，小模型的推理能力提升速度比大模型更快，这意味着未来小模型在 AI 领域将扮演越来越重要的角色

图：开原模型随时间的推理能力变化

这项研究为我们提供了训练强大 LLM 推理器的全新思路，也让我们对小模型的未来充满了期待！

⭐星标AI寒武纪，好内容不错过⭐

用你的赞和在看告诉我～

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴