额外训练步骤如何释放AI的推理能力|实验|推理能力|数学|科学|预训练|额外训练步骤

多年来，构建强大大语言模型的基本方法十分清晰：先在海量文本上训练模型，再通过强化学习让其以有益且拟人的方式进行响应。在某个阶段，研究人员在训练流程中加入了一个以数学、代码和科学为重点的中间训练阶段，大语言模型的推理能力随之实现了飞跃式提升。

这一阶段现在被称为"中间训练"。如今，它已成为训练推理模型的常规步骤，尽管其机制仍存在一定神秘性。推理模型借助这一步骤可完成诸如排查复杂代码库、长篇合同或财务报表中错误等任务。IBM近期发布的一项研究首次对开源大语言模型中的中间训练进行了大规模、系统性的深入分析，揭示了中间训练高效性背后的原因。

通过超过500项对照实验，IBM研究人员发现，中间训练可将不同规模和架构模型的整体推理能力提升3至4倍，同时保留预训练阶段积累的知识。而跳过这一步骤、仅在后训练阶段通过强化学习学习相同数学和科学知识的模型，性能提升则十分有限。

"中间训练与强化学习并不是可互换的训练阶段，"该研究的第一作者、IBM研究员Bharat Runwal说道，他所在的团队负责IBM Granite系列模型的研发。"两者的运作机制存在本质差异，各自能够实现对方无法替代的效果。"

Runwal与同事对来自四个模型系列的开源基础模型进行了比较，涵盖IBM Granite、Mistral、Meta的LLaMA以及NVIDIA的Nemotron-H模型，参数规模从30亿到240亿不等。研究团队还测试了传统Transformer架构，以及将Transformer注意力机制与新型循环式处理相结合的混合架构设计。评测基准包括难度极高的谷歌防证明问答（GPQA）Diamond题库和美国数学邀请赛（AIME），两者分别考察博士级别的科学与数学能力。在六项推理基准测试中，采用最优中间训练流程的模型平均得分比通过强化学习训练的同数据模型高出29至42分。

研究人员已将论文中描述的中间训练方案和流程应用于即将发布的下一代IBM Granite模型，并已将该流程开源供社区使用。论文公开后，在Twitter上引发了广泛关注。Netflix员工研究科学家、Deep（Learning）Focus博客作者Cameron Wolfe写道："文中包含大量正确实施中间训练的实用技巧，对所有希望将开源模型适配到专业应用场景的人来说都是一篇值得精读的好文章。"

中间训练的概念最早可追溯至2024年，但彼时并未以此命名。部分模型开发者在预训练结束时加入"冷却"步骤，用于扩展模型的上下文长度和工作记忆，使其在单次提示中能处理更多信息；另一些开发者则在后训练阶段增加数据退火步骤，以便将高质量领域知识融入模型。

现代意义上的中间训练同时涵盖数据退火和上下文长度扩展两个环节。顾名思义，它处于预训练与后训练之间：预训练阶段，模型消化数十亿乃至数万亿个词语及词语片段（即Token）；后训练阶段，模型行为则由高质量领域专属数据和人类交互来塑造。

研究人员从数学题目、编程挑战和科学推理数据集中获取中间训练数据，并将预算控制在270亿Token以内——相比可达15万亿Token以上的预训练规模，这一体量相当精简。研究目标在于确定理想的数据配比、最佳应用时机，以及中间训练是否会对后续的强化学习环节产生促进或阻碍作用。研究发现，数据配比对中间训练模型尤为关键。将中间训练的数据配方从仅包含数学和代码扩展为涵盖数学、代码与科学，可使整体推理性能平均提升3至6分；而在强化学习阶段进行同样调整，效果则微乎其微。

这一差异在科学推理方面尤为突出。经过科学数据中间训练的模型，在GPQA Diamond基准测试中比使用相同数据微调的模型高出17至28分。研究结果表明，科学推理能力必须在中间训练阶段植入，才能在后续阶段得到充分发挥。

中间训练似乎还改变了模型处理复杂数学问题的方式。预训练模型在MATH500测试中倾向于给出简短答案，而经过中间训练后，模型开始逐步展示解题过程，以详细步骤作出回应。不出所料，其准确率也随之大幅跃升——Granite-3.3-8B在经历中间训练和强化学习后，准确率从16.9%提升至79.5%。"中间训练教会模型的是推理，而非仅仅作答，"参与该研究的IBM Granite研究员Ashish Agrawal如此说道。

模型 | 阶段 | 通过率 | 响应长度

Granite-3.3-8B | 基础 | 16.9% | 120 Token

Granite-3.3-8B | 中间训练 | 75.5% | 2,254 Token

Granite-3.3-8B | 强化学习 | 79.5% | 1,700 Token

LLaMA-3.1-8B | 基础 | 2.6% | 158 Token

LLaMA-3.1-8B | 中间训练 | 43.1% | 1,052 Token

LLaMA-3.1-8B | 强化学习 | 64.6% | 1,188 Token

Nemotron-H-8B | 基础 | 66.6% | 452 Token

Nemotron-H-8B | 中间训练 | 61.6% | 1,928 Token

Nemotron-H-8B | 强化学习 | 83.0% | 1,780 Token

此外，有证据表明，中间训练有助于模型在强化学习阶段突破自身能力上限。Granite-3.3-8B在强化学习训练过程中逐步学会了解决起初无法攻克的复杂数学和编程问题，这表明强化学习能够激活经过恰当中间训练的模型中潜藏的新能力。

研究人员还发现，中间训练在模型完成长序列文本处理训练之后实施效果最佳，而非在预训练的早期阶段。由于大多数开源基础模型在发布前都会经历长上下文扩展，中间训练自然成为开发者的合理后续步骤。

如果说这篇论文有一个核心结论，那就是：不应跳过中间训练。强化学习无法替代中间训练，但恰当的中间训练能够放大强化学习的效果。"如果你想构建一个高效的推理模型，就必须把中间训练做好，"Runwal说道。

通过深入研究，研究人员揭示了其中的原理。借助消融研究——一种类似大语言模型"核磁共振"的分析方法——研究人员探究了中间训练和强化学习如何改变模型的结构与内部表征。他们发现，两个阶段以截然不同但相互互补的机制发挥作用：一个以大刀阔斧的方式完善模型，另一个则进行精细调整。

中间训练会重构模型超过90%的权重，且这些变化广泛分布于模型的各个层和组件之中。相比之下，强化学习仅修改约5%的参数，且这些变化集中在训练开始后的200至400步内。无论中间训练是否在前，强化学习所施加的权重变化几乎相同。

研究人员运用一种名为中心核对齐的技术，分析模型在训练流程各阶段的信息表征相似性，得出了类似的结论。结果显示，强化学习完成后，模型的内部表征与中间训练检查点高度相似。强化学习似乎是在中间训练所构建的空间内运作，在不改变中间训练所确立的表征几何结构的前提下优化模型。

如今，众多大语言模型已突破对话场景，走向更广阔的现实应用——它们能够调用API、执行真实任务。业界正竞相探索进一步提升推理能力的新方法。然而，该研究表明，若缺乏扎实的中间训练基础，这些技术手段的效果可能将大打折扣。

Q&A

Q1：IBM研究中所说的"中间训练"是什么？它和普通训练有什么区别？

A：中间训练是位于预训练和后训练之间的一个额外训练阶段，主要聚焦于数学、代码和科学推理数据集。与预训练（让模型消化海量文本）和后训练（通过强化学习塑造行为）不同，中间训练通过重构模型超过90%的权重来大幅提升推理能力，为后续强化学习奠定基础。IBM实验表明，加入中间训练可将模型推理能力提升3至4倍。

Q2：中间训练和强化学习能互相替代吗？

A：不能互相替代。IBM的研究明确指出，中间训练与强化学习的运作机制存在本质差异。中间训练会重构模型超过90%的权重，从根本上改变模型的推理结构；而强化学习仅修改约5%的参数，是在中间训练所建立的基础上进行精细调整。跳过中间训练、仅靠强化学习训练相同数据的模型，性能提升非常有限，无法达到相同效果。

Q3：IBM Granite模型在中间训练后，准确率提升了多少？

A：以Granite-3.3-8B为例，在MATH500基准测试中，该模型在基础预训练阶段的准确率仅为16.9%，经过中间训练后跃升至75.5%，再经强化学习后进一步提升至79.5%，总体准确率提升幅度高达约62.6个百分点。响应长度也从120个Token大幅增加至约1,700至2,254个Token，表明模型开始逐步展示完整的推理过程，而非仅给出简短答案。