这项由NVIDIA研究团队完成的工作,以预印本形式发布于2026年4月29日,论文编号为arXiv:2604.26779,感兴趣的读者可通过该编号查询完整论文。
当你和一个思维特别活跃的朋友聊天时,他不会等你说完整句话再开口,而是在你说到一半的时候就已经猜到你要表达什么,于是他提前开始组织回应——这样对话就比普通人之间的交流快了好几倍。NVIDIA的研究团队把这种"边听边猜"的思维方式,搬进了当下最前沿的人工智能训练系统里,由此带来了一种既快速又不出错的加速方案。
一、为什么训练大模型会"堵车"
要理解这项研究解决的问题,得先从大语言模型的训练过程说起。现代AI在具备推理能力之前,需要经历一个叫做"强化学习后训练"的阶段——可以把这个过程理解为让AI反复做数学题、反复被老师打分、然后根据分数调整自己的答题策略,如此循环数百乃至数千轮,AI的推理能力才会逐步提升。
在这个过程中,AI每次"作答"都需要一个字一个字地生成回应,就像一台打字机,每次只能按下一个键,而且必须等上一个键打完才能按下一个键。这种一个接一个的生成方式在专业上叫做"自回归解码"。问题在于,AI生成的回答往往非常长,尤其是推理类任务,一次回答动辄几百甚至上千个词,按键的过程极度耗时。NVIDIA团队通过测量发现,在实际训练过程中,整个训练步骤里有65%到72%的时间都被AI"打字"这件事占据了。剩下的三分之一时间,才是真正在做梯度更新、优化模型这些核心的学习操作。
这就相当于一家工厂里,工人的大部分时间不是在生产产品,而是在等待零件一个一个从传送带上落下来。如何让这条传送带跑得更快,成了整个AI训练系统中最核心的瓶颈问题。
二、聪明的"猜词搭档":投机解码是什么
NVIDIA团队引入的加速方案叫做"投机解码"(Speculative Decoding)。这个名字听起来很玄乎,但其实道理非常直观。
回到刚才打字机的比喻:正常的AI生成过程是大模型一个字一个字地敲,每次敲一个字都需要调动整台大机器来决策。投机解码的思路是:在大模型旁边配一个小助手,这个小助手规模很小、跑得很快,它先飞快地猜出接下来可能会出现的几个字,然后交给大模型统一验证——"你觉得我猜得对不对?"大模型只需要做一次验证,就能确认小助手猜的多个字是否符合自己的意图。
如果小助手猜对了,就等于大模型用一次决策时间产出了好几个字,效率大幅提升。如果猜错了,大模型会从猜错的那个字开始重新接管,像什么都没发生过一样继续生成。关键在于,不管小助手猜没猜对,最终产出的内容一定和大模型自己生成的内容在统计意义上完全一致——因为验证机制保证了这一点。这在专业上叫做"保持目标模型的输出分布",用大白话说就是:加速了但没走样。
这个特性对AI训练来说至关重要。在强化学习训练中,AI是通过评价自己生成的答案来学习的,如果生成的答案偷偷换了一种方式产生、和真实的大模型想法有偏差,训练的学习信号就会被污染,最终训出来的模型就不是你想要的那个了。投机解码因为保持了完全一致的分布,就像给传送带装了加速器但没有改变产品的品质,因此可以安全地用在训练过程中。
三、系统层面:把"猜词搭档"融进训练流水线
光有这个想法还不够。把投机解码真正塞进一个正在运行的训练系统,面临的挑战远比想象中复杂。
NVIDIA团队把这套方案实现在了他们的NeMo RL框架里,背后的推理引擎使用了vLLM。整个系统的工作流程可以这样理解:一边是负责生成答案的"生产车间"(vLLM后端,带着小助手模型),另一边是负责评分和学习的"管理中枢"(MegatronLM,运行大模型本体)。每次训练步骤完成后,大模型的权重会更新,这个更新必须同步传给生产车间,同时也要让小助手模型跟上节拍——否则小助手还按照上一版大模型的思路猜词,猜中率就会越来越低,加速效果就会打折扣。
这里有一个特别巧妙的设计:当系统开启"在线草稿适配"功能时,大模型在做学习计算的同时,会把自己的中间状态(隐藏层状态和对词语的概率判断)缓存下来,这些缓存可以直接拿去训练小助手,而不需要额外再跑一遍大模型的前向传播。为了确保小助手的训练不会反过来干扰大模型的学习,这条数据通路经过了一个"切断梯度"的处理——专业说法是`.detach()`操作,意思是两套训练信号完全隔离,互不影响。
在小助手模型的选择上,系统支持两条路径。一条是通用路径,使用一种叫做EAGLE-3的技术,这个技术可以为任何现有的预训练模型配备一个外挂的草稿头;另一条是原生路径,专门针对那些本身就内置了多词预测辅助头的模型(比如DeepSeek系列),这类模型的内置辅助头直接充当小助手的角色。两条路径在NeMo RL里都得到了完整支持。
四、实验结果:快了多少,学习有没有走样
NVIDIA团队在两个场景下做了实验,分别叫做RL-Think和RL-Zero。前者是从一个已经具备推理能力的模型(Qwen3-8B)出发,继续强化它的思维链质量;后者是从完全没见过推理任务的基础模型(Qwen3-8B-Base)出发,从零开始培养推理能力。实验使用的数学题数据集叫做DAPO-Math-17K,评估指标是在AIME-2024竞赛题上的准确率。
先看"打字"速度的变化。在不使用投机解码的情况下,RL-Think每步训练花在生成上的时间是133.6秒,RL-Zero是100.0秒。引入EAGLE-3之后,RL-Think降到了87.0秒,RL-Zero降到了56.6秒,生成速度分别提升了1.54倍和1.77倍。由于生成只占整体训练步骤的65%到72%,剩余的日志概率计算和参数更新时间没有变化,整体每步训练时间从185.3秒降到137.4秒(RL-Think)和从151.2秒降到107.5秒(RL-Zero),整体加速分别是1.35倍和1.41倍。
研究团队还测试了另一种不需要小助手模型的简单方案,叫做"n元语法草稿"——这种方法靠简单地查找文本里反复出现的词语组合来预测下一个词,完全不需要任何神经网络。测试结果令人意外:即使这种简单方法在RL-Zero上猜对了2.47个词、在RL-Think上猜对了2.05个词,它的实际表现反而比不用任何加速方案还要慢,RL-Zero慢到原来的0.7倍,RL-Think慢到0.5倍。这个发现传达了一个重要信息:猜对率高并不等于真正加快,验证带来的额外开销完全可以把猜测的收益吃光。只有小助手足够聪明、足够快,才能让整个系统真正受益。
再看训练效果有没有受到影响。随着训练步数推进,EAGLE-3和不使用任何加速方案的曲线在验证集准确率上几乎完全重合。RL-Think的准确率从约60%稳步爬升到约70%,RL-Zero从接近3%涨到约33%,两种解码方式下的模型学到的东西没有任何可观察到的差别。这印证了投机解码"加速但不走样"的核心承诺。
五、三个关键参数:初始化、草稿长度、在线更新
实验还深入研究了三个在实际部署中会影响加速效果的关键决定。
第一个是小助手怎么"入职"——也就是草稿模型的初始化方式。研究团队对比了两种方案:一种是用通用聊天数据(UltraChat和Magpie数据集)训练出来的通用草稿模型,另一种是专门用数学后训练数据(DAPO)训练出来的专项草稿模型。在相同的猜词长度设置下,专项草稿在RL-Zero上的加速效果从1.51倍提升到1.77倍,在RL-Think上从1.19倍提升到1.53倍。背后的道理很好理解:一个助手如果和你长期配合某类工作,他预测你想说什么的准确率自然比刚入职的通才要高。小助手训练时用的数据和实际训练任务越接近,猜中率就越高,加速效果就越好。
第二个是每次让小助手猜几个词——草稿长度。研究团队测试了草稿长度3、5、7三种设定。直觉上会认为猜得越多越好,但实验结果说明了相反的规律。草稿长度从3增加到7时,猜中的词数确实从3.32增加到5.06,但RL-Zero的加速比从1.77倍跌到1.21倍,RL-Think更是从1.53倍直接跌到0.71倍——比不加速还慢!原因在于:每次猜词都需要大模型统一验证,猜得越多,一旦中间某个词猜错了,后面的词就全部作废,验证的代价却已经实打实地付出去了。猜的长度和准确率之间存在一个微妙的平衡点,在这个实验设置下,长度3是最优解。
第三个是小助手要不要在训练过程中持续更新——在线草稿适配。结果显示,当草稿模型一开始就用专项数据初始化得很好时,在线更新几乎没有额外帮助(1.77倍对1.78倍,基本持平)。但当草稿模型起点较弱时,在线更新能把加速比从1.51倍提升到1.63倍。换句话说,在线更新更像是一个"保险机制",防止草稿模型随着策略演化而跟不上步伐,而不是一个普适的提升手段。
六、异步执行下的表现
上述实验都是在"同步"模式下进行的——每一步训练都严格等生成完成后才开始学习。现代大规模训练系统还有另一种模式叫"异步执行":生成和学习同时在不同的机器上进行,互不等待,这样整体流水线更加流畅。
NVIDIA团队也测试了投机解码在异步模式下的效果,使用了16个节点的配置,其中12个节点专门负责生成,4个节点负责训练。在这种模式下,大量的生成时间已经被隐藏在训练计算的背后了,暴露在"关键路径"上的生成等待时间只剩下10.4秒。投机解码把这个暴露的等待时间从10.4秒压缩到0.6秒,整体步骤时间从75.0秒降到60.5秒,提升约1.24倍。提升幅度比同步模式小,这是预期中的:因为异步模式已经帮你"藏掉"了大部分生成时间,投机解码能施展的空间自然就少了。但两者并不是相互替代的关系,而是叠加使用各有贡献的互补方案。
七、大规模部署的前景预测
8B规模的实验固然有说服力,但现实中很多机构训练的是几十亿乃至几千亿参数的巨型模型,在数百甚至数千块GPU上运行。NVIDIA团队用一个高精度性能模拟器对更大规模的部署场景进行了推演,研究了模型规模、GPU数量和策略延迟对加速效果的影响。
对于235B参数量的大型混合专家模型(Qwen3-235B-A22B),在512块GB200 GPU上的同步RL场景中,草稿长度和接受长度的不同组合会带来截然不同的效果。模拟显示,在最理想的参数设置下,生成速度最高可以提升6.49倍,但由于非生成阶段的时间无法被压缩,整体训练步骤的端到端加速上限是2.22倍。这个"天花板效应"再次印证了Amdahl定律:加速只有在瓶颈环节施展,才能对整体有效。
更有趣的是规模和策略延迟的交互效应。对于235B模型,在较小的部署规模(32块或128块GPU)下,随着异步策略延迟增大,加速效果会明显下降;但在512块到2048块GPU的部署下,即使策略延迟达到8步,加速效果依然相当稳定。对于8B模型,不同部署规模和延迟配置下的表现则几乎没有差别,都稳定在2.8到3.2倍的生成加速区间内。背后的逻辑是:大模型在大规模部署时,每个实例分到的批量较小,生成过程中存在大量"长尾等待"时间,投机解码正好填补了这些碎片化的等待。
在最有利的模拟场景下——235B模型、2048块GPU、策略延迟为2步——生成加速达到约3.5倍,结合这类大模型训练时生成阶段占比极高的特点,预计端到端训练加速约为2.5倍。
说到底,这项研究做的事情是:在AI学习速度被一个瓶颈卡住的时候,找到了一种既能踩下油门、又能保证方向盘不偏的加速方法。传统的加速方案往往需要在"快"和"准"之间做取舍,而投机解码绕开了这个两难困境。
对于普通用户来说,这项研究短期内不会改变你和AI助手对话的体验,但从更长远的角度看,未来更强大的推理模型之所以能被训练出来,背后正是靠着这类系统级的优化积累。训练一个顶尖推理模型可能需要数百万GPU小时,哪怕每个训练步骤节省30%的时间,累积下来就是数十万GPU小时的资源,这不仅是钱的问题,也意味着同样的计算预算下能做更多次实验、更快地找到更好的模型。
不过,这项研究也有其局限性值得思考:小助手的训练质量和与任务的契合程度决定了一切,而当AI训练任务的分布随着策略演化而快速变化时,如何持续保持小助手的"跟手"程度,仍然是一个值得深入探索的开放问题。有兴趣深入了解细节的读者,可以通过arXiv编号2604.26779检索原论文。
Q&A
Q1:投机解码为什么不会影响大模型训练的学习效果?
A:投机解码通过数学上严格的"拒绝采样"验证机制,保证最终生成的每个词都符合大模型本身的概率分布,相当于加速了"打字速度"但没有改变"想法内容"。实验中RL-Think和RL-Zero两个设置下,使用投机解码和不使用的训练准确率曲线完全重叠,实际验证了这一点。
Q2:n元语法草稿猜中率不低,为什么反而比不加速还慢?
A:猜中率高不等于加速,关键看验证带来的额外开销是否值得。n元语法草稿虽然在RL-Zero上猜中了2.47个词,但它的验证过程开销相对于它带来的收益过大,最终总时间反而增加了。这说明草稿模型必须足够"轻量且准确"才能真正提速,一味追求猜中率而忽视验证成本会适得其反。
Q3:草稿长度为什么设置为3比设置为7效果更好?
A:草稿长度越长,一旦中间某个词猜错,后面所有词全部作废,但大模型验证所有词的开销已经付出去了。实验中长度7虽然平均猜中词数从3.32提升到5.06,但RL-Think的加速比从1.53倍跌到0.71倍,比不加速还慢。在测试的任务难度下,长度3是收益和开销最平衡的配置。
热门跟贴