SpecTTS-Bench:首个面向「Test-Time Scaling」的投机解码基准,收割冗余红利,越推越快!
本文由来自香港城市大学、华为的多位研究者共同完成。第一作者为来自香港城市大学的博士生孙圣印和来自华为的研究员李一鸣,通信作者为来自香港城市大学的助理教授马辰。
在推理大模型的应用里,一个朴素但有效的策略正在成为共识:推理阶段扩展(Test-Time Scaling, TTS)—— 在推理阶段额外分配计算(例如反复思考,多轮推理),往往能显著提升推理大模型解决复杂问题的正确率与稳健性。但TTS应用于推理大模型的代价也同样明显:大量冗余、重复的推理轨迹被生成出来,吞噬了推理时延与算力预算,让模型的“更聪明”变得“不够划算”。
基于此,本文提出了首个面向TTS的投机解码(Speculative Decoding)加速综合基准。评测结果显示,在结构化且重复密集的 TTS 场景里,朴素的N-gram方法更能精准“吃到”重复带来的红利,释放出不容忽视的加速潜力。
论文标题:Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling
论文地址:
https://arxiv.org/abs/2509.04474
论文代码:
https://github.com/sunshy-1/SpecTTS-Bench
图1 TTS的过程中大量冗余和重复的推理轨迹示例。
1. 「叠床架屋」为什么 TTS 会“慢得不划算”?
随着大模型能力的持续提升,业界逐渐意识到一个重要现象——即所谓的 Scaling Law 在推理阶段同样成立。简单来说,只要在推理阶段投入更多的计算资源,就能够在一定程度上换取更强的复杂推理能力。换句话说,即便模型参数规模固定,通过扩大推理时的“思考深度”或“思考广度”,同样可能获得更高质量的输出。典型方式包括:
▪ Best-of-N:针对同一个问题,模型生成多条不同的推理路径或候选答案,然后再通过评分机制或后验判断,选出最优方案;
▪ Multi-round Thinking:让模型以多轮“想—写—再想—再写”的形式进行自我复审和反思,不断修正先前的推理错误或补充遗漏的逻辑。
然而,这种范式并非没有代价。它的核心问题在于推理效率极低,往往会出现所谓的“叠床架屋式冗余计算”。在多轮或多样采样的过程中,模型往往会反复生成类似的分析开头、重复的中间结论、固定化的检查步骤,甚至对前文内容进行机械式重述。这些内容虽然表面上增加了推理“长度”,但实际信息增益有限。结果就是,TTS的推理过程不可避免地充斥着大量重复和无效的计算轨迹——算力在自说自话的过程里被浪费掉了。这也带来了一个颇为尴尬的现实:我们确实找到了提升大模型上限、激发其潜在推理能力的有效路径,但同时必须付出极高的计算代价与延迟成本。换言之,TTS 在质量与效率之间形成了难以调和的矛盾——它能让模型“更聪明”,却让推理过程“慢得不划算”。
2. 「以小博大」:投机解码如何破解“慢思考”困局?
面对TTS带来的巨大算力消耗,投机解码提供了一种高效的计算范式,旨在缓解大模型推理过程中的访存瓶颈。其核心机制在于解耦了“生成”与“验证”两个过程:系统首先利用一个参数量较小、推理速度极快的“草稿模型”(Draft Model)预先生成一系列候选 Token,随后由参数量庞大的“目标模型”(Target Model)以并行计算的方式对这些候选序列进行批量验证。由于大模型在处理单个 Token 和并行处理多个 Token 时的延迟差异较小,这种“预测-验证”机制能够显著减少目标模型昂贵的串行前向传播次数,从而在保证输出分布与目标模型完全一致(即无损加速)的前提下,大幅提升整体推理吞吐量。
在TTS的具体实践中,无论是通过Best-of-N寻找最优解,还是通过多轮迭代进行自我修正,其计算过程本质上都伴随着大量的文本重复。例如,在生成多个推理路径时,不同样本间往往共享着长段的公共前缀或标准化的思维模板;而在迭代修正过程中,模型又不可避免地需要复述上下文或对既有文本进行微调。这种由采样策略和迭代机制直接导致的重复性,恰恰是投机解码能够利用的最大红利。内容的高频重复显著降低了预测难度,使得草稿模型能够以极高的命中率通过验证。因此,TTS 场景下算力扩张所带来的文本冗余,反而在投机解码的机制下转化为加速推理的关键杠杆。
图2 针对高效TTS的投机解码方法框架。
3. 「SpecTTS-Bench」首个面向 TTS 的投机解码评测基准
为了系统性地量化投机解码在TTS推理场景下的效能,本文构建了首个面向 TTS 的投机解码评测基准。该基准不仅制定了统一且严格的实验协议,更全面覆盖了当前最具代表性的两大 TTS 范式:旨在通过广度搜索寻找最优解的 Best-of-N 采样,以及通过深度迭代提升推理质量的多轮思考。在投机解码方法论的维度上,本文涵盖了多样化的技术路径,包含如下四大类:
▪ 基于模型(Model-based)的方法,即经典的利用同源小模型生成候选序列、再由目标模型验证的范式;
▪ 基于训练(Training-based)的方法,侧重于通过特定训练优化推测器或策略,使其更紧密地贴合目标模型的分布特征;
▪ 基于 N-gram(N-gram-based)的方法,直接利用文本统计规律中的重复模式进行极低成本的快速预测。
4. 「群雄逐鹿」九种投机解码方法在两类主流TTS框架中的统一评测
本基准对九种投机解码方法在两类主流 TTS框架中进行了统一评测,涵盖 Best-of-N(图3)与多轮思考(图4)两大典型场景。实验选取了DeepSeek-R1-Distill-Llama-8B(DSL-8B)和 Qwen3-8B(QW3-8B)模型,在 AIME24/25、MATH500 及GPQA 等高难度推理基准上对比了各方法的平均接受Token数(MAT)与端到端加速比(Speed)。
评测结果揭示了一个关键发现:在结构化且重复密集的 TTS 场景中,能够利用历史信息的非训练N-gram方法展现出惊人的适应性。如图3所示,在 DSL-8B (T=0) 的贪婪解码设定下,SAM方法表现尤为亮眼,其在 GPQA 任务上取得了3.57的MAT和3.20×的加速比,整体评测中也保持了平均2.66×的稳健加速。这表明,TTS 推理过程中产生的思维链包含大量重复的推理步骤和格式化表达,朴素的N-gram或基于历史匹配的机制(如SAM)能够精准利用这些重复模式带来的红利。
基于这一洞察,我们进一步验证了将N-gram机制与基于训练的投机解码方法相结合的混合策略。实验数据显示,SAM[EAGLE-3]这种混合策略集两者之长,在各类设定下均实现了性能突破。特别是在图3的DSL-8B (T=0) 贪婪解码场景中,SAM[EAGLE-3]在GPQA任务上的MAT达到了惊人的7.00,并在整体评测中实现了最高3.97×的加速比。同样,在QW3-8B 的多轮思考场景(图4)中,该混合策略依然保持领先,稳定提供约2.7×至3.5×的加速收益。
图3 不同投机解码方法在Best-of-N场景中的性能。
图4 不同投机解码方法在多轮思考场景中的性能。
5. 「以简驭繁」:重塑大模型推理的效率边界
图5 Scaling Up, Speeding Up!N-gram投机解码方法(SAM,PIA,SAM[EAGLE-3])在TTS中越推越快。(a) Best-of-N(T=0)。(b) Best-of-N(T=0.6)。(c) 多轮思考(T=0.6)。
本基准不仅为TTS场景中的大模型推理提供了标准化的度量衡,更揭示了“重复即红利”这一关键洞察。在追求模型“深思熟虑”的道路上,简单的 N-gram 机制与混合策略展现出了“四两拨千斤”的潜力,有效缓解了长思维链带来的推理时延。我们期待这一基准能推动社区进一步挖掘推理结构中的加速潜力,让“越推越快”成为TTS的新常态。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴