来源:市场资讯

(来源:华为计算)

投机解码(Speculative Decoding)是解决模型推理中自回归(Autoregressive, AR)瓶颈的关键技术之一,其中,对于原本不支持MTP投机解码的模型,EAGLE-3是当前效果较优且更为普适的投机解码技术。

昇腾针对EAGLE-3做了深度优化,降低了20%的推理时延:

(1)微调方面,我们通过系统性的消融实验,构建并优化了高采信率草稿模型端到端训练的完整pipeline,显著提升吞吐效率并降低推理延迟。

(2)推理技术方面,通过EAGLE-3与旋转量化、MTP draft model归一、PCP/DCP等多种推理特性深度融合,构建了全链路优化的推理架构。

本文将全面介绍这些关键技术及落地成果。

EAGLE-3是什么?

以EAGLE-3为代表的投机解码技术构建了“轻量级草稿模型(Draft Model)预推+主模型(Target Model)并行验证”的高效协作范式。该技术通过引入一个高度优化的草稿模型,基于输入序列与目标大模型深层融合的上下文特征,批量生成k个候选token(支持动态长度调节),随后主模型再并行验证全部候选token的合理性——通过一次并行推理即可完成多个token的校验,验证通过则直接批量输出,失败项则由主模型精准补全,确保输出无损且语义一致。

打开网易新闻 查看精彩图片

该机制实现了“极低草稿预测开销+单次主模型验证”的高效组合,使得生成k个token的总延迟仅略高于一次主模型自回归解码,却可实现近k倍的吞吐增益。

尤其在昇腾NPU,该技术充分释放了硬件在算力维度的代际优势,将原本被闲置的冗余计算资源高效转化为并行推理能力,大幅降低推理延迟。

EAGLE-3微调优化:实现综合采信率提升

EAGLE-3是达成低时延的核心优化能力,但如何训出高采信率的草稿模型,并总结可靠的pipeline是达成最佳实践的关键。主要涉及两方面:

训练语料如何选择及配比?

社区通用的一些数据集及配比在特定场景下的接收率有限,甚至无法提供加速。

草稿模型及训练如何调优?

草稿模型本身是一个轻量级模型,同样也是基于自回归模式,为了进一步提高和压榨提升量,如何调配、优化参数使其进一步提高学习能力是关键。

昇腾关键优化

为了实现EAGLE-3模型的推理采信率提升,在如下方面做了如下优化:

数据调优:利用混合策略构建高质量数据集

草稿模型学习的是大模型的输出分布,因此训练语料要和实际推理语料尽可能保持同分布,避免出现“水土不服”的场景。我们采用混合策略,构建了一个高质量的混合数据集,相比社区通用的训练数据集,能够显著增强草稿模型在数学、代码生成、多轮对话等多领域的综合能力。

草稿模型调优:消融实验实现最佳参数配置寻优

草稿模型的学习能力强弱、loss收敛情况与其结构参数、训练参数相关,我们针对全流程多个参数进行了消融实验,如intermediate_size、num_hidden_layers、num_key_value_heads等参数,在不影响草稿模型额外开销的基础上得到最优参数配置。

通过以上的2点主要优化,昇腾让“草稿模型”学得更准,构建了从结构设计、参数调优到数据策略的完整优化闭环。

优化结果

在投机步数为3步时,针对以下模型,实测结果接收长度均超过业界开源权重水平,证明了优化的有效性:

打开网易新闻 查看精彩图片

EAGLE-3和各种推理特性叠加

降低整体时延20%

支持EAGLE-3带旋转量化推理

旋转量化(以QuaRot/RotorQuant为代表)与投机解码(Speculative Decoding,含EAGLE-3/MTP)的深度融合,是vLLM Ascend平台针对大模型高效推理的关键技术组合。该方案通过量化压缩显存瓶颈与推测执行提升算力效率的双轮驱动,在昇腾硬件与GLM-5等大模型(W4A8量化)场景下,实现了精度、吞吐、时延、部署成本的全方位优化,其核心价值可从以下维度系统阐述:

精度保障:抑制量化噪声,稳固投机生成质量

旋转量化通过正交矩阵变换(如Hadamard旋转)预处理权重与激活分布,均衡数值动态范围、消除离群值,从根源降低W4A8等低比特量化引入的误差。在投机解码链路中:

主模型(验证器):经旋转量化后,验证阶段的判别精度更高,能更准确接受/回退草稿token,减少误判导致的生成退化与重复验证开销。

草稿模型(Proposer,如EAGLE-3/MTP):量化噪声更小,候选序列的准确率与一致性显著提升,直接提高投机接受率、减少回退重试,强化长文本生成的连贯性。

协同适配W4A8:与GLM-5的权重4比特、激活8比特策略深度协同,旋转预处理进一步稳定激活分布,让低比特量化在MoE稀疏架构下仍保持逼近全精度的推理效果。

显存效率:双重压缩,支撑超大模型单机部署

旋转量化压缩:权重/激活经旋转后量化更高效,W4A8可将700B+级模型显存占用降低75%,配合KV Cache量化,彻底突破单节点显存瓶颈。

投机解码减负:草稿模型(小参数量化版)替代主模型步进生成,大幅减少每步激活与KV Cache读写,与旋转量化形成显存占用的“双重压降”,支撑GLM-5等超大模型在昇腾单服务器(如Atlas 800T A3)高效部署。

算力增益:量化加速与推测执行的协同放大

量化降低计算强度:W4A8量化将矩阵乘算力需求降至FP16的1/4~1/8,旋转算子可与昇腾硬件指令深度融合,量化计算无显著额外开销。

投机提升有效算力:主模型单次验证可并行接受N个草稿token,等效将生成步长放大N倍。

协同效应:量化释放的算力直接供给投机的并行验证与草稿生成,在vLLM-Ascend的统一调度下形成“量化提速→算力富余→更高并行度→更大吞吐”的正向循环,端到端时延降低40%~70%、吞吐提升3~8倍。

工程与系统:统一架构,适配自主创新硬件优化

vLLM-Ascend统一代码归一:旋转量化、W4A8、EAGLE-3/MTP共用底层算子、KV管理与调度框架,优化一次全链路受益,降低维护与迁移成本。

昇腾软硬协同:旋转量化与投机解码均针对昇腾NPU的张量计算、多精度流水线与HCCL通信深度优化,量化内核与推测调度无跨框架开销。

可扩展与兼容:统一抽象接口支持快速适配新量化(如W4A16)与新模型(如deepseekv4),同时可以支持新投机算法(如dflash)的快速适配。

部署价值:降本增效,推进大模型规模化落地

硬件成本减半:超大模型从多卡集群降至单服务器部署,长序列低时延场景部署成本降低50%+。

高并发稳定服务:量化+投机的组合在高并发下保持低时延、高吞吐、高稳定性,满足企业级实时交互需求。

旋转量化与投机解码的结合,是大模型推理的系统性优化范式。它以旋转量化保精度、压显存,以投机解码提算力、增吞吐,并通过vLLM Ascend的统一架构与昇腾硬件深度协同,完美适配GLM-5等模型的W4A8量化需求。该方案在不牺牲生成质量的前提下,实现了超大模型单机部署、推理效率数倍提升、部署成本显著降低的核心目标。

支持EAGLE-3和MTP draft model归一

为提升系统架构的统一性、可维护性与迭代效率,vLLM对EAGLE-3 speculative decoding与MTP multi-token prediction两类加速推理方案采用统一代码架构实现。在抽象层定义标准化接口与执行流程,将提议生成、序列校验、采样控制、批处理调度、KV缓存管理等通用逻辑进行归一化封装,EAGLE-3与MTP仅在具体候选生成策略与特征融合方式上实现差异化逻辑。

该设计通过代码归一实现了多方面收益:一是架构复用,上层生成框架无需感知底层加速策略差异,降低模块耦合与代码冗余;二是优化共享,批处理、张量并行、树解码等核心优化只需实现一次,即可同时作用于两类加速模式,避免重复开发与性能不一致问题;三是维护统一,异常处理、边界校验、日志埋点与调试逻辑保持一致,显著降低测试与运维成本;四是扩展高效,后续新增同类加速算法时,只需基于统一接口实现核心生成逻辑,无需改造主干流程,大幅提升框架迭代速度。

整体而言,归一化代码实现既保证了EAGLE-3与MTP在功能上的独立性与灵活性,又充分发挥了统一架构在工程效率、系统稳定性与性能一致性上的优势。

打开网易新闻 查看精彩图片

支持PCP/DCP叠加EAGLE-3

PCP与DCP与投机解码的结合,是长序列分布式推理的关键范式:

算力与显存双优化:PCP/DCP切分上下文,降低单卡显存占用;投机解码减少主模型调用次数,提升有效算力利用率。

稳定性与扩展性:统一接口设计支持快速迭代新投机算法(如Medusa),兼容MoE模型与量化方案,适配昇腾生态vLLM。

端到端性能提升:在长序列生成场景中,可显著降低TTFT(Time To First Token)与TPOT(Time Per Output Token),实现高并发下的低时延稳定服务。

在vLLM-Ascend推理架构中,PCP(Prefill Context Parallel,预填充上下文并行)与DCP(Decode Context Parallel,解码上下文并行)均已实现对投机推理机制的完整支持,可与EAGLE-3、MTP等多候选生成策略高效协同工作。PCP通过在预填充阶段对长上下文进行分片并行处理,降低单卡计算与缓存压力,为草稿模型生成提供稳定且低延迟的特征输入;DCP则在解码阶段实现分布式并行验证,提升投机候选序列的校验吞吐。二者与投机解码结合后,能够充分利用多卡算力资源,在长序列场景下进一步缓解显存瓶颈、提升端到端生成效率,同时兼容旋转量化、W4A8等低比特量化方案,保障模型在大规模分布式部署中的推理性能与精度稳定性。

如何使用和效果

vllm-ascend开启EAGLE-3,只需要在启动命令行中加入

--speculative-config '{"num_speculative_tokens": 3, "method": "EAGLE-3"}

结尾

昇腾始终以技术创新为核心,聚焦大模型推理效率提升与规模化落地痛点,基于Eagle3技术构建了从微调优化到多特性融合的全链路推理解决方案。从高采信率草稿模型的训练优化,到与旋转量化、PCP/DCP等技术的深度协同,再到代码架构的归一化设计,每一步优化都围绕“降时延、提吞吐、保精度、降成本”的核心目标,最终实现推理时延20%的显著突破,为自主创新算力平台赋能大模型应用提供了坚实支撑。未来,昇腾将持续深耕开源生态,不断迭代优化技术方案,推动更多高效推理技术的落地与普及,助力大模型在各行业实现更广泛、更高效的应用,释放自主创新算力的核心价值