昇腾EAGLE-3微调和推理技术优化：实现推理时延下降20%|大模型|技术优化|推理|时延|昇腾eagl|算法

来源：市场资讯

（来源：华为计算）

投机解码（Speculative Decoding）是解决模型推理中自回归（Autoregressive, AR）瓶颈的关键技术之一，其中，对于原本不支持MTP投机解码的模型，EAGLE-3是当前效果较优且更为普适的投机解码技术。

昇腾针对EAGLE-3做了深度优化，降低了20%的推理时延：

（1）微调方面，我们通过系统性的消融实验，构建并优化了高采信率草稿模型端到端训练的完整pipeline，显著提升吞吐效率并降低推理延迟。

（2）推理技术方面，通过EAGLE-3与旋转量化、MTP draft model归一、PCP/DCP等多种推理特性深度融合，构建了全链路优化的推理架构。

本文将全面介绍这些关键技术及落地成果。

EAGLE-3是什么？

以EAGLE-3为代表的投机解码技术构建了“轻量级草稿模型（Draft Model）预推+主模型（Target Model）并行验证”的高效协作范式。该技术通过引入一个高度优化的草稿模型，基于输入序列与目标大模型深层融合的上下文特征，批量生成k个候选token（支持动态长度调节），随后主模型再并行验证全部候选token的合理性——通过一次并行推理即可完成多个token的校验，验证通过则直接批量输出，失败项则由主模型精准补全，确保输出无损且语义一致。

该机制实现了“极低草稿预测开销+单次主模型验证”的高效组合，使得生成k个token的总延迟仅略高于一次主模型自回归解码，却可实现近k倍的吞吐增益。

尤其在昇腾NPU，该技术充分释放了硬件在算力维度的代际优势，将原本被闲置的冗余计算资源高效转化为并行推理能力，大幅降低推理延迟。

EAGLE-3微调优化：实现综合采信率提升

EAGLE-3是达成低时延的核心优化能力，但如何训出高采信率的草稿模型，并总结可靠的pipeline是达成最佳实践的关键。主要涉及两方面：

训练语料如何选择及配比？

社区通用的一些数据集及配比在特定场景下的接收率有限，甚至无法提供加速。

草稿模型及训练如何调优？

草稿模型本身是一个轻量级模型，同样也是基于自回归模式，为了进一步提高和压榨提升量，如何调配、优化参数使其进一步提高学习能力是关键。

昇腾关键优化

为了实现EAGLE-3模型的推理采信率提升，在如下方面做了如下优化：

数据调优：利用混合策略构建高质量数据集

草稿模型学习的是大模型的输出分布，因此训练语料要和实际推理语料尽可能保持同分布，避免出现“水土不服”的场景。我们采用混合策略，构建了一个高质量的混合数据集，相比社区通用的训练数据集，能够显著增强草稿模型在数学、代码生成、多轮对话等多领域的综合能力。

草稿模型调优：消融实验实现最佳参数配置寻优

草稿模型的学习能力强弱、loss收敛情况与其结构参数、训练参数相关，我们针对全流程多个参数进行了消融实验，如intermediate_size、num_hidden_layers、num_key_value_heads等参数，在不影响草稿模型额外开销的基础上得到最优参数配置。

通过以上的2点主要优化，昇腾让“草稿模型”学得更准，构建了从结构设计、参数调优到数据策略的完整优化闭环。

优化结果

在投机步数为3步时，针对以下模型，实测结果接收长度均超过业界开源权重水平，证明了优化的有效性：

EAGLE-3和各种推理特性叠加

降低整体时延20%

支持EAGLE-3带旋转量化推理

旋转量化（以QuaRot/RotorQuant为代表）与投机解码（Speculative Decoding，含EAGLE-3/MTP）的深度融合，是vLLM Ascend平台针对大模型高效推理的关键技术组合。该方案通过量化压缩显存瓶颈与推测执行提升算力效率的双轮驱动，在昇腾硬件与GLM-5等大模型（W4A8量化）场景下，实现了精度、吞吐、时延、部署成本的全方位优化，其核心价值可从以下维度系统阐述：

精度保障：抑制量化噪声，稳固投机生成质量

旋转量化通过正交矩阵变换（如Hadamard旋转）预处理权重与激活分布，均衡数值动态范围、消除离群值，从根源降低W4A8等低比特量化引入的误差。在投机解码链路中：

主模型（验证器）：经旋转量化后，验证阶段的判别精度更高，能更准确接受/回退草稿token，减少误判导致的生成退化与重复验证开销。

草稿模型（Proposer，如EAGLE-3/MTP）：量化噪声更小，候选序列的准确率与一致性显著提升，直接提高投机接受率、减少回退重试，强化长文本生成的连贯性。

协同适配W4A8：与GLM-5的权重4比特、激活8比特策略深度协同，旋转预处理进一步稳定激活分布，让低比特量化在MoE稀疏架构下仍保持逼近全精度的推理效果。

显存效率：双重压缩，支撑超大模型单机部署

旋转量化压缩：权重/激活经旋转后量化更高效，W4A8可将700B+级模型显存占用降低75%，配合KV Cache量化，彻底突破单节点显存瓶颈。

投机解码减负：草稿模型（小参数量化版）替代主模型步进生成，大幅减少每步激活与KV Cache读写，与旋转量化形成显存占用的“双重压降”，支撑GLM-5等超大模型在昇腾单服务器（如Atlas 800T A3）高效部署。

算力增益：量化加速与推测执行的协同放大

量化降低计算强度：W4A8量化将矩阵乘算力需求降至FP16的1/4~1/8，旋转算子可与昇腾硬件指令深度融合，量化计算无显著额外开销。

投机提升有效算力：主模型单次验证可并行接受N个草稿token，等效将生成步长放大N倍。

协同效应：量化释放的算力直接供给投机的并行验证与草稿生成，在vLLM-Ascend的统一调度下形成“量化提速→算力富余→更高并行度→更大吞吐”的正向循环，端到端时延降低40%~70%、吞吐提升3~8倍。

工程与系统：统一架构，适配自主创新硬件优化

vLLM-Ascend统一代码归一：旋转量化、W4A8、EAGLE-3/MTP共用底层算子、KV管理与调度框架，优化一次全链路受益，降低维护与迁移成本。

昇腾软硬协同：旋转量化与投机解码均针对昇腾NPU的张量计算、多精度流水线与HCCL通信深度优化，量化内核与推测调度无跨框架开销。

可扩展与兼容：统一抽象接口支持快速适配新量化（如W4A16）与新模型（如deepseekv4），同时可以支持新投机算法（如dflash）的快速适配。

部署价值：降本增效，推进大模型规模化落地

硬件成本减半：超大模型从多卡集群降至单服务器部署，长序列低时延场景部署成本降低50%+。

高并发稳定服务：量化+投机的组合在高并发下保持低时延、高吞吐、高稳定性，满足企业级实时交互需求。

旋转量化与投机解码的结合，是大模型推理的系统性优化范式。它以旋转量化保精度、压显存，以投机解码提算力、增吞吐，并通过vLLM Ascend的统一架构与昇腾硬件深度协同，完美适配GLM-5等模型的W4A8量化需求。该方案在不牺牲生成质量的前提下，实现了超大模型单机部署、推理效率数倍提升、部署成本显著降低的核心目标。

支持EAGLE-3和MTP draft model归一

为提升系统架构的统一性、可维护性与迭代效率，vLLM对EAGLE-3 speculative decoding与MTP multi-token prediction两类加速推理方案采用统一代码架构实现。在抽象层定义标准化接口与执行流程，将提议生成、序列校验、采样控制、批处理调度、KV缓存管理等通用逻辑进行归一化封装，EAGLE-3与MTP仅在具体候选生成策略与特征融合方式上实现差异化逻辑。

该设计通过代码归一实现了多方面收益：一是架构复用，上层生成框架无需感知底层加速策略差异，降低模块耦合与代码冗余；二是优化共享，批处理、张量并行、树解码等核心优化只需实现一次，即可同时作用于两类加速模式，避免重复开发与性能不一致问题；三是维护统一，异常处理、边界校验、日志埋点与调试逻辑保持一致，显著降低测试与运维成本；四是扩展高效，后续新增同类加速算法时，只需基于统一接口实现核心生成逻辑，无需改造主干流程，大幅提升框架迭代速度。

整体而言，归一化代码实现既保证了EAGLE-3与MTP在功能上的独立性与灵活性，又充分发挥了统一架构在工程效率、系统稳定性与性能一致性上的优势。

支持PCP/DCP叠加EAGLE-3

PCP与DCP与投机解码的结合，是长序列分布式推理的关键范式：

算力与显存双优化：PCP/DCP切分上下文，降低单卡显存占用；投机解码减少主模型调用次数，提升有效算力利用率。

稳定性与扩展性：统一接口设计支持快速迭代新投机算法（如Medusa），兼容MoE模型与量化方案，适配昇腾生态vLLM。

端到端性能提升：在长序列生成场景中，可显著降低TTFT（Time To First Token）与TPOT（Time Per Output Token），实现高并发下的低时延稳定服务。

在vLLM-Ascend推理架构中，PCP（Prefill Context Parallel，预填充上下文并行）与DCP（Decode Context Parallel，解码上下文并行）均已实现对投机推理机制的完整支持，可与EAGLE-3、MTP等多候选生成策略高效协同工作。PCP通过在预填充阶段对长上下文进行分片并行处理，降低单卡计算与缓存压力，为草稿模型生成提供稳定且低延迟的特征输入；DCP则在解码阶段实现分布式并行验证，提升投机候选序列的校验吞吐。二者与投机解码结合后，能够充分利用多卡算力资源，在长序列场景下进一步缓解显存瓶颈、提升端到端生成效率，同时兼容旋转量化、W4A8等低比特量化方案，保障模型在大规模分布式部署中的推理性能与精度稳定性。

如何使用和效果

vllm-ascend开启EAGLE-3，只需要在启动命令行中加入

--speculative-config '{"num_speculative_tokens": 3, "method": "EAGLE-3"}

结尾

昇腾始终以技术创新为核心，聚焦大模型推理效率提升与规模化落地痛点，基于Eagle3技术构建了从微调优化到多特性融合的全链路推理解决方案。从高采信率草稿模型的训练优化，到与旋转量化、PCP/DCP等技术的深度协同，再到代码架构的归一化设计，每一步优化都围绕“降时延、提吞吐、保精度、降成本”的核心目标，最终实现推理时延20%的显著突破，为自主创新算力平台赋能大模型应用提供了坚实支撑。未来，昇腾将持续深耕开源生态，不断迭代优化技术方案，推动更多高效推理技术的落地与普及，助力大模型在各行业实现更广泛、更高效的应用，释放自主创新算力的核心价值