DeepSeek提速85%！梁文锋署名的DSpark终结老旧推理瓶颈|deepseek|人工智能模型|推理|梁文锋|模态|调度器|速度

“梁圣”的恩情还不完。

智能纪元AGI 6月27日消息，今天中午，DeepSeek在Github上对V4进行更新，新推出投机解码（Speculative Decoding）框架DSpark，并同步开源全栈推测性解码框架DeepSpec。

简单来说，这次是DeepSeek-V4-Pro的基础上衍生出DeepSeek-V4-Pro-DSpark版本，主要还是提升大模型推理速度，将用户的生成速度分别提升60%-85%（Flash模型）和57%-78%（Pro模型）。

然而，大家还是有疑问，“投机解码”是什么技术？DSpark又能解决什么问题？DeepSeek为何会做这样一款框架？

智能纪元AGI基于DeepSeek联合北京大学团队发布的DSpark技术报告《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》，简单介绍一下这个技术。

DeepSeek新加入了一个“小实习生”

事实上，大语言模型采用自回归方式生成文本：每生成一个新标记都需要基于所有先前标记完成一次完整的前向传播，这使得推理延迟与输出长度成正比。

由此导致的低GPU利用率和较高的用户感知等待时间，构成了生产级大模型服务中的一个主要瓶颈，在实时对话助手、多轮智能体工作流等对延迟敏感的场景中尤为突出。

虽然目前AI技术上出现了推测解码、奖励标记、并行草稿生成器、自回归等技术方式，解决上述问题，或者说替代此前的一些技术，但充分释放大规模并行草稿生成技术，会带来两个关键瓶颈：生成质量层面会降低系统tokens吞吐量；以及在系统效率上，验证具有高拒绝风险的token会占用关键的批次容量。

如果更形象点说，用「老师-学生」打比方解释。

大模型默认是一个字一个字往外蹦（自回归），每次都得跑一遍整张神经网络，生成 100 个字就跑 100 次，巨慢。

而如今，DeepSeek的投机解码DSpark的思路，是雇个「实习生」，也就是小模型。

利用这个“实习生”模型，先快速写出 100 个字的草稿，然后老师（大模型）眼睛一闭，一次性把这 100 个字全部过一遍，复算概率，挑出它也认可的那部分前缀，剩下的扔掉重来。

所以，DSpark 的核心初衷是解决在生产环境中（尤其是高并发场景下）大模型推理面临的延迟和吞吐量瓶颈。

简而言之，DSpark 成功地将高吞吐量的“并行生成”，与自适应的“负载感知验证”结合在了一起。

而DSpark是在不改变模型输出分布的前提下加速大语言模型推理的技术。

其核心思路是引入两个阶段：

1、轻量级的「草稿模型」（draft model），预先生成若干候选 token，优势是块内上下文连贯、接受率稳定。

2、再由目标模型（target model）对这批候选进行批量验证和接受，从而将串行逐 token 生成转变为并行批量校验，大幅降低端到端延迟。

根据论文所述， DSpark 的创新在于引入了两个新的架构技术：

1、半自回归生成架构（Semi-Autoregressive Generation）：它保留并行草稿模型的高吞吐优势，同时加入轻量级串行模块，对 block 内 token 之间的依赖关系进行建模，以缓解并行草稿模型在后续位置上容易出现的接受率衰减问题。

2、硬件感知的置信度调度验证（Confidence-Scheduled Verification）：动态裁剪待校验 token 长度，根据单块置信概率+当前 GPU 吞吐负载全局优化系统总 token 吞吐，冰利用置信头（Confidence Head）、硬件感知前缀调度器、动态裁剪效果三个技术，评估每个 Token 的存活概率，再结合硬件感知前缀调度器，系统能够根据实时的引擎吞吐量特征，动态为每个请求量身定制最优的验证长度，将算力只分配给预期回报最高的 Token。

这里有个关键保证：用一种规则验收，最终输出的分布和大模型自己一个字一个字蹦出来的分布完全一致。所以质量不会掉，纯加速，代价是多了一次小模型推理。

DeepSeek也做了“离线基准”实验测试，在阿里Qwen3-4B/8B/14B、谷歌Gemma4-12B 多主模型测试中，覆盖数学、代码、闲聊三大任务，DSpark大幅超越了目前最先进的自回归模型（Eagle3）和并行草稿模型（DFlash）。

例如，在 Qwen3 系列（4B、8B、14B）目标模型上，其平均接受长度比 Eagle3 提升了 26.7% 到 30.9%。

相比并行 DFlash，平均接受长度提升 16.3%~18.4%；结构化任务（代码、数学）提升幅度高于开放式闲聊。

相比于前一代部署的单 Token 生产基准（MTP-1），在维持相同总体吞吐量的情况下，DSpark 将用户的生成速度提升了最高达85%。

具体来说，同等系统总吞吐下，单用户生成速度提升 57%~85%；严格低延迟 SLA 约束下，原有基线吞吐断崖下滑，DSpark 仍维持稳定算力输出，向外推移吞吐 - 延迟帕累托最优边界。

V4-Flash：80tok/s SLA 吞吐提升51%，120tok/s 严苛 SLA 吞吐提升 661%；
V4-Pro：35tok/s SLA 吞吐提升52%，50tok 高要求场景提升 406%。

一句话总结：

DSpark方案，就是让一个“实习生”小模型，先“猜”一串 token，给主大模型审核。而大模型如果觉得猜对，就直接用，猜错删掉重写。

一次审核能一次性用好几个字，速度直接翻倍，而且回答内容和原版模型完全不变、不会失真，从而加速了大模型并行推理计算能力，以及输出AI信息的正确率。

论文提到，DSpark 是兼顾推理延迟、生成质量、线上高并发吞吐的新一代投机解码框架。通过半自回归结构补齐并行草稿上下文短板，搭配硬件感知置信调度器消除无效校验算力浪费。离线基准全面超越 Eagle3、DFlash 主流方案，落地 DeepSeek-V4 线上服务后显著优化延迟吞吐权衡边界，同时完整开源模型与训练工具，推动大模型推理加速领域社区发展。

坐等DeepSeek V4.1模型来袭

过去一年多，除了V3、V4、R1等系列主模型，DeepSeek团队其实做了很多开源框架型和算力型技术工作，主要还是搭建一整套端到端AI大模型技术框架。

其中，去年DeepSeek「开源周」，一次性释放 DeepEP、DeepGEMM、FlashMLA、DualPipe、3FS 五大算力底层框架，补齐 MoE 训练全栈基础设施，尤其是MoE 混合专家底层通信/负载均衡套件。

1、DeepEP：MoE专用专家并行通信库，解决多卡 MoE 路由 token 传输拥塞问题；支持动态分片、重叠计算 / 通信，大幅降低 V3/V4 大规模 MoE 集群训练延迟，是千亿 MoE 稳定训练核心底座。

2、EPLB（Expert-Parallel Load Balancer），配套 DualPipe 分布式流水线

3、MoE 实时负载均衡器：动态重分配各 GPU 专家 token 流量，消除热点 GPU 瓶颈；专家硬件利用率提升 2–3 倍，支撑 256 专家超大 MoE 集群线性扩展；与 DualPipe 流水线并行方案绑定开源，优化长序列训练显存占用。

4、FP8 矩阵计算内核DeepGEMM：全自研 FP8 通用矩阵乘法库，同时支持稠密 LLM 与 MoE 专家计算；解决 Hopper 架构 FP8 训练数值不稳定问题，是 DeepSeek 全线 FP8 训练 / 推理的底层算子，大幅降低显存占用、提升算力密度。

4. FlashMLA：针对 DeepSeek 自研 MLA 多头潜在注意力（V3/V4 标配低秩注意力，减少 KV Cache）的硬件优化内核，仅适配 NVIDIA Hopper（H800/H100）；支持分页 KV 缓存、FP16/FP8，长文本推理显存开销降低 40%+，是百万上下文窗口核心优化组件。 5. 3FS：分布式存储底座，面向大模型训练集群的高性能分布式存储，自研元数据调度、块缓存机制；支撑 TB 级预训练数据集高速读写，解决多机训练 IO 瓶颈，DeepSeek 全部预训练集群统一部署，配套完整运维脚本开源。 6. Janus：多模态统一框架，配套微调 / 推理工具链，统一文本理解、图像理解、图像生成三大任务；视觉编码器与文本 LLM 解耦，单 Transformer 统一序列建模，支持图文问答、文生图、OCR 多模态流水线，配套 Janus-Pro 多模态权重与训练脚本。此外还有优化 Janus 多模态、DeepSeek-R1 强化学习推理工具链、DeepSeek-Coder代码、OCR系列模型和工具。

今天DeepSeek联合北大除了发布DSpark 推测解码框架，一同开源的还有 DeepSpec：一个用于训练和评估推测性解码草稿模型的全栈代码库。

简单来说，DeepSpec是一种「开源基础设施」，包含数据准备工具、草稿模型实现、训练代码和评估脚本，利用数据准备、训练和评估三个阶段，实现tokens推理算力的成本叠加。

硬件方面，DeepSpec 默认配置和脚本面向单节点 8 卡环境。如果 GPU 数量较少，用户需要相应减少可见 GPU 数量；算法方面，DeepSpec 目前内置三种草稿模型：DSpark、DFlash 和 Eagle3。目标模型系列则支持Qwen3 和 Gemma两种开源模型。

最后还是总结一下，

今天DeepSeek这套产品，统一封装DSpark、DFlash、Eagle3三套推测解码草稿模型训练、推理、评估全链路代码，附带完整论文、权重、压测脚本，解决了模型后半段乱写、服务器算力浪费两大难题，猜字更快、错字更少、服务器扛得住更多人同时使用，AI 响应速度大幅提升且回答不变质。

这些还是本质上还是希望让大模型推理效率提升、AI输出的内容更准确、更有价值。

最后就是期待。

有消息显示，DeepSeek计划在6月推出V4模型的迭代版本V4.1。

根据推算，最快可能是在下周发布。

©本文为原创内容

未经授权，禁止转载