重磅！DeepSeek-V3.2-Exp 发布百万输出仅3元｜附完整论文中文翻译|deepseek|exp|上下文|图像生成基础模型|推理|索引|翻译

来源：数字开物

DeepSeek今日正式发布实验性版本DeepSeek-V3.2-Exp模型。该版本在V3.1-Terminus基础上进行了多项优化升级，官方App、网页端、小程序已同步更新。

价格方面，得益于新模型服务成本的大幅降低,官方API价格相应下调，新价格即刻生效。在新的价格政策下，开发者调用DeepSeek API的成本将降低50%以上。

技术方面，DeepSeek-V3.2-Exp引入了DeepSeek Sparse Attention(DSA)稀疏注意力机制,首次实现细粒度稀疏注意力机制,针对长文本的训练和推理效率进行了探索性的优化和验证。在几乎不影响模型输出效果的前提下，实现了长文本训练和推理效率的大幅提升。

DeepSeek-V3.2-Exp模型现已在Huggingface与魔搭开源,论文也已同步公开。在新模型研究过程中,DeepSeek使用高级语言TileLang进行快速原型开发。本次开源的主要算子包含TileLang与CUDA两种版本,建议社区在进行研究性实验时使用基于TileLang的版本以方便调试和快速迭代。

文章来源：DeepSeek

DeepSeek-V3.2-Exp：通过 DeepSeek 稀疏注意力提升长上下文效率

DeepSeek-AI

research@deepseek.com

摘要

我们推出 DeepSeek-V3.2-Exp，这是一个实验性的稀疏注意力模型，通过持续训练为 DeepSeek-V3.1-Terminus 配备了 DeepSeek 稀疏注意力 (DeepSeek Sparse Attention, DSA)。DSA 是一种由闪电索引器驱动的细粒度稀疏注意力机制，使 DeepSeek-V3.2-Exp 在训练和推理方面都实现了显著的效率提升，尤其是在长上下文场景中。模型检查点可在 https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp 获取。

1. 架构

与 DeepSeek-V3.1 的最终版本 DeepSeek-V3.1-Terminus 相比，DeepSeek-V3.2-Exp 唯一的架构修改是通过持续训练引入了 DeepSeek 稀疏注意力 (DSA)。

DSA 的原型设计。DSA 的原型主要包含两个组件：闪电索引器和细粒度 Token 选择机制。

闪电索引器计算查询 Token h_t ∈ R^d 与前序 Token h_s ∈ R^d 之间的索引分数 I_{t,s}，用于确定查询 Token 需要选择哪些 Token：

其中 H^ I 表示索引器头的数量；q_{t,j}^I ∈ R^{d_I} 和 w_{t,j}^I ∈ R 由查询 Token h_t 导出；k_s^I ∈ R^{d_I} 由前序 Token h_s 导出。出于吞吐量考虑，我们选择 ReLU 作为激活函数。由于闪电索引器的头数量较少且可以用 FP8 实现，其计算效率非常出色。

对于每个查询 Token h_t 的索引分数 {I_{t,s}}，我们的细粒度 Token 选择机制仅检索与前 k 个最高索引分数对应的键值条目 {c_s}。然后，通过在查询 Token h_t 与稀疏选择的键值条目 {c_s} 之间应用注意力机制来计算注意力输出 u_t：

图 1 | DeepSeek-V3.2-Exp 的注意力架构，其中 DSA 在 MLA 下实例化。绿色部分展示了 DSA 如何根据索引器选择前 k 个键值条目。

在 MLA 下实例化 DSA。考虑到需要从 DeepSeek-V3.1-Terminus 继续训练，我们基于 MLA (DeepSeek-AI, 2024) 为 DeepSeek-V3.2-Exp 实例化 DSA。在内核层面，为了计算效率，每个键值条目必须在多个查询间共享 (Yuan et al., 2025)。因此，我们基于 MLA 的 MQA (Shazeer, 2019) 模式实现 DSA，其中每个潜在向量 (MLA 的键值条目) 将在查询 Token 的所有查询头之间共享。基于 MLA 的 DSA 架构如图 1 所示。我们还提供了 DeepSeek-V3.2-Exp 的开源实现以明确细节。

2. 训练

从上下文长度已扩展到 128K 的 DeepSeek-V3.1-Terminus 基础检查点开始，我们执行持续预训练，然后进行后训练以创建 DeepSeek-V3.2-Exp。

2.1. 持续预训练

DeepSeek-V3.2-Exp 的持续预训练包含两个训练阶段。两个阶段的训练数据分布完全与 DeepSeek-V3.1-Terminus 使用的 128K 长上下文扩展数据一致。

密集预热阶段 (Dense Warm-up Stage)。我们首先使用短暂的预热阶段来初始化闪电索引器。在此阶段，我们保持密集注意力并冻结除闪电索引器外的所有模型参数。为了使索引器输出与主注意力分布对齐，对于第 t 个查询 Token，我们首先通过在所有注意力头上求和来聚合主注意力分数。

然后沿序列维度进行 L1 归一化，生成目标分布 p_{t,:} ∈ R^t。基于 p_{t,:}，我们设置 KL 散度损失作为索引器的训练目标：

预热阶段使用 10^{-3} 的学习率。我们仅训练索引器 1000 步，每步包含 16 个 128K Token 的序列，总计 21 亿 Token。

稀疏训练阶段。索引器预热后，我们引入细粒度 Token 选择机制并优化所有模型参数，使模型适应 DSA 的稀疏模式。在此阶段，我们继续将索引器输出与主注意力分布对齐，但仅考虑选定的 Token 集合 S_t = {s | I_{t,s} ∈ Top-k(I_{t,:})}：

值得注意的是，我们将索引器输入从计算图中分离以进行独立优化。索引器的训练信号仅来自 L^I，而主模型的优化仅根据语言建模损失进行。在稀疏训练阶段，我们使用 7.3 × 10^{-6} 的学习率，为每个查询 Token 选择 2048 个键值 Token。我们训练主模型和索引器 15000 步，每步包含 480 个 128K Token 的序列，总计 943.7B Token。

2.2. 后训练

持续预训练后，我们执行后训练以创建最终的 DeepSeek-V3.2-Exp。DeepSeek-V3.2-Exp 的后训练也采用与稀疏持续预训练阶段相同方式的稀疏注意力。为了严格评估引入 DSA 的影响，DeepSeek-V3.2-Exp 保持了与 DeepSeek-V3.1-Terminus 相同的后训练流程、算法和数据，具体如下。

专家蒸馏。对于每个任务，我们首先开发专门用于该特定领域的专家模型，所有专家模型都从相同的预训练 DeepSeek-V3.2 基础检查点进行微调。除了写作任务和一般问答外，我们的框架涵盖五个专业领域：数学、竞赛编程、一般逻辑推理、智能体编码和智能体搜索。每个专家都使用大规模强化学习 (RL) 计算进行训练。此外，我们采用不同的模型为长链思考推理 (思考模式) 和直接响应生成 (非思考模式) 生成训练数据。专家模型准备就绪后，它们被用于为最终检查点生成特定领域的数据。实验结果表明，在蒸馏数据上训练的模型性能仅略低于特定领域专家，通过后续的 RL 训练可以有效消除性能差距。

混合 RL 训练。DeepSeek-V3.2-Exp 仍采用群组相对策略优化 (Group Relative Policy Optimization, GRPO) (DeepSeek-AI, 2025; Shao et al., 2024) 作为 RL 训练算法。与之前 DeepSeek 模型使用多阶段强化学习训练不同，我们将推理、智能体和人类对齐训练合并为一个 RL 阶段。这种方法有效平衡了不同领域的性能，同时避免了多阶段训练范式通常伴随的灾难性遗忘 (catastrophic forgetting) 问题。对于推理和智能体任务，我们采用基于规则的结果奖励、长度惩罚和语言一致性奖励。对于一般任务，我们采用生成奖励模型，其中每个提示都有自己的评估标准。我们的奖励设计仔细平衡了两个关键权衡：(1) 长度与准确性；(2) 语言一致性与准确性。

表 1 | DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 的评估结果。总体而言，DeepSeek-V3.2-Exp 相比 DeepSeek-V3.1-Terminus 没有显示出实质性的性能下降。DeepSeek-V3.2-Exp 在 GPQA、HLE 和 HMMT 2025 上的性能低于 DeepSeek-V3.1-Terminus，因为 DeepSeek-V3.2-Exp 生成的推理 Token 更少。然而，当使用生成相当数量 Token 的中间检查点时，这种性能差距会缩小。

3. 评估

模型能力。我们在一系列聚焦不同能力的基准测试上评估了 DeepSeek-V3.2-Exp，并在表 1 中与 DeepSeek-V3.1-Terminus 进行比较。虽然 DeepSeek-V3.2-Exp 在长序列上显著提高了计算效率，但在短上下文和长上下文任务上，我们都没有观察到与 DeepSeek-V3.1-Terminus 相比的实质性性能下降。此外，我们还比较了 DeepSeek-V3.2-Exp 和 DeepSeek-V3.1-Terminus 的强化学习训练曲线，如图 2 所示。两个模型在 BrowseComp 和 SWE Verified 上的性能在整个训练过程中稳步提升，曲线紧密对齐，反映了 DSA 的训练稳定性。

推理成本。DSA 将主模型的核心注意力复杂度从 O(L^2) 降低到 O(Lk)，其中 k (≪ L) 是选定 Token 的数量。尽管闪电索引器仍具有 O(L^2) 的复杂度，但与 DeepSeek-V3.1-Terminus 中的 MLA 相比，它需要的计算量要少得多。结合我们的优化实现，DSA 在长上下文场景中实现了显著的端到端加速 (end-to-end speedup)。图 3 展示了 DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 的 Token 成本如何随序列中的 Token 位置变化。这些成本是从部署在 H800 GPU 上的实际服务基准测试中估算的，按每 GPU 小时 2 美元的租赁价格计算。注意，对于短序列预填充，我们专门实现了掩码 MHA 模式来模拟 DSA，可以在短上下文条件下实现更高的效率。

图 2 | DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 在 BrowseComp 和 SWE Verified 上的 RL 训练曲线。实线和虚线分别表示准确率和平均输出 Token 数。

图 3 | DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 在 H800 集群上的推理成本。

未来在现实世界中的验证。尽管我们的内部评估显示 DeepSeek-V3.2-Exp 取得了令人鼓舞的结果，但我们正在积极寻求在现实场景中进行更大规模的测试，以发现稀疏注意力架构的潜在局限性。

参考文献

DeepSeek-AI. Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model. CoRR, abs/2405.04434, 2024. doi: 10.48550/ARXIV.2405.04434. URL https://doi.org/10.48550/arXiv.2405.04434.

DeepSeek-AI. Deepseek-r1 incentivizes reasoning in llms through reinforcement learning. Nature, 645(8081):633–638, 2025.

Z. Shao, P. Wang, Q. Zhu, R. Xu, J. Song, M. Zhang, Y. K. Li, Y. Wu, and D. Guo. Deepseek-math: Pushing the limits of mathematical reasoning in open language models. CoRR, abs/2402.03300, 2024. doi: 10.48550/ARXIV.2402.03300. URL https://doi.org/10.48550/arXiv.2402.03300.

N. Shazeer. Fast transformer decoding: One write-head is all you need. CoRR, abs/1911.02150, 2019. URL http://arxiv.org/abs/1911.02150.

J. Yuan, H. Gao, D. Dai, J. Luo, L. Zhao, Z. Zhang, Z. Xie, Y. Wei, L. Wang, Z. Xiao, Y. Wang, C. Ruan, M. Zhang, W. Liang, and W. Zeng. Native sparse attention: Hardware-aligned and natively trainable sparse attention. In W. Che, J. Nabende, E. Shutova, and M. T. Pilehvar, editors, Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2025, pages 23078–23097. Association for Computational Linguistics, 2025. URL https://aclanthology.org/2025.acl-long.1126/.

附录

A. MLA 的 MHA 和 MQA 模式

图 4 | MLA 的 MHA 和 MQA 模式示意图。对于 DeepSeek-V3.1-Terminus，MHA 模式用于训练和预填充，而 MQA 模式用于解码。

图 4 展示了 MLA 的两个方面——MHA 和 MQA 模式——以及它们之间的转换。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。