Deepseek 正式推出DeepSeek-V3.2-Exp ——实验模型

✨基于 V3.1-Terminus 构建,首次推出了 DeepSeek Sparse Attention(DSA),可以在长上下文中进行更快、更高效的训练和推理。
现在可在 App、Web 和 API 上使用

DSA实现了精细的稀疏注意力,对输出质量的影响最小——提高长上下文性能并降低计算成本

基准显示V3.2-Exp的表现与V3.1-Terminus相当

DeepSeek API价格下降了50%以上,立即生效。

V3.1-Terminus仍然通过临时API可用,直到2025年10月15日15:59(UTC时间)DS设计和实现很多新的GPU算子。使用高级语言TileLang进行快速原型开发,因此,本次开源的主要算子包含TileLang与CUDA两种版本。建议使用基于TileLang的版本以方便调试和快速迭代

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片