ChatGPT三岁生日这天,DeepSeek正式发布了V3.2及其增强版V3.2-Speciale,新版本在架构效率、推理能力和智能体性能三个维度实现突破,同时API价格维持了此前的大幅降价,输入token降至每百万1元,输出token降至2元。
相比DeepSeek-V3.1,DeepSeek-V3.2唯一的架构修改是通过继续训练引入了DeepSeek Sparse Attention(DSA)。传统Transformer的注意力计算复杂度为O(L²),DSA通过“闪电索引器”和细粒度token选择,将复杂度降至O(Lk),其中k为2048。在H800集群实测中,处理128K上下文时,V3.2的推理成本仅为V3.1-Terminus的三分之一左右。关键是这种效率提升几乎没有损失性能,在MMLU-Pro、GPQA Diamond等标准测试中,两者得分基本持平。
推理能力方面,V3.2通过超过预训练成本10%的强化学习投入,在AIME 2025数学竞赛中达到93.1%通过率,HMMT二月赛92.5%,Codeforces编程评级2386分,整体水平与GPT-5相当。相比Kimi K2 Thinking,V3.2在保持相近准确率的同时,平均输出长度减少约30%,显著降低了实际使用成本。强化学习框架引入了“无偏KL估计”和“离策略序列掩码”等技术,有效解决了大规模RL训练的稳定性问题。
V3.2-Speciale则专注于极限推理能力。该版本在2025年国际数学奥林匹克(IMO)中解决六题中的五题获得金牌,在国际信息学奥林匹克(IOI)得分492分(满分600)同样获得金牌,在ICPC世界总决赛中解决12题中的10题排名第二。这是首个在多项国际顶级竞赛中达到金牌水平的开源通用模型。
智能体能力是另一大亮点。DeepSeek开发了大规模任务合成系统,自动生成1827个环境和85000个任务,涵盖代码工程、搜索增强、通用问题解决等场景。在SWE-Verified代码修复测试中,V3.2解决了73.1%的真实GitHub问题;在Tool-Decathlon工具使用测试中达到35.2%通过率,领先于其他开源模型。特别设计的上下文管理策略,让模型在工具调用过程中保留推理历史,避免重复计算。
目前,相关模型权重、推理代码等已在社区开源。
热门跟贴