开源模型大突破！DeepSeek-V3.2追平GPT-5-High，三招揭秘

华史谈

2025-12-09 15:19 ·上海

哈喽，大家好，杆哥这篇评论，主要来分析开源模型大突破！DeepSeek-V3.2追平GPT-5-High，三招揭秘

开源大模型领域最近炸了锅，DeepSeek-V3.2交出了一份亮眼成绩单。它的推理能力直接追平GPT-5-High，高算力版DeepSeek-V3.2-Speciale更在2025年IMO和IOI竞赛中斩获金牌

推理能力逼近Gemini-3.0-Pro。这份来自《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》报告的成果，靠的可不是运气，而是三大核心创新。

创新一：DSA稀疏注意力，破解长文本计算难题

传统大模型处理长文本时总掉链子，根源在注意力机制的计算复杂度是O(L²)，文本长度翻10倍，计算量就翻100倍。这也是多数模型上下文超不过128k的原因。

DeepSeek的DSA稀疏注意力机制解决了这个问题，核心是让每个词只关注最相关的2048个词，把复杂度降到O(Lk)。它分两步实现：先靠轻量的闪电索引器快速打分筛选，再对top-k词元做精准计算。

经过两阶段训练后，128K长度处理成本不再爆炸增长，ChatbotArena评分还和旧版持平，长上下文评测甚至更优。

创新二：后训练加码10%，激进策略提性能

过去开源模型后训练投入不足，很难啃下硬骨头。DeepSeek反其道而行之，把后训练计算预算提至预训练的10%以上，堪称激进。

流程分两步：先为数学、编程等六个领域训练专家模型，用这些专家生成数据；再通过混合RL训练合并三类任务，还用上了GRPO算法。

为保证稳定，团队还优化了四个技巧，比如修正KL估计避免梯度异常，_mask掉不相关负样本，有效防止了多阶段训练的遗忘问题。

创新三：1800个合成环境，补全泛化能力短板

大模型在智能体场景泛化差，关键是缺少多样训练环境。DeepSeek的解法是自己合成数据，最终做出1827个环境和85000个任务。

合成流程很智能，以旅行规划为例，agent会先拉数据、做工具函数，再从简单任务迭代到复杂任务，不够用还会扩展工具集。

消融实验证明了效果：仅用合成的通用智能体数据做RL，在多个基准测试中显著提升，而单靠代码和搜索数据则无效。

成绩与短板：亮眼背后的现实

成绩确实硬核，标准版追平GPT-5-High，高算力版拿竞赛金牌。但短板也很明显，token效率偏低。

Codeforces数据显示，Gemini-3.0-Pro用22k tokens拿2708分，而DeepSeek-V3.2-Speciale要77k tokens才拿2701分。

团队也坦诚，在世界知识广度、顶尖复杂任务处理上，和Gemini-3.0-Pro还有差距，核心还是算力限制。但在有限资源下，这套技术路线无疑为开源模型指明了突围方向。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴