哈喽,大家好,杆哥这篇评论,主要来分析开源模型大突破!DeepSeek-V3.2追平GPT-5-High,三招揭秘
开源大模型领域最近炸了锅,DeepSeek-V3.2交出了一份亮眼成绩单。它的推理能力直接追平GPT-5-High,高算力版DeepSeek-V3.2-Speciale更在2025年IMO和IOI竞赛中斩获金牌
推理能力逼近Gemini-3.0-Pro。这份来自《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》报告的成果,靠的可不是运气,而是三大核心创新。
创新一:DSA稀疏注意力,破解长文本计算难题
传统大模型处理长文本时总掉链子,根源在注意力机制的计算复杂度是O(L²),文本长度翻10倍,计算量就翻100倍。这也是多数模型上下文超不过128k的原因。
DeepSeek的DSA稀疏注意力机制解决了这个问题,核心是让每个词只关注最相关的2048个词,把复杂度降到O(Lk)。它分两步实现:先靠轻量的闪电索引器快速打分筛选,再对top-k词元做精准计算。
经过两阶段训练后,128K长度处理成本不再爆炸增长,ChatbotArena评分还和旧版持平,长上下文评测甚至更优。
创新二:后训练加码10%,激进策略提性能
过去开源模型后训练投入不足,很难啃下硬骨头。DeepSeek反其道而行之,把后训练计算预算提至预训练的10%以上,堪称激进。
流程分两步:先为数学、编程等六个领域训练专家模型,用这些专家生成数据;再通过混合RL训练合并三类任务,还用上了GRPO算法。
为保证稳定,团队还优化了四个技巧,比如修正KL估计避免梯度异常,_mask掉不相关负样本,有效防止了多阶段训练的遗忘问题。
创新三:1800个合成环境,补全泛化能力短板
大模型在智能体场景泛化差,关键是缺少多样训练环境。DeepSeek的解法是自己合成数据,最终做出1827个环境和85000个任务。
合成流程很智能,以旅行规划为例,agent会先拉数据、做工具函数,再从简单任务迭代到复杂任务,不够用还会扩展工具集。
消融实验证明了效果:仅用合成的通用智能体数据做RL,在多个基准测试中显著提升,而单靠代码和搜索数据则无效。
成绩与短板:亮眼背后的现实
成绩确实硬核,标准版追平GPT-5-High,高算力版拿竞赛金牌。但短板也很明显,token效率偏低。
Codeforces数据显示,Gemini-3.0-Pro用22k tokens拿2708分,而DeepSeek-V3.2-Speciale要77k tokens才拿2701分。
团队也坦诚,在世界知识广度、顶尖复杂任务处理上,和Gemini-3.0-Pro还有差距,核心还是算力限制。但在有限资源下,这套技术路线无疑为开源模型指明了突围方向。
热门跟贴