11月27日,DeepSeek的DeepSeekMath-V2模型,在IMO2025测试中拿到了金牌水平,分数比人类历史最高分还高。
更有意思的是,这模型还是目前唯一开源开放权重的IMO金牌级模型。
能在数学推理这种"烧脑"领域超过人类顶尖水平,背后肯定不是拍脑袋搞出来的,而是攒了一整年的技术"大招"集中爆发。
今天咱们就来聊聊,这个让AI在数学竞赛里"封神"的模型,到底藏着哪些不为人知的技术小心思。
要搞懂DeepSeekMath-V2为啥这么强,得先看看它的"前辈们"都练了哪些"内功"。
今年2月,DeepSeek发过一篇关于注意力机制的论文,叫NativeSparseAttention(NSA)。
传统的注意力机制就像撒网捕鱼,不管有用没用的信息全兜住,序列越长计算量越夸张,简直是"吃力不讨好"。
NSA就聪明多了,搞了个"动态分层稀疏",简单说就是先粗筛一遍,再精挑细选,最后用滑动窗口盯着最近的信息。
你猜怎么着?在64k长度的序列上,解码速度直接快了11倍多,前向传播快9倍,反向传播快6倍。
关键是速度快了,效果还没降,反而略有提升。
袁境阳团队靠这个拿了ACL2025最佳论文,他们的目标更野,要把上下文长度扩展到100万。
光处理得快还不够,怎么把这些信息存下来也是个大问题。
这就轮到10月发布的OCR技术登场了,传统存长上下文就像往U盘里硬塞文件,塞多了要么卡要么丢。
DeepSeek的思路有点意思,把文本渲染成图像,用视觉encoder压缩。
实验结果挺惊喜,压缩10倍的时候,解码精度还能保持97%,就算压到20倍,也有60%左右。
MITTechnologyReview评价这技术"可能找到了改善AI记忆的新方法",确实没夸张。
更绝的是它模拟人类记忆衰减的设计,历史图像分辨率慢慢降低,就像咱们记东西,最近的事记得清,越老的事越模糊。
这种"聪明的忘记"比一股脑全记住实用多了,这思路比单纯堆硬件存数据要巧多了。
除了处理和存储上下文,DeepSeek在多模态能力上也没闲着。
今年1月底,他们发布了Janus-Pro多模态模型,正好赶上R1引发全球关注那周。
这模型厉害在哪儿?能同时看懂图像和生成图像,就像既能看画又能画画的全能选手。
传统多模态模型经常"精神分裂",理解图像要细节,生成图像要创意,俩需求打架。
Janus-Pro搞了个"解耦视觉编码",两条路各管一摊,共用一个Transformer主干,这下不打架了。
这技术不光解决了当下的问题,更重要的是验证了"一个大脑干多种活"的可行性,给未来通用智能体打了个好底子。
这些"内功"练好了,终于在数学推理这个"硬仗"上派上了用场,这就是DeepSeekMath-V2的故事。
现在主流数学推理模型有点走偏了,被训练得只想着答对题,不管推理过程对不对。
就像有些学生考试靠蒙,答案对了但思路全错,老师一追问就露馅。
用强化学习死磕最终答案正确率,结果模型写的推理过程可能漏洞比筛子还多。
这种模式对付有标准答案的题还行,遇到开放问题就抓瞎。
DeepSeekMath-V2换了个思路,搞了个"生成器-验证器"双模型架构。
你可以理解成,生成器负责写证明过程,就像学生做题,验证器负责当老师,批改这个证明对不对、严不严谨,然后把意见反馈给生成器。
这样一来,生成器不光要答对,还得写清楚"为什么对"。
不过这里有个难题,生成器写的证明有时候太绕,验证器看不懂,这就是"生成-验证差距"。
DeepSeek的办法是"动态扩展验证计算",遇到难验证的证明,就多花点计算资源仔细看,实在看不懂的,就自动标出来当成新训练数据,让验证器慢慢学。
就像老师遇到学生写的怪答案,先多看几遍,实在不懂就记下来当教学案例,下次就会了。
这种自我验证机制的价值可不小,首先,模型能自己发现推理问题并修正,不用老等着人类给标准答案。
以前模型学数学像照着答案抄作业,现在能自己检查作业了。
摆脱了对外部标准答案的依赖,这对解决开放问题太重要了,现实世界里很多问题根本没有标准答案,总不能一直等着人来教吧?这步棋走得比单纯提高正确率有远见多了。
这些技术拼到一起,你会发现DeepSeek不是在瞎搞。
NSA解决长上下文处理效率,OCR解决存储效率,俩技术凑一块,指向的是百万级甚至更长的上下文窗口,Janus-Pro的多模态能力是通用智能体的基础设施。
各项技术不是孤立的,而是一套有内在联系的组合拳。
未来的大模型会往哪儿走?在线强化学习肯定是个重要方向。
简单说就是模型能边用边学,实时跟环境互动、获取反馈、更新策略。
R1靠纯强化学习突破推理能力,R1-Zero证明了用固定习题就能练出强模型,这些都在说明"边做边学"比"一次性喂饱"更高效。
DeepSeek的各项技术其实都在为这个方向铺路,自我验证机制让模型能自己找错,动态扩展计算让模型能根据问题难度调整努力程度,多模态能力让模型能跟更复杂的环境互动。
现在的DeepSeekMath-V2已经迈出了第一步,未来要是把这些技术全整合好,再加上开源这个大优势,说不定真能让AI在通用智能的路上走得更稳。
毕竟,聪明的AI不光要会做题,更要学会怎么自己变得更聪明,这大概就是DeepSeek想告诉我们的事。
热门跟贴