打开网易新闻 查看精彩图片

↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新

DeepSeek王者归来!刚刚发布了DeepSeekMath-V2

在IMO 2025和 CMO(中国数学奥林匹克) 2024 中,DeepSeekMath-V2均达到了金牌水平

在 Putnam(普特南数学竞赛。地位:北美地区「美国和加拿大」最顶尖、最负盛名的大学本科生数学竞赛) 2024 竞赛中,更是随着测试时计算量(test-time compute)的扩展,拿下了 118/120 的几近满分成绩。

这一成果表明,自验证数学推理(Self-Verifiable Mathematical Reasoning)是一条可行的研究路径

核心要点如下

为什么需要自验证?

过去一年,大语言模型通过基于最终答案正确性的强化学习,在AIME和HMMT等定量推理竞赛中取得了长足进步,甚至达到饱和

但这种方法面临根本性局限:

答案对 推理对:追求更高的答案准确率,并不能解决推理过程中的核心问题。

非数值任务失效:许多数学任务(如定理证明)需要严谨的逐步推导,而非简单的数值答案,无法应用基于最终答案的奖励机制

为了突破深度推理的极限,验证数学推理的全面性和严谨性至关重要。

特别是对于没有已知解决方案的开放性问题,自验证是扩展测试时计算量(scaling test-time compute)的关键

DeepSeekMath-V2 是怎么做的?

DeepSeek团队通过以下步骤实现自验证数学推理:

1.训练验证器:训练一个准确且忠实的大模型验证器(Verifier),专门用于定理证明。

2.训练生成器:将上述验证器作为奖励模型(Reward Model)来训练证明生成器

3.自我纠错:激励生成器在最终定稿前,主动识别并解决自身证明中的问题

4.动态进化:为了在生成器变强时保持“生成-验证”的差距,通过扩展验证计算来自动标注难以验证的新证明,生成训练数据以进一步提升验证器

评测结果

DeepSeekMath-V2在IMO-ProofBench(由DeepThink IMO-Gold背后的谷歌DeepMind团队开发)展现了强大的定理证明能力:

IMO 2025:达到金牌水平
CMO 2024:达到金牌水平。
Putnam 2024:取得118/120的超高分

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

快速上手

DeepSeekMath-V2建立在 DeepSeek-V3.2-Exp-Base 之上。

如需推理支持,可参考 DeepSeek-V3.2-Exp 的 GitHub 仓库

参考:

https://huggingface.co/deepseek-ai/DeepSeek-Math-V2-v2-towards-self-verifiable-mathematical-reasoning

--end--

最后记得⭐️我,这对我非常重要,每天都在更新:

欢迎点赞转发推荐评论,别忘了关注我