DeepSeek开源新数学推理模型，实现奥数金牌水平

三易生活

2025-11-28 18:31 ·湖北 ·三易生活官方网易号

日前，DeepSeek方面开源全新的数学推理模型DeepSeek-Math-V2。

据了解，该模型在2025年国际数学奥林匹克竞赛（IMO 2025）和2024年中国数学奥林匹克竞赛（CMO 2024）中取得了金牌水平的成绩，成为第一个在IMO级别竞赛中获得金牌水平的开源模型。此外在2024年普特南大学生数学竞赛（Putnam 2024）上，该模型取得接近满分（118/120分）的成绩，超过人类的最高成绩（90分）。

据DeepSeek方面透露，DeepSeek-Math-V2的部分性能优于谷歌旗下的Gemini DeepThink。例如在IMO-ProofBench-Basic中，DeepSeek-Math-V2 取得近99%的高分，而排在第二的Gemini Deep Think (IMO Gold)分数为89%。

对此，Hugging Face联合创始人兼首席执行官Clement Delangue表示，“想象一下，你可以免费拥有世界上最优秀数学家之一的大脑……据我所知，此前没有任何聊天机器人或API能让你接触到一个IMO 2025金牌水平的模型”。

值得一提的是，DeepSeek方面介绍到，为解决大模型虽然擅长在数学基准测试中获得正确答案，但往往缺乏严谨的推理过程这一问题，其针对DeepSeek-Math-V2采用了一种创新的自我验证训练框架。

据悉，该方法的核心是训练一个专门的验证器（verifier），其任务是评估证明过程的质量，而不是最终答案的对错。随后这个验证器被用作奖励模型，来引导一个独立的“证明生成器”（proof-generator）。只有当生成器成功识别并修复自身证明中的错误时，它才会获得奖励。

而且为了防止模型过度拟合其自身的检查机制，即只学会欺骗自己的验证器，DeepSeek方面通过增加计算量和自动标记难以验证的证明，来不断提升验证过程的难度，确保验证器与生成器同步进化。

【本文图片来自网络】

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴