日前,DeepSeek方面开源全新的数学推理模型DeepSeek-Math-V2。

据了解,该模型在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中取得了金牌水平的成绩,成为第一个在IMO级别竞赛中获得金牌水平的开源模型。此外在2024年普特南大学生数学竞赛(Putnam 2024)上,该模型取得接近满分(118/120分)的成绩,超过人类的最高成绩(90分)。

打开网易新闻 查看精彩图片

据DeepSeek方面透露,DeepSeek-Math-V2的部分性能优于谷歌旗下的Gemini DeepThink。例如在IMO-ProofBench-Basic中,DeepSeek-Math-V2 取得近99%的高分,而排在第二的Gemini Deep Think (IMO Gold)分数为89%。

对此,Hugging Face联合创始人兼首席执行官Clement Delangue表示,“想象一下,你可以免费拥有世界上最优秀数学家之一的大脑……据我所知,此前没有任何聊天机器人或API能让你接触到一个IMO 2025金牌水平的模型”。

值得一提的是,DeepSeek方面介绍到,为解决大模型虽然擅长在数学基准测试中获得正确答案,但往往缺乏严谨的推理过程这一问题,其针对DeepSeek-Math-V2采用了一种创新的自我验证训练框架。

据悉,该方法的核心是训练一个专门的验证器(verifier),其任务是评估证明过程的质量,而不是最终答案的对错。随后这个验证器被用作奖励模型,来引导一个独立的“证明生成器”(proof-generator)。只有当生成器成功识别并修复自身证明中的错误时,它才会获得奖励。

而且为了防止模型过度拟合其自身的检查机制,即只学会欺骗自己的验证器,DeepSeek方面通过增加计算量和自动标记难以验证的证明,来不断提升验证过程的难度,确保验证器与生成器同步进化。

【本文图片来自网络】