DeepSeek 近期发布了 DeepSeekMath-V2 模型,旨在实现自我验证的数学推理和严谨的逐步推导,专注于定理证明,摆脱对正确最终数值答案的依赖。
生成验证循环
该公司表示,其新模型使用生成验证循环。 训练了一个基于 LLM 的精准验证器,用于定理证明。 DeepSeek 还使用验证器作为奖励模型,训练了一个证明生成器。 证明生成器被激励去识别和解决自身证明中的问题,并且验证扩展被用于自动标记新的、难以验证的证明,从而提供训练数据以持续改进验证器。
数学竞赛表现出色
DeepSeekMath-V2 在最近的数学竞赛中展现了强大的定理证明能力。 在2025年国际数学奥林匹克(IMO)和2024年中国数学奥林匹克(CMO)中取得了金牌水平的成绩,并且在2024年Putnam竞赛中,通过扩展测试时间计算,获得了接近满分的118/120分。
基于 DeepSeek V3.2 Exp Base
新模型基于 DeepSeek-V3.2-Exp-Base,并已在 HuggingFace 上提供。 为了获得推论支持,DeepSeek 建议查看 DeepSeek-V3.2-Exp GitHub 存储库中的支持。 该模型的发布非常有趣,可能有助于更好地理解数学,从而带来新的科学发现,以改善医疗保健和技术。 AI 公司不会止步于此,他们将继续寻找新方法来提高数学理解能力,而开放访问该模型将只会有助于加速改进。
打开网易新闻 查看精彩图片
热门跟贴