大数据文摘受权转载自头部科技

文丨谭梓馨

继OpenAI发布GPT-5.1、谷歌推出Gemini 3、Anthropic迭代Claude Opus 4.5之后。

11月27日晚间, DeepSeek团队在开源社区低调发布了一款新模型DeepSeekMath-V2,该模型展现出强大的定理证明能力,在IMO 2025和CMO 2024上取得了金牌水平成绩,并在Putnam 2024上取得接近完美的118分(满分是120分,人类选手的历史最高分为90分)。

打开网易新闻 查看精彩图片

值得关注的是,这也是首个在IMO竞赛中达到金牌水准的开源模型,今年7月份,谷歌DeepMind的“Gemini Deep Think”曾斩获IMO 2025金牌。
网友们称赞:大蓝鲸又回来了!

让AI推理过程像数学家一样严谨

DeepSeek这篇新模型论文讲了什么?简单来说,其改变了AI数学推理的既有路径:从传统的“结果导向”(只关注答案是否正确) 转向“过程导向”(重视推理过程的严谨性和可验证性)。

核心创新是一种自验证架构:首先训练一个基于LLM的精准且可信的定理证明验证器;随后以该验证器作为奖励模型,训练一个证明生成器,并激励生成器在最终定稿前,自主识别并修正自身证明过程中的尽可能多的问题。

这一架构使模型能像数学家一样思考:自己写证明→自己挑毛病→自己改到无懈可击,实现了AI推理的“自我反思”能力。

打开网易新闻 查看精彩图片

DeepSeek团队在论文中表示,大语言模型(LLMs)在数学推理领域已取得显著进展,若能进一步突破,有望对科学研究产生深远影响。

通过强化学习放大推理能力(该方法以最终答案的正确性为奖励导向),LLMs在一年内实现了性能跨越式提升,然而,这种方法存在根本性局限:一味追求更高的最终答案准确率,无法解决一个核心问题——正确答案并不等同于严谨的推理过程。

为突破深度推理的边界,DeepSeek团队认为有必要对数学推理的完整性与严谨性进行验证,尤其在测试阶段计算量扩容场景下(例如面对无已知解的开放性问题时),自验证能力至关重要。

打开网易新闻 查看精彩图片

为避免生成器性能提升后出现“生成-验证能力差距”扩大的问题,团队还提出通过扩容验证计算量,自动标记新增的高难度验证样本,进而生成训练数据以持续优化验证器。

最终,DeepSeekMath-V2 展现出卓越的定理证明能力:在2025年国际数学奥林匹克(IMO)、2024年中国数学奥林匹克(CMO)中均斩获金牌级得分,且在2024年普特南数学竞赛(Putnam)中,通过扩容测试阶段计算量,取得了118/120的近乎满分成绩,超越了人类参赛者90分的最高纪录。

打开网易新闻 查看精彩图片

研究结果表明,可自验证数学推理是一条切实可行的研究路径,有望助力研发出能力更强大的数学AI系统。

人类即便在没有参考解法的情况下,也能识别证明中的问题——这是解决开放性问题时的关键能力。DeepSeek团队认为,LLMs能够通过训练获得“无参考解法下识别证明问题”的能力。

利用“自我认知”系统性提升数学推理

DeepSeekMath-V2的证明验证器与生成器构成协同循环:验证器助力生成器优化,而生成器性能提升后,会产出挑战验证器当前能力边界的新证明。

这些挑战性样本(即验证器单次验证可能无法识别问题的证明),将成为提升验证器自身性能的宝贵训练数据。

打开网易新闻 查看精彩图片

在DeepSeek自研的CNML级别题目集中包含91道定理证明题,涵盖代数(13道)、几何(24道)、数论(19道)、组合数学(24道)和不等式(11道)五大类别,难度与中国全国高中数学联赛(CNML)题目相当,各模型在不同类别CNML级别题目上的得分显示,DeepSeekMath-V2的性能持续优于Gemini2.5-pro和GPT5-Thinking-High,展现出跨领域的卓越定理证明能力。

打开网易新闻 查看精彩图片

在2024年国际数学奥林匹克预选题(IMO Shortlist 2024)上,研究人员通过序贯优化实现证明质量提升。

针对每道题目启动了32条独立的优化线程,并通过最终验证器产出的32份验证分析报告进行多数投票,判定证明的正确性。

结果显示,模型自主筛选的最优证明获得了显著高于线程平均水平的验证得分,这表明模型的生成器具备准确评估证明质量的能力;此外,随着最大序贯尝试次数的增加,单次通过率实现了实质性提升,证明自验证机制能有效引导迭代优化过程。

这些结果证实:DeepSeekMath-V2生成器能够可靠区分高质量证明与有缺陷证明,并利用这种自我认知能力,系统性地提升其数学推理水平。

DeepSeek团队在论文总结中表示,推进自然语言定理证明的发展将为形式化推理带来显著助力。期望通过本研究,为构建真正可靠的数学推理系统做出贡献——这类系统能够同时借助非形式化洞察与形式化保障,推动数学研究的进步。

开源AI进入中国主导阶段

尽管不是科技巨头,但DeepSeek一直是全球开源模型的创新探索引领者。

日前,麻省理工学院(MIT)和开源平台Hugging Face合作的一项“开放智能经济”研究发现,过去一年中,中国开发的新型开源模型的下载总量占比上升至17%,在全球开源AI模型市场中比美国占据了更多关键优势。

打开网易新闻 查看精彩图片

研究还发现,美国、中国、英国的开发力量严重偏向产业端;而德国、法国及欧洲其他地区与线上开发力量则更均衡,涵盖非营利机构、高校及社区贡献者。

打开网易新闻 查看精彩图片

行业权力格局正发生根本性重构:谷歌、Meta和OpenAI主导的美国开源权重产业优势已大幅下滑,非关联开发者、社区组织以及2025年崛起的中国产业力量逐渐崛起。
随着DeepSeek、Qwen、Hunyuan、GLM、Kimi、MiniMax、ERNIE等多家开源模型的持续渗透,且不断拉近与封闭模型之间的差距,或将开启由中国开发者主导的新一轮市场权力整合。

注:头图AI生成

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信Q1yezi,共同交流行业动态与技术趋势!

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!