数学界有个流传几十年的"悬案簿"Kourovka Notebook,第21.10号问题在群论领域始终无解。牛津数学家Marc Lackenby最近把它破了——用的不是传统纸笔,而是谷歌DeepMind刚发布的新系统。
过程挺有意思。AI第一次给出的证明是错的,被系统里的审查Agent揪出了漏洞。Lackenby看到后突然反应过来:"等一下,我知道该如何填补这个漏洞。"几番来回配合,这道难题最终告破。
这套系统叫"AI联合数学家"(AI Co-Mathematician),定位很清晰:不是替你做题,而是和你一起做。
它和常见的一问一答式模型完全不同。顶层有个"项目协调者"Agent统筹全局,数学家上传论文、提出方向后,它不会直接甩答案,而是先对话帮你精炼问题。之后任务被拆成多条并行工作流:文献检索、计算框架搭建、证明策略尝试,各走各的,互不阻塞。用户随时能介入、引导、接管。Agent卡住了还会主动在聊天窗口求助,而不是默默重启。
系统对"失败"的态度也很特别。所有被否定的假设、死胡同、审稿Agent发现的漏洞,都会被持久化追踪保存。论文里写得很直白:在数学研究里,知道什么行不通往往和知道什么行得通同等重要。最终产出也不是聊天记录或未经检验的草稿,而是带margin注释和来源溯源的LaTeX文档——数学家们熟悉的那套格式。
论文里有个精妙的类比。软件工程已有Claude Code、Cursor这类AI编码环境,提供持续迭代、版本控制、测试验证的完整工作流,但数学家一直缺少等价的编排层。"AI联合数学家"想填的就是这个空白。
这和DeepMind上一代系统AlphaEvolve完全是两条路。AlphaEvolve更像自主搜索引擎:问题扔进去,它进化出更好的算法,人基本不在循环里。"AI联合数学家"则要求数学家始终在回路中,系统在最适合的时机向人提问,而非替人做完所有事。
benchmark成绩同样亮眼。它在最难的数学AI基准FrontierMath Tier 4上拿了48%,刷新SOTA。这个基准由Epoch AI开发,350道原创高难度题覆盖现代数学各大分支。Tier 4仅50题,Epoch AI的描述是"其中一些问题可能数十年内AI都无法攻克",人类专家解决一道通常需要数天。
"AI联合数学家"在48道非公开题中答对23道。作为参照,GPT-5.5 Pro此前在Tier 4拿到39.6%,GPT-5.4 Pro是37.5%,Claude Opus 4.6/4.7双双落在22.9%。近10个百分点的提升,而且其中有3道题是此前所有系统都没答对过的新题。
更值得关注的是底层基座模型Gemini 3.1 Pro单独做这个测试只拿到19%。从19%到48%,这29个百分点的跳跃完全来自系统层面的编排:并行调查分支、强制审查循环、文献检索工具、持久化代码执行基础设施。
除了Lackenby的群论突破,还有两位数学家已用它解决真实问题。Semon Rezchikov在哈密顿系统中抛出一个技术性子问题,收到了一个关键引理。他的评价是"其他AI系统在同一个prompt上全部失败",且从美学上看这是他用过所有模型里证明风格最好的。Gergely Bérczi则获得了关于Stirling系数对称幂表示的猜想证明。
论文也坦诚披露了局限。第一种失败模式叫"讨好审稿人偏差":Agent会不断改写有缺陷的论证,直到AI审稿人不再能发现错误——但漏洞其实还在。第二种是"死亡螺旋":当迭代评审过程未能达成共识时,Agent们陷入无限审稿循环,推理逐渐退化为幻觉。
结构性问题同样存在。AI几分钟能生成20页证明草稿,人类同行评审仍需数天,这对依赖志愿者的学术评审体系会形成系统性压力。而且AI虽擅长逻辑核验、发现代数错误、找出缺失引用,但缺乏判断论文优雅性、深度或真正数学价值的整体直觉。过度依赖AI评审,可能让人类定性判断被边缘化。
48%的得分也有特殊条件:每题给了48小时、没有token限制、使用团队自己的基础设施,与Epoch AI标准评估框架不完全可比。
团队共18位作者。第一作者兼通讯作者Daniel Zheng是DeepMind研究工程师,2024年AlphaProof拿IMO银牌时,他主导了非正式系统开发。Alex Davies是从AlphaProof到AlphaEvolve再到本项目的连续参与者,是这条技术路线的重要连接者。通讯作者Pushmeet Kohli是DeepMind科学副总裁兼Google Cloud首席科学家,AlphaFold、AlphaProof、AlphaEvolve均出自他手。另一位通讯作者Daniel M. Roy是多伦多大学统计系教授,2026年1月以访问研究员身份加入DeepMind伦敦。
最近几个月,GPT接连解决了几个Erdős问题。现在谷歌带着"AI联合数学家"回归,AI for Math的竞赛还在继续。
热门跟贴