菲尔兹奖得主用AI解出博士级数学题，然后他开始为博士生们发愁了|博士生|数学家|菲尔兹奖

来源：市场资讯

（来源：机器之心）

机器之心编辑部

今天，剑桥大学数学教授、菲尔兹奖得主 Timothy Gowers 的一个帖子吸引了很多关注。

他在帖子里说，自己最近也加入了用 AI 解决数学开放问题的行列。他把 Melvyn Nathanson 提出的一些问题输入给了 GPT-5.5 Pro，结果模型给出了答案。

更重要的是，在 Gowers 看来，GPT-5.5 Pro 给出的结果完全可以作为一篇博士论文的合理章节。整个过程只花了几个小时，而且 Gowers 提供的提示几乎没有任何数学内容。

Gowers 指出，这件事引发了一系列关于数学研究未来的深刻问题，尤其是对博士生的影响最为紧迫。他在博客中分享了一些思考，但坦言自己并没有完整的答案。不过，如果 AI 在数学上的进步继续以当前速度发展 —— 他预计会如此 —— 那么数学界很快就会面临一场危机。数学系有责任照顾自己的学生，应该紧急为此做好准备。

这个帖子迅速引发热议，大家讨论的焦点是 AI 是否会彻底改变数学研究范式、博士培养模式，以及人类数学家未来的角色。

GPT-5.5 Pro 解决了什么问题？

我们首先看看这篇博客写了什么。

Gowers 在博客开头坦言，他对大型语言模型数学能力的评估，已经被迫一次次向上修正。而这一次，是幅度最大的一次。

事情的起因很简单。数学家 Melvyn Nathanson 曾在一篇论文中提出了一批关于整数集合的开放问题 —— 简单来说，这些问题都在探讨：当你把一组整数以某种方式相加时，结果的集合会有多大、形态如何？这类问题在数学上属于「加法数论」的范畴。Nathanson 本人以眼光独到著称，他关注的问题往往会在数年后变得极为热门。

Gowers 选了其中几个，输入给 GPT-5.5 Pro，然后等待。

模型思考了约 17 分钟，给出了一个构造方案，解决了其中一个关于集合「跨度」的问题，并将前人结果中一个指数级的界改进为多项式级 —— 在数学上，这意味着从「几乎不可用」变为「接近最优」。Gowers 随后让模型把论证整理成一篇标准数学预印本的格式，模型又花了两分多钟完成。

接下来，Gowers 把问题推向了更深处。他将一位 MIT 学生 Isaac Rajagopal 此前发表的研究成果告诉模型，并问它能否在此基础上进一步改进。GPT-5.5 Pro 再次给出了肯定的回答：它不仅改进了 Rajagopal 的结果，还在关键步骤中引入了一个此前从未有人用过的数学构造思路。

Rajagopal 本人看过之后，评价这个想法「相当聪明，完全原创」，并补充说，这是他自己「可能需要苦思一两周才能想到的东西」。整个过程，GPT-5.5 Pro 用了不到两个小时。

Gowers 强调，在这整个过程中，他自己几乎没有提供任何实质性的数学引导 —— 他只是在问问题，而不是在给答案。

这件事意味着什么？

Gowers 在博客中花了相当篇幅讨论这件事的意义，语气坦率，甚至有些沉重。

首先是一个悬而未决的实际问题：这个结果该怎么处理？

如果是人类数学家得出同样的结论，它毫无疑问可以发表在学术期刊上。但现在，没有人需要署名，也没有人需要「credit」。Gowers 提到，arXiv 目前不接受 AI 生成的内容，而投递期刊似乎也没有意义。他的建议是，或许应该建立一个专门收录 AI 产出数学结果的平台，并由人类数学家负责核实其正确性 —— 但具体怎么做，他也没有答案。

更深的问题，是关于博士培养的。

长期以来，数学导师帮助学生「入门」的一个常见方式，是给他们找一些看起来有希望、难度适中的开放问题 —— 不太简单，但也不至于让人绝望。解决这样一个问题，能给新生研究者带来巨大的信心，证明自己有能力做真正的数学研究。

但现在，这条路几乎被堵死了。如果 AI 能在几小时内解决「难度适中」的开放问题，那这类问题就不再适合用来训练人类新手了。Gowers 的判断是：数学研究的门槛，已经悄悄抬高了一截。

他同时也给出了两点保留意见，试图避免过于悲观。

其一，博士生本身也可以使用 AI。未来的数学研究，或许不再是「人类能否独立证明 AI 证不了的东西」，而是「人类能否借助 AI，共同解决任何一方单独都无法解决的问题」。Gowers 自己近期也在做这样的尝试，他发现 AI 确实能提供有价值的贡献，尽管还没有出现真正「改变游戏规则」的时刻。

其二，这一切是否适用于所有数学分支，他并不确定。组合数学（也就是这次涉及的领域）以「问题导向」为主，AI 擅长从一个具体问题出发，向前或向后推理。但在另一些数学领域，研究更像是「从一组想法出发，看看能走到哪里」—— 这需要判断哪些观察有趣、哪些方向值得追究，而这种审美式的判断力，AI 是否具备，目前仍是未知数。

那么，做数学研究还有意义吗？

对于那些正在考虑攻读数学博士的人，Gowers 给出了一个诚实但并不令人完全安心的回答。

他认为，「通过解决难题让自己的名字永远与某个定理联系在一起」的时代，可能已经接近尾声 —— 不只是对普通研究者，对所有人都如此。他举了一个思想实验：如果一位数学家与 AI 长时间合作，AI 完成了所有技术工作并贡献了核心想法，这位数学家只是起到了引导和提问的作用 —— 我们会把这看作这位数学家的重大成就吗？Gowers 的回答是：不会。

但他并不认为钻研数学因此变得毫无价值。恰恰相反，他的判断是：那些自己真正解决过难题的人，将在与 AI 协作时展现出明显的优势 —— 就像真正懂编程的人比不懂的人更擅长使用 AI 写代码，真正懂算术的人更容易发现计算器给出的答案是否有问题。数学训练所带来的思维能力，是高度可迁移的。

「你可能不会得到与上一代研究者相同的回报，」他写道，「但你很有可能因此为即将到来的世界做好充分准备。」

最后，他以一句话结尾，语气平静，但分量不轻：「一个从明年开始读博的学生，最早也要到 2029 年才能毕业。我的判断是，到那时，从事数学研究意味着什么，将已经发生了难以辨认的变化。」

DeepMind：为人机协作的数学时代做好准备

正如 Gowers 所说，未来的数学研究必然是人与 AI 的有效协作。那这种协作如何进行？谷歌 DeepMind 刚刚发布的一项研究给出了一个框架。

5 月 7 日，DeepMind 发布了一篇题为「AI Co-Mathematician: Accelerating Mathematicians with Agentic AI」的论文，介绍了他们专门为数学研究设计的一套智能体工作台。它想解答的核心问题是：如果 AI 做数学已经是既成事实，那我们该怎么把它做成一套系统？

论文链接：https://arxiv.org/pdf/2605.06651v1

论文首先指出了一个常被忽视的事实：数学研究发表出来的，几乎全是打磨精良的严格证明，但数学家的日常工作早已被广泛认识到包含大量隐藏在幕后的活动。在最终的形式化结论之下，是一个深度探索的过程：初始直觉被检验，反例被发现，核心定义和证明经历一轮又一轮的否定与修正。简单说，论文里看到的数学，和数学家实际经历的数学，是两回事。

那 AI 在这方面做得怎么样？DeepMind 给出的判断是：局部很强，整体缺位。近年来，AI 已经沿着几条路径快速渗透进数学领域：有专门做自主推理的系统，有通过反复进化搜索发现新算法和新结构的系统，有深度整合进数学证明验证流程的系统，还有直接内置在聊天界面里、让普通数学家随手就能调用的强大推理模型。这些工具各有所长，但 DeepMind 认为，它们拼在一起仍然缺少一块。

这块缺失的，是一套真正贴合数学家日常工作方式的协作流程。数学家的日常，很少是一次次孤立的提问和解答。更多时候，他们在处理不确定性，在散落各处的文献里寻找线索，反复起草和修改半成品，并在数天乃至数周里追踪一条不断分叉、随时可能走进死胡同的思路链。但现有的 AI 工具对此几乎无能为力 —— 聊天窗口关掉就失忆，专门的推理引擎又只管自己那一亩三分地。研究者不得不亲自充当「粘合剂」，手动把对话记录、证明工具和计算脚本串联起来。

DeepMind 在论文中把这个局面和程序员的处境做了对比。程序员已经有了 Claude Code、OpenAI Codex 这样的 AI 编程助手，之所以好用，是因为软件工程本身就有一套现成的协作范式：需求文档让智能体可以长时间自主工作而不偏轨，自动化测试随时验证结果，版本控制完整记录项目的每一步演变。而数学家的日常工作中，几乎没有任何类似的流程被自动化。数学家还在刀耕火种，程序员已经有了流水线。

AI Co-Mathematician 想做的，正是给数学补上这套基础设施。它基于最新的 Gemini 模型，提供一个持续运转的项目空间。在这个空间里，一个总协调智能体负责把复杂任务拆解、分派给多条同时推进的工作流，数学家可以随时介入、调整方向，而不必守在旁边等系统把所有事情跑完再说。

更重要的是它的定位野心。这套系统并不打算取代现有的各类 AI 数学工具，而是为它们提供一个统一的「调度层」—— 让 AlphaProof、AlphaEvolve 这些各有专长的引擎，都能在数学家主导的研究流程中被按需调用。

这套系统具体是怎么工作的？

论文里有一个具体的演示案例，读起来很直观。

一位数学家想研究一个几何开放问题，于是打开 AI Co-Mathematician，上传了一篇相关论文，输入了一句话，大体意思是：我想看看能不能证明这篇论文里某个变体问题的上界。

普通的聊天 AI 收到这句话，多半会立刻开始「解题」。但这套系统没有。总协调智能体先开启了一段对话，扮演「讨论伙伴」的角色，追问道：经典问题的下界已经被证明是精确的，但另外两个变体的上界仍然悬而未决 —— 你想聚焦其中一个，还是两个都做？你是想证明某个特定的下界是精确的，还是只要建立任何一个严格的上界就够？

这个细节，代表了整套系统背后的一个核心判断：在数学研究里，把问题问对，比解决问题更重要。系统不急着给答案，而是先帮数学家想清楚自己究竟在问什么。

问题确认之后，系统才开始分头行动 —— 文献梳理、构建计算框架、执行搜索，三条工作流同时推进。在这个过程中，数学家不需要盯着屏幕等结果，可以随时通过对话界面介入、调整方向。这种协作也是双向的：如果某条工作流陷入僵局，系统会主动向数学家发出警报，明确说明卡在了哪里，并请求人类的帮助。

论文还特别提到了一个设计细节，乍看不起眼，但其实颇为关键：系统会完整保留所有走不通的路径，而不是悄悄清除、重新开始。它把每一次失败的探索都作为项目历史的一部分永久保存，供人类和 AI 共同参考，以便从失败出发制定新的策略。这背后的逻辑很朴素：在数学研究里，知道哪条路是死路，本身就是一种知识。

此外，系统对 AI 的局限性保持着相当的警惕。数学研究要求极高的严谨性，一个有缺陷的引理或一个捏造的文献引用，足以动摇整篇论文。系统的架构被设计为围绕「不确定性」来运转：追踪每一个论断如何演变或被质疑，通过持续的审查、数值模拟和文献核查来验证结论，并在工作文件中以高亮和批注的形式，向数学家明确标出哪些地方尚存争议、需要人工核实。

在早期测试中，这套系统已经帮助研究者解决了一些开放问题，找到了新的研究方向，并发现了一些被忽视的文献线索。在硬性基准测试上，它在 FrontierMath Tier 4—— 一个专门针对前沿数学难题设计的高难度测试集 —— 上达到了 48% 的得分，是目前所有 AI 系统中的最高分。

当然，这套系统目前仍处于小范围发布阶段，距离大规模投入使用还有一段距离。但它所代表的方向已经足够清晰：AI 介入数学研究，不再只是偶尔答对一道难题，而是开始尝试嵌入整个研究流程本身。

数学界一向以慢著称。一个猜想可以悬置一百年，一篇论文可以打磨十年。但眼下这场变化的速度，已经不允许用数学的时间尺度来应对了。

就像陶哲轩所说，AI 正在让数学进入「工业化」时代，未来会出现一种规模化生产数学成果的全新方式，与传统手工式研究并行共存。这一天来得比所有人预想的都要快 —— 而眼下这一周发生的事情，不过是它露出地面的冰山一角。

参考链接：https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/