来源:市场资讯
(来源:机器之心)
机器之心编辑部
今天,剑桥大学数学教授、菲尔兹奖得主 Timothy Gowers 的一个帖子吸引了很多关注。
他在帖子里说,自己最近也加入了用 AI 解决数学开放问题的行列。他把 Melvyn Nathanson 提出的一些问题输入给了 GPT-5.5 Pro,结果模型给出了答案。
更重要的是,在 Gowers 看来,GPT-5.5 Pro 给出的结果完全可以作为一篇博士论文的合理章节。整个过程只花了几个小时,而且 Gowers 提供的提示几乎没有任何数学内容。
Gowers 指出,这件事引发了一系列关于数学研究未来的深刻问题,尤其是对博士生的影响最为紧迫。他在博客中分享了一些思考,但坦言自己并没有完整的答案。不过,如果 AI 在数学上的进步继续以当前速度发展 —— 他预计会如此 —— 那么数学界很快就会面临一场危机。数学系有责任照顾自己的学生,应该紧急为此做好准备。
这个帖子迅速引发热议,大家讨论的焦点是 AI 是否会彻底改变数学研究范式、博士培养模式,以及人类数学家未来的角色。
GPT-5.5 Pro 解决了什么问题?
我们首先看看这篇博客写了什么。
Gowers 在博客开头坦言,他对大型语言模型数学能力的评估,已经被迫一次次向上修正。而这一次,是幅度最大的一次。
事情的起因很简单。数学家 Melvyn Nathanson 曾在一篇论文中提出了一批关于整数集合的开放问题 —— 简单来说,这些问题都在探讨:当你把一组整数以某种方式相加时,结果的集合会有多大、形态如何?这类问题在数学上属于「加法数论」的范畴。Nathanson 本人以眼光独到著称,他关注的问题往往会在数年后变得极为热门。
Gowers 选了其中几个,输入给 GPT-5.5 Pro,然后等待。
模型思考了约 17 分钟,给出了一个构造方案,解决了其中一个关于集合「跨度」的问题,并将前人结果中一个指数级的界改进为多项式级 —— 在数学上,这意味着从「几乎不可用」变为「接近最优」。Gowers 随后让模型把论证整理成一篇标准数学预印本的格式,模型又花了两分多钟完成。
接下来,Gowers 把问题推向了更深处。他将一位 MIT 学生 Isaac Rajagopal 此前发表的研究成果告诉模型,并问它能否在此基础上进一步改进。GPT-5.5 Pro 再次给出了肯定的回答:它不仅改进了 Rajagopal 的结果,还在关键步骤中引入了一个此前从未有人用过的数学构造思路。
Rajagopal 本人看过之后,评价这个想法「相当聪明,完全原创」,并补充说,这是他自己「可能需要苦思一两周才能想到的东西」。整个过程,GPT-5.5 Pro 用了不到两个小时。
Gowers 强调,在这整个过程中,他自己几乎没有提供任何实质性的数学引导 —— 他只是在问问题,而不是在给答案。
这件事意味着什么?
Gowers 在博客中花了相当篇幅讨论这件事的意义,语气坦率,甚至有些沉重。
首先是一个悬而未决的实际问题:这个结果该怎么处理?
如果是人类数学家得出同样的结论,它毫无疑问可以发表在学术期刊上。但现在,没有人需要署名,也没有人需要「credit」。Gowers 提到,arXiv 目前不接受 AI 生成的内容,而投递期刊似乎也没有意义。他的建议是,或许应该建立一个专门收录 AI 产出数学结果的平台,并由人类数学家负责核实其正确性 —— 但具体怎么做,他也没有答案。
更深的问题,是关于博士培养的。
长期以来,数学导师帮助学生「入门」的一个常见方式,是给他们找一些看起来有希望、难度适中的开放问题 —— 不太简单,但也不至于让人绝望。解决这样一个问题,能给新生研究者带来巨大的信心,证明自己有能力做真正的数学研究。
但现在,这条路几乎被堵死了。如果 AI 能在几小时内解决「难度适中」的开放问题,那这类问题就不再适合用来训练人类新手了。Gowers 的判断是:数学研究的门槛,已经悄悄抬高了一截。
他同时也给出了两点保留意见,试图避免过于悲观。
其一,博士生本身也可以使用 AI。未来的数学研究,或许不再是「人类能否独立证明 AI 证不了的东西」,而是「人类能否借助 AI,共同解决任何一方单独都无法解决的问题」。Gowers 自己近期也在做这样的尝试,他发现 AI 确实能提供有价值的贡献,尽管还没有出现真正「改变游戏规则」的时刻。
其二,这一切是否适用于所有数学分支,他并不确定。组合数学(也就是这次涉及的领域)以「问题导向」为主,AI 擅长从一个具体问题出发,向前或向后推理。但在另一些数学领域,研究更像是「从一组想法出发,看看能走到哪里」—— 这需要判断哪些观察有趣、哪些方向值得追究,而这种审美式的判断力,AI 是否具备,目前仍是未知数。
那么,做数学研究还有意义吗?
对于那些正在考虑攻读数学博士的人,Gowers 给出了一个诚实但并不令人完全安心的回答。
他认为,「通过解决难题让自己的名字永远与某个定理联系在一起」的时代,可能已经接近尾声 —— 不只是对普通研究者,对所有人都如此。他举了一个思想实验:如果一位数学家与 AI 长时间合作,AI 完成了所有技术工作并贡献了核心想法,这位数学家只是起到了引导和提问的作用 —— 我们会把这看作这位数学家的重大成就吗?Gowers 的回答是:不会。
但他并不认为钻研数学因此变得毫无价值。恰恰相反,他的判断是:那些自己真正解决过难题的人,将在与 AI 协作时展现出明显的优势 —— 就像真正懂编程的人比不懂的人更擅长使用 AI 写代码,真正懂算术的人更容易发现计算器给出的答案是否有问题。数学训练所带来的思维能力,是高度可迁移的。
「你可能不会得到与上一代研究者相同的回报,」他写道,「但你很有可能因此为即将到来的世界做好充分准备。」
最后,他以一句话结尾,语气平静,但分量不轻:「一个从明年开始读博的学生,最早也要到 2029 年才能毕业。我的判断是,到那时,从事数学研究意味着什么,将已经发生了难以辨认的变化。」
DeepMind:为人机协作的数学时代做好准备
正如 Gowers 所说,未来的数学研究必然是人与 AI 的有效协作。那这种协作如何进行?谷歌 DeepMind 刚刚发布的一项研究给出了一个框架。
5 月 7 日,DeepMind 发布了一篇题为「AI Co-Mathematician: Accelerating Mathematicians with Agentic AI」的论文,介绍了他们专门为数学研究设计的一套智能体工作台。它想解答的核心问题是:如果 AI 做数学已经是既成事实,那我们该怎么把它做成一套系统?
论文链接:https://arxiv.org/pdf/2605.06651v1
论文首先指出了一个常被忽视的事实:数学研究发表出来的,几乎全是打磨精良的严格证明,但数学家的日常工作早已被广泛认识到包含大量隐藏在幕后的活动。在最终的形式化结论之下,是一个深度探索的过程:初始直觉被检验,反例被发现,核心定义和证明经历一轮又一轮的否定与修正。简单说,论文里看到的数学,和数学家实际经历的数学,是两回事。
那 AI 在这方面做得怎么样?DeepMind 给出的判断是:局部很强,整体缺位。近年来,AI 已经沿着几条路径快速渗透进数学领域:有专门做自主推理的系统,有通过反复进化搜索发现新算法和新结构的系统,有深度整合进数学证明验证流程的系统,还有直接内置在聊天界面里、让普通数学家随手就能调用的强大推理模型。这些工具各有所长,但 DeepMind 认为,它们拼在一起仍然缺少一块。
这块缺失的,是一套真正贴合数学家日常工作方式的协作流程。数学家的日常,很少是一次次孤立的提问和解答。更多时候,他们在处理不确定性,在散落各处的文献里寻找线索,反复起草和修改半成品,并在数天乃至数周里追踪一条不断分叉、随时可能走进死胡同的思路链。但现有的 AI 工具对此几乎无能为力 —— 聊天窗口关掉就失忆,专门的推理引擎又只管自己那一亩三分地。研究者不得不亲自充当「粘合剂」,手动把对话记录、证明工具和计算脚本串联起来。
DeepMind 在论文中把这个局面和程序员的处境做了对比。程序员已经有了 Claude Code、OpenAI Codex 这样的 AI 编程助手,之所以好用,是因为软件工程本身就有一套现成的协作范式:需求文档让智能体可以长时间自主工作而不偏轨,自动化测试随时验证结果,版本控制完整记录项目的每一步演变。而数学家的日常工作中,几乎没有任何类似的流程被自动化。数学家还在刀耕火种,程序员已经有了流水线。
AI Co-Mathematician 想做的,正是给数学补上这套基础设施。它基于最新的 Gemini 模型,提供一个持续运转的项目空间。在这个空间里,一个总协调智能体负责把复杂任务拆解、分派给多条同时推进的工作流,数学家可以随时介入、调整方向,而不必守在旁边等系统把所有事情跑完再说。
更重要的是它的定位野心。这套系统并不打算取代现有的各类 AI 数学工具,而是为它们提供一个统一的「调度层」—— 让 AlphaProof、AlphaEvolve 这些各有专长的引擎,都能在数学家主导的研究流程中被按需调用。
这套系统具体是怎么工作的?
论文里有一个具体的演示案例,读起来很直观。
一位数学家想研究一个几何开放问题,于是打开 AI Co-Mathematician,上传了一篇相关论文,输入了一句话,大体意思是:我想看看能不能证明这篇论文里某个变体问题的上界。
普通的聊天 AI 收到这句话,多半会立刻开始「解题」。但这套系统没有。总协调智能体先开启了一段对话,扮演「讨论伙伴」的角色,追问道:经典问题的下界已经被证明是精确的,但另外两个变体的上界仍然悬而未决 —— 你想聚焦其中一个,还是两个都做?你是想证明某个特定的下界是精确的,还是只要建立任何一个严格的上界就够?
这个细节,代表了整套系统背后的一个核心判断:在数学研究里,把问题问对,比解决问题更重要。系统不急着给答案,而是先帮数学家想清楚自己究竟在问什么。
问题确认之后,系统才开始分头行动 —— 文献梳理、构建计算框架、执行搜索,三条工作流同时推进。在这个过程中,数学家不需要盯着屏幕等结果,可以随时通过对话界面介入、调整方向。这种协作也是双向的:如果某条工作流陷入僵局,系统会主动向数学家发出警报,明确说明卡在了哪里,并请求人类的帮助。
论文还特别提到了一个设计细节,乍看不起眼,但其实颇为关键:系统会完整保留所有走不通的路径,而不是悄悄清除、重新开始。它把每一次失败的探索都作为项目历史的一部分永久保存,供人类和 AI 共同参考,以便从失败出发制定新的策略。这背后的逻辑很朴素:在数学研究里,知道哪条路是死路,本身就是一种知识。
此外,系统对 AI 的局限性保持着相当的警惕。数学研究要求极高的严谨性,一个有缺陷的引理或一个捏造的文献引用,足以动摇整篇论文。系统的架构被设计为围绕「不确定性」来运转:追踪每一个论断如何演变或被质疑,通过持续的审查、数值模拟和文献核查来验证结论,并在工作文件中以高亮和批注的形式,向数学家明确标出哪些地方尚存争议、需要人工核实。
在早期测试中,这套系统已经帮助研究者解决了一些开放问题,找到了新的研究方向,并发现了一些被忽视的文献线索。在硬性基准测试上,它在 FrontierMath Tier 4—— 一个专门针对前沿数学难题设计的高难度测试集 —— 上达到了 48% 的得分,是目前所有 AI 系统中的最高分。
当然,这套系统目前仍处于小范围发布阶段,距离大规模投入使用还有一段距离。但它所代表的方向已经足够清晰:AI 介入数学研究,不再只是偶尔答对一道难题,而是开始尝试嵌入整个研究流程本身。
数学界一向以慢著称。一个猜想可以悬置一百年,一篇论文可以打磨十年。但眼下这场变化的速度,已经不允许用数学的时间尺度来应对了。
就像陶哲轩所说,AI 正在让数学进入「工业化」时代,未来会出现一种规模化生产数学成果的全新方式,与传统手工式研究并行共存。这一天来得比所有人预想的都要快 —— 而眼下这一周发生的事情,不过是它露出地面的冰山一角。
参考链接:https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/
热门跟贴