全文 3,000字 | 阅读约 8 分钟

打开网易新闻 查看精彩图片

(OpenAI播客最新对话,两位研究员谈AI与AGI)

一个困扰数学界42年的问题,被解开了。

不是在某个顶级研究所,也不是通过一篇刚发表的论文,而是在一次持续三天、总共约12小时的人机对话中。

2026年4月28日,OpenAI 高级研究员 Ernest Ryu 在 OpenAI 播客中回忆了这段经历:他与 ChatGPT 反复对话,不断指出模型的错误并调整方向,持续逼近结论。这道关于经典优化算法收敛性的难题,此前42年始终无人给出明确答案。直到一个完整的证明出现,Ryu 人工验证了一遍,又让模型复核了一遍,结果完全无误。

“如果没有这些工具,我可能需要三个月,甚至更久。”

同场对话中,Sébastien Bubeck 也谈到:模型在国际数学奥林匹克竞赛中已达到顶尖水平,在部分研究级问题上也开始提供实质性帮助,甚至能将散落在不同领域的既有成果串联起来,走出前人未曾走通的路径。

AI 的能力边界,正在被实实在在地向前推。这是 AGI 进程中值得认真对待的信号。

第一节|从工具到参与者

先建立一个参照系。

2025年初,模型还做不到的事情包括:三个人去野营,消费明细有十几项,帮忙算一下每人该付多少;或者三个时区的人要约一次Zoom会议,帮忙找一个合适的时间。这些听起来很简单的任务,当时的模型都难以可靠完成。

就在同一年,一个困扰数学界42年的开放问题,在12小时的人机对话中被解决了。

这个跨度,靠模型变聪明了这个说法解释不了。事实上,就在大约一年半前,Sébastien Bubeck 参加了一场学术会议上的辩论,主题是:扩展大语言模型能否帮助解决重大数学开放问题。开场投票,80%的与会者认为不可能。辩论结束后,比例变成了五五开。而仅仅八个月后,模型就开始做研究级别的数学了。

这不再是简单的问答过程。模型没有一次性给出答案,也没有沿着稳定路径推进。整个过程来回往复:提出思路,展开推理,发现漏洞,调整路径,再追问,再延展。

这更接近真实的研究状态。

过去的模型,即便能解决复杂问题,本质也停留在输出结果的层面。现在,它开始进入过程本身。研究的推进方式,是在反复试探中逐步逼近,而不是从问题直接跳到答案。模型一旦进入这个过程,角色就从工具变成了参与者。

与此同时,当研究团队也尝试用模型处理一批长期未解的数学问题时,发现有些答案其实早已隐藏在不同领域的既有成果中,只是从未被联系起来。模型通过大规模检索和推理在庞杂知识中找到可用线索并建立连接,在此基础上,新的结果才开始出现。

正因如此,这个案例绝不只是一次成功的解题,它标志着 AI 正式走入了真实的研究流程。

第二节|思考更久,才是真突破

如果只是将其理解为模型突然变强了,很容易得出一个错误结论:这是某一次单点技术跃迁的结果。但 Sébastien Bubeck 在访谈中给出的解释恰恰相反,没有哪一个单一因素能解释这一切,这种变化是多种能力在同一时间叠加后的集中显现。

在所有这些能力中,最核心的突破在于:模型开始能够持续进行更长时间的推理,并在这个过程中保持思路的连贯性。

这一点为什么关键?数学乃至更广泛的科学研究,难点往往不在某一个具体步骤,关键在于整条推导链能否始终成立。只要中间有一个环节出现偏差,后续所有内容都会失去意义。这就要求推理在很长一段时间里持续检查和修正,光往前走是不够的。过去的模型在短步骤上表现不错,但推理链条一旦拉长就容易偏离,很难在复杂任务中持续推进。

要理解这个跨度有多大,可以回到四年前。2022年前后,Google 发布了专门针对数学的模型 Minerva,Sébastien Bubeck 回忆说,他当时激动得差点从椅子上跳起来。原因仅仅是:给模型平面上几个点的坐标,它能画出一条穿过这些点的直线。

科技行业内正在逐渐形成一个新的衡量尺度:“AGI时间”。它衡量的不再是模型有多聪明,而是它能连续思考多久。从最早只能处理几秒钟的简单问题,到可以维持几分钟的推理,再到如今可以围绕一个难题展开数小时甚至数天的探索。

Ernest Ryu 在访谈中用 Codex 做了一个类比。Codex 能够在很长的工作周期内处理庞大的代码仓库,通过不断压缩和整理对话记录,在持续的交互中推进复杂任务。Ryu 认为,数学研究会走上同样的道路:数学笔记相当于代码仓库,推理过程相当于长周期的工作会话。模型不需要在单次对话里完成全部推导,可以像人类研究者一样,今天推进一部分,整理成笔记,下周继续,最终把几个月的思考浓缩进一篇论文。

顺着这个逻辑往前看,如果模型能在更长的周期内保持推理的稳定性,比如几周甚至更久,它所能处理的问题类型就会发生质变。许多需要长期反复推敲的研究任务,也将逐渐进入它的能力范围。

所谓更接近 AGI,不需要等待某个突然降临的分界点。更现实的路径就是思考时间的持续延长:从短暂反应,到持续推理,再到接近人类研究节奏的长期思考。

决定 AI 能力边界的,不只是它能做什么,更是这种能力能维持多久。

第三节|科学,正在被重新组织

数学只是 AI 能力最早影响的一个学科。真正需要关注的,是这种能力一旦普及,会如何改变整个科学工作方式。

第一个层面,是知识的验证方式。Bubeck 团队测试过大量已发表的数学论文,发现其中存在相当数量的错误,有些是小错,有些则是根本性的漏洞。过去,一篇300页的证明从发表到被全面核实,往往需要好几年,期间整个领域可能已经在一个错误的结论上继续往前走了。现在,AI 可以大幅压缩这个检验周期。既有知识体系的可靠性,正在被重新梳理。

第二个层面,是研究的起点。模型开始不只是回答问题,也开始提出问题。访谈中提到,他们内部的模型已经能够生成有质量的研究假设,好到让人类研究者认为这个方向值得专门写一篇论文。当提出问题这个环节也能被 AI 深度辅助时,研究者真正需要保留的核心能力,变成了判断哪些问题值得追,能否在关键节点做出取舍,能否识别哪个方向具有真正的突破性。这些,恰恰是模型目前最难替代的部分。

当然,这种重构并不自动带来研究成果改善。过度依赖模型,反而会让研究者只停留在理解结果的表层,失去深入推导的能力。工具越强,对使用者的判断力要求就越高。

长期来看,科学研究正在经历一次分工的大调整。重复性的推导工作,AI 可以承担越来越多;而判断做什么、往哪里走,这部分的要求反而在提高。研究者的核心价值,正在从执行转向决策。

计算机出现的时候,有人预言数学界将不再有难题。结果计算本身开辟了全新的研究领域,难题只增不减。如今的逻辑如出一辙:工具越强,值得追问的问题就越多,能提出好问题的人就越稀缺。这种变化不会停留在数学领域。材料科学、生物研究,以及所有需要大量推理和验证的学科,只要问题具备清晰结构, AI 都会慢慢参与进来。

AI 加速的,是科学的节奏。没有改变的,是科学需要人来定义方向这件事本身。

结语|方向,仍然在人

42年没有答案的问题,在12小时里出现了结果。这不是终点,只是一个新的起点。

真正拉近距离的,是模型开始能在更长时间里维持连贯的推理,进入了研究过程本身。这一点,比任何单次突破都更值得关注。

工具替代了越来越多的执行,剩下的问题只有一个:你能不能看懂结果,你有没有能力提出下一个更好的问题。

思考被加速,选择仍然在人。

识自AI

本文由AI深度研究院出品,内容整理自 Sebastian Bubeck 与 Ernest Ryu 在 OpenAI 播客的公开访谈,属评论分析性质。内容为观点提炼与合理引述,未逐字复制原访谈材料。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=9-TVwv6wtGQ&t=846s

来源:官方媒体/网络新闻,

排版:Atlas

编辑:深思

主编:图灵