12小时，42 年难题被攻克，AI 离 AGI 近了一步|agi|推理|数学|新论文|科学|算法

全文 3,000字 | 阅读约 8 分钟

（OpenAI播客最新对话，两位研究员谈AI与AGI）

一个困扰数学界42年的问题，被解开了。

不是在某个顶级研究所，也不是通过一篇刚发表的论文，而是在一次持续三天、总共约12小时的人机对话中。

2026年4月28日，OpenAI 高级研究员 Ernest Ryu 在 OpenAI 播客中回忆了这段经历：他与 ChatGPT 反复对话，不断指出模型的错误并调整方向，持续逼近结论。这道关于经典优化算法收敛性的难题，此前42年始终无人给出明确答案。直到一个完整的证明出现，Ryu 人工验证了一遍，又让模型复核了一遍，结果完全无误。

“如果没有这些工具，我可能需要三个月，甚至更久。”

同场对话中，Sébastien Bubeck 也谈到：模型在国际数学奥林匹克竞赛中已达到顶尖水平，在部分研究级问题上也开始提供实质性帮助，甚至能将散落在不同领域的既有成果串联起来，走出前人未曾走通的路径。

AI 的能力边界，正在被实实在在地向前推。这是 AGI 进程中值得认真对待的信号。

第一节｜从工具到参与者

先建立一个参照系。

2025年初，模型还做不到的事情包括：三个人去野营，消费明细有十几项，帮忙算一下每人该付多少；或者三个时区的人要约一次Zoom会议，帮忙找一个合适的时间。这些听起来很简单的任务，当时的模型都难以可靠完成。

就在同一年，一个困扰数学界42年的开放问题，在12小时的人机对话中被解决了。

这个跨度，靠模型变聪明了这个说法解释不了。事实上，就在大约一年半前，Sébastien Bubeck 参加了一场学术会议上的辩论，主题是：扩展大语言模型能否帮助解决重大数学开放问题。开场投票，80%的与会者认为不可能。辩论结束后，比例变成了五五开。而仅仅八个月后，模型就开始做研究级别的数学了。

这不再是简单的问答过程。模型没有一次性给出答案，也没有沿着稳定路径推进。整个过程来回往复：提出思路，展开推理，发现漏洞，调整路径，再追问，再延展。

这更接近真实的研究状态。

过去的模型，即便能解决复杂问题，本质也停留在输出结果的层面。现在，它开始进入过程本身。研究的推进方式，是在反复试探中逐步逼近，而不是从问题直接跳到答案。模型一旦进入这个过程，角色就从工具变成了参与者。

与此同时，当研究团队也尝试用模型处理一批长期未解的数学问题时，发现有些答案其实早已隐藏在不同领域的既有成果中，只是从未被联系起来。模型通过大规模检索和推理在庞杂知识中找到可用线索并建立连接，在此基础上，新的结果才开始出现。

正因如此，这个案例绝不只是一次成功的解题，它标志着 AI 正式走入了真实的研究流程。

第二节｜思考更久，才是真突破

如果只是将其理解为模型突然变强了，很容易得出一个错误结论：这是某一次单点技术跃迁的结果。但 Sébastien Bubeck 在访谈中给出的解释恰恰相反，没有哪一个单一因素能解释这一切，这种变化是多种能力在同一时间叠加后的集中显现。

在所有这些能力中，最核心的突破在于：模型开始能够持续进行更长时间的推理，并在这个过程中保持思路的连贯性。

这一点为什么关键？数学乃至更广泛的科学研究，难点往往不在某一个具体步骤，关键在于整条推导链能否始终成立。只要中间有一个环节出现偏差，后续所有内容都会失去意义。这就要求推理在很长一段时间里持续检查和修正，光往前走是不够的。过去的模型在短步骤上表现不错，但推理链条一旦拉长就容易偏离，很难在复杂任务中持续推进。

要理解这个跨度有多大，可以回到四年前。2022年前后，Google 发布了专门针对数学的模型 Minerva，Sébastien Bubeck 回忆说，他当时激动得差点从椅子上跳起来。原因仅仅是：给模型平面上几个点的坐标，它能画出一条穿过这些点的直线。

科技行业内正在逐渐形成一个新的衡量尺度：“AGI时间”。它衡量的不再是模型有多聪明，而是它能连续思考多久。从最早只能处理几秒钟的简单问题，到可以维持几分钟的推理，再到如今可以围绕一个难题展开数小时甚至数天的探索。

Ernest Ryu 在访谈中用 Codex 做了一个类比。Codex 能够在很长的工作周期内处理庞大的代码仓库，通过不断压缩和整理对话记录，在持续的交互中推进复杂任务。Ryu 认为，数学研究会走上同样的道路：数学笔记相当于代码仓库，推理过程相当于长周期的工作会话。模型不需要在单次对话里完成全部推导，可以像人类研究者一样，今天推进一部分，整理成笔记，下周继续，最终把几个月的思考浓缩进一篇论文。

顺着这个逻辑往前看，如果模型能在更长的周期内保持推理的稳定性，比如几周甚至更久，它所能处理的问题类型就会发生质变。许多需要长期反复推敲的研究任务，也将逐渐进入它的能力范围。

所谓更接近 AGI，不需要等待某个突然降临的分界点。更现实的路径就是思考时间的持续延长：从短暂反应，到持续推理，再到接近人类研究节奏的长期思考。

决定 AI 能力边界的，不只是它能做什么，更是这种能力能维持多久。

第三节｜科学，正在被重新组织

数学只是 AI 能力最早影响的一个学科。真正需要关注的，是这种能力一旦普及，会如何改变整个科学工作方式。

第一个层面，是知识的验证方式。Bubeck 团队测试过大量已发表的数学论文，发现其中存在相当数量的错误，有些是小错，有些则是根本性的漏洞。过去，一篇300页的证明从发表到被全面核实，往往需要好几年，期间整个领域可能已经在一个错误的结论上继续往前走了。现在，AI 可以大幅压缩这个检验周期。既有知识体系的可靠性，正在被重新梳理。

第二个层面，是研究的起点。模型开始不只是回答问题，也开始提出问题。访谈中提到，他们内部的模型已经能够生成有质量的研究假设，好到让人类研究者认为这个方向值得专门写一篇论文。当提出问题这个环节也能被 AI 深度辅助时，研究者真正需要保留的核心能力，变成了判断哪些问题值得追，能否在关键节点做出取舍，能否识别哪个方向具有真正的突破性。这些，恰恰是模型目前最难替代的部分。

当然，这种重构并不自动带来研究成果改善。过度依赖模型，反而会让研究者只停留在理解结果的表层，失去深入推导的能力。工具越强，对使用者的判断力要求就越高。

长期来看，科学研究正在经历一次分工的大调整。重复性的推导工作，AI 可以承担越来越多；而判断做什么、往哪里走，这部分的要求反而在提高。研究者的核心价值，正在从执行转向决策。

计算机出现的时候，有人预言数学界将不再有难题。结果计算本身开辟了全新的研究领域，难题只增不减。如今的逻辑如出一辙：工具越强，值得追问的问题就越多，能提出好问题的人就越稀缺。这种变化不会停留在数学领域。材料科学、生物研究，以及所有需要大量推理和验证的学科，只要问题具备清晰结构， AI 都会慢慢参与进来。

AI 加速的，是科学的节奏。没有改变的，是科学需要人来定义方向这件事本身。

结语｜方向，仍然在人

42年没有答案的问题，在12小时里出现了结果。这不是终点，只是一个新的起点。

真正拉近距离的，是模型开始能在更长时间里维持连贯的推理，进入了研究过程本身。这一点，比任何单次突破都更值得关注。

工具替代了越来越多的执行，剩下的问题只有一个：你能不能看懂结果，你有没有能力提出下一个更好的问题。

思考被加速，选择仍然在人。

识自AI

本文由AI深度研究院出品，内容整理自 Sebastian Bubeck 与 Ernest Ryu 在 OpenAI 播客的公开访谈，属评论分析性质。内容为观点提炼与合理引述，未逐字复制原访谈材料。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=9-TVwv6wtGQ&t=846s

来源：官方媒体/网络新闻，

排版：Atlas