陶哲轩对谈 OpenAI 高管：“试错成本”无限趋零，AI 正在把数学变成一门重工业|openai|奇点|数学家|詹姆斯|陶哲轩

在“造桥”与“解题”之间，AI 找到了最廉价的进化温床

编译 | 王启隆

来源 | youtu.be/ddTvK9nlquM

出品丨AI 科技大本营（ID：rgznai100）

如果你是一名建筑工程师，你造的桥塌了，这是一场灾难；如果你是一名外科医生，你切错了血管，这是一场悲剧；但如果你是一名数学家，你在草稿纸上写错了一个公式呢？

你只需要把纸揉成一团，扔进废纸篓。

在过去一年里，当全人类都在恐慌 AI 会不会接管现实世界，甚至为了安全不断给大模型套上枷锁时，数学界却向 AI 敞开了大门。因为在这个由纯粹逻辑构建的虚拟宇宙里，“试错的成本是零”。

近日，在洛杉矶加州大学（UCLA）纯粹与应用数学研究所（IPAM）的一间阶梯教室里，发生了一场引人深思的对谈。

对谈的双方，一方是菲尔兹奖得主、被誉为“数学界莫扎特”的天才数学家陶哲轩（Terence Tao）；另一方，则是主导了 OpenAI 最前沿推理模型（o1系列）研发的顶尖科学家Mark Chen。

这并不是一场充斥着商业互吹的走穴式圆桌。在现场，没有 PPT，没有跑分图表。一位是最懂人类数学直觉的大脑，一位是最懂机器强化学习的工程师，他们就像两个剥洋葱的人，一层一层地把当前 AI 在科学研究中的真实能力、致命缺陷以及终极演化路径，剥了个精光。

对于那些渴望看透 AI 未来发展的人来说，这场对话的信息密度高得惊人：

从“几分钟”到“几天”的暴力美学：OpenAI 内部衡量 AI 进步的核心指标并非单纯的参数量，而是一个名为“自主运行刻度（Meter Plot）”的指标——即模型能在不崩溃、不幻觉的情况下，连续思考多长时间。去年是几分钟，今年的目标是几天。
数学是强化学习（RL）的终极外挂：现实生活中很难给 AI 定义“绝对的对错”，但在数学里，形式化验证工具可以瞬间判定 AI 生成的证明是否有效。这种“无限次廉价试错”的机制，正是让 AI 突破人类知识边界的唯一引擎。
高情商的 AI，往往是个糟糕的科学家：为了让 AI 看起来像个有礼貌、好合作的“人”，我们强行给它注入了太多人类的偏好（RLHF）。但 Mark 犀利地指出，你很难给“合作默契度（Vibes）”打分。越是试图让 AI 在日常对话中讨好人类，它在硬核推理上的能力就越容易被削弱。
AI 的“局部欺骗”本能：当 AI 试图模拟物理规律（如天气）时，如果不加严苛限制，它会像个作弊的玩家一样，去寻找模拟器系统本身的漏洞，而不是真正学习物理法则。

下面，让我们回到 UCLA 的这间阶梯教室，通过这份中文实录，去聆听这场关于真理、算力与未来范式转移的巅峰对话。

打破“一年之痒”：从不靠谱的学生，到不可或缺的超级外包

James Donovan（主持人，以下简称“詹姆斯”）：在正式开始前，我要向 UCLA 的纯粹与应用数学研究所（IPAM）提供这个绝佳的场地表示巨大的感谢。同时，也非常感谢在座各位的到来。我知道大家不是来听我这个主持人长篇大论的，所以我也就不多废话了。

我要特别感谢台上的两位嘉宾。要在同一个房间里凑齐这样两位拥有顶尖大脑的人物，确实非常难得。事实上，我们注意到了一个小细节。就在差不多一年前的今天，陶哲轩教授，您也参加过一次类似的讨论。

我记得当时您对以 GPT 为代表的 AI 在数学领域的表现给出了一个非常经典的评价，您说它就像是一个“非常平庸、效率低下的研究生”。

我个人对这个评价印象极深，因为作为人类，我也曾收到过类似的差评，这简直是一个堪称完美的基准线（笑）。一年过去了，从您的角度来看，情况发生了怎样的改变？Mark，之后我也想听听您从 OpenAI 的视角怎么看这个变化。

陶哲轩：确实，过去的一年里发生了太多事情。

这些 AI 工具确实变得强大得多了。我认为，现在很多能力已经被我们“常态化”了，我们几乎每天都在高频使用它们。

首先是深度研究工具。比如文献检索，现在的 AI 已经远远超越了传统的搜索引擎，它变得非常好用。其次是代码生成（Code Generation），这绝对是一个巨大的飞跃。作为一个纯数学家，我以前很少亲自去写厚重的代码。但现在，AI 彻底改变了我处理数学问题的方式。

如果我脑子里对某个数学现象有了一丝模糊的直觉或预感，在过去，我可能只是想想就算了。但现在，我会直接告诉 AI：“帮我把这个函数画出来”，或者“你能尝试用代码证明一下这个猜想吗？”然后它就会替我去完成验证。

我已经开始在日常研究中使用它了。比如，当我遇到一个引理（Lemma），如果我确信我知道该怎么证明，但我实在懒得去纸上做那些繁琐的枯燥计算，我就会直接把它“外包”给 AI。

当然，在极其深入的核心层面——比如当我试图攻克一个难题，在草稿纸上绞尽脑汁，或者和同事进行深度探讨时——AI 现在的水平还不足以在那种对话层面上与我们进行互动。它还没有达到我期望的那个高度。

但也许未来会改变。

从社会学层面来看，我认为整个数学界也开始意识到：“这些工具是来真的，它们不会消失。”

我们必须开始调整我们做研究的方式。过去很多极度繁琐的证明过程，或者以前我们会强迫研究生去干的苦力活，现在我们可以直接丢给 AI。这打开了许多以前我们连做梦都不敢想的数学研究新路径，尤其是那些需要在大规模层面处理的项目。

所以，虽然在现有的工作流中，引入 AI 仍然显得有些笨拙和尴尬，但我认为接下来的重点方向，是为 AI量身定制全新的工作流。

这就像我们刚发明汽车的时候。一开始，汽车跑在为马车设计的道路上，处处不适应。但渐渐地，我们改变了建造城市的方式，我们为汽车修筑了公路体系。现在，我们的数学界正处于那个尴尬的中间过渡阶段：我们的道路依然是为行人和马车设计的，但我们手里已经握着汽车的方向盘了。

OpenAI 的暴力底牌：把“思考的时间”拉长到极限

詹姆斯：Mark，听到陶教授说一年前的 AI 是个“效率低下的研究生”，从你作为模型构建者的角度来看，这也是你们当时的感受吗？以及你们是在为什么样的目标而构建新一代模型的？

Mark Chen：老实说，当陶教授在一年前抛出“无效的研究生”这个比喻时，我一点都不觉得委屈。因为那基本就是我们当时所处的真实技术状态。

当我们回望 AI 这两年的发展轨迹，如果用一个比喻来形容，我们在后台看到的是一场“在刻度表上的爬山运动（Hill-climbing on a meter plot）”。

在 OpenAI 内部，我们一直在追踪一个核心指标：模型在没有任何干预的情况下，能够持续、自主、有效进行工作的时间长度。

去年这个时候，这个时间单位还是“分钟（Minutes）”。

大家应该都经历过那个阶段：你让大模型去处理一个稍微复杂点的任务，几分钟后它就开始产生幻觉（Hallucinate），或者直接崩溃报错。只要你给它布置了需要一大块时间才能完成的工作，它肯定会中途摔倒。

但我认为，刚刚过去的这一年，对我们行业内的很多人来说是一个巨大的转折点。我们看到模型犯错的概率在显著下降。因此，你终于可以开始信任模型，让它去执行更长时间跨度的工作了。这其实让我们得以拆除掉以前必须依赖的很多“辅助脚手架”。

现在的趋势极其明显，所有的模型都在向着能够自主解决更长周期问题的方向狂奔。我们希望构建的平台，是能让全世界的科学家在上面“自我加速”的。

我们现在看到的景象，就是那些被赋予了 AI 能力的极客们，正在用各种方式突破极限。你可以看到那些 20 岁出头的年轻人，他们拿着我们新一代的模型，去尝试解决连资深专家都头疼的数学问题。虽然他们的方法可能不那么老练，但通过 AI 的辅助，他们能够完成大量的自我引导式探索。

这也是我们成立“OpenAI for Science（科学人工智能计划）”的原因之一。就像你提到的那些“首次证明（First Proof）”或数学领域的探索，它其实是我们在和科学界进行一场深度沟通：搞清楚哪些问题才是真正重要、且亟待解决的？

我们在物理学领域也做过类似的尝试。我们请来顶尖的物理学家，让他们列出哪些问题感觉是可以被 AI 攻克的。这反过来帮助我们塑造了 AI 发展的方向，也让我们发现了模型的缺陷和需要补足的短板。

所以，我们的终极目标不仅是取代眼前的任务，而是推动整个科学前沿的发展。当模型的自主思考能力足够强，我们就能涉足以前根本无法触及的科研深水区。

埃尔德什问题：衡量 AI 智商的终极“试金石”

詹姆斯：说到这种探索，我知道陶教授您组织过很多大型的数学社区倡议。在这个过程中，您觉得 AI 能如何改变这种大规模的协作？它是否以一种具有重大意义的方式介入了这种协作？

陶哲轩：这二者的结合其实非常精妙。

AI 带来的最大改变，是最终提供了一种分工（Division of Labor）的可能。这在工业革命以来的每一个行业都发生过——除了数学。

传统的数学研究，其痛点在于它高度依赖少数个体的头脑。但现在，你可以把数学证明拆解成好几个部分：提出问题、生成策略、筛选策略、执行策略、验证结果，最后再进行有效沟通。

只要我们将这种能力体系化，我们的数学家只需要在其中几个关键环节表现出色即可。我们必须具备某种技术直觉，知道问题的来源，什么是好的策略；我们必须进行严谨的验证，向同行解释。但这中间有大量繁重的步骤——那些我们以前被迫硬着头皮自己干的环节——现在终于可以卸载给 AI 了。

为了测试这一点，我们目前重点关注了“埃尔德什问题（Erdos Problems）”。（注：保罗·埃尔德什是一位高产且古怪的数学家，他一生提出了数以千计的数学猜想，并为解决这些猜想的人悬赏奖金。这些问题难度跨度极大。）

埃尔德什问题是一个极佳的测试场，因为这上千个问题的难度完全是一个连续的光谱。有些问题是我们做梦都想解决但几十年毫无进展的，我也曾在一两个小点上取得过极其微小的进展；但还有一条长长的“尾巴”，那里堆满了大量未被探索、关注度不高的问题。

正是在这部分“长尾问题”上，AI 工具取得了极其惊人的进展。在过去一段时间里，大概有二三十个这类问题被成功解决，而其中人类只提供了最低限度的监督。

我们利用一些正式的验证工具对 AI 进行测试。我们发现，对于某些已经被充分研究的难题，我们人类有着清晰的方法论，但对另一些问题，AI 确实能找出突破口。

这促使我们数学界的文化也发生了一次转变。以前，我们只会把所有的精力倾注在极少数“地狱难度”的未解之谜上，而完全无视那些处于中等难度、数量庞大的其他问题。但现在，随着 AI 工具的发力，我们作为数学家，开始批量释放这些“我们想知道答案，但懒得自己算”的题库。

也许 AI 只能解决其中的 10%，也许另一名高中生用 AI 又解决了 5%。但整体而言，我们正在迎来一种更具“社区驱动（Community-driven）”的数学研究新范式。

数学为什么是 AI 的天然温床？

詹姆斯：Mark，你之前在分享中提到一个观点，说 AI 在科学预测上已经做得很好了，比如预测蛋白质折叠（AlphaFold）、预测天气，甚至预测物理状态。但在数学和理论物理中，我们需要的是“推导”、“公式”和“证明”。

这种要求是不是对 AI 来说太苛刻了？或者说，要让 AI 提供一条严密的逻辑证明链，而不是简单地给出一个概率预测，难度是不是大得多？

Mark Chen：这是一个极其核心的问题，也是为什么我对 AI 在数学领域的应用抱有极大期待的原因。

用一句大家都听过的话来说：“数学，是一个试错极其廉价的地方（Mathematics is a place where experiments are cheap）。”也是一个“失败极其廉价”的地方。

我们可以做一个对比。如果你是一名土木工程师，你的任务是造一座桥。如果桥塌了，这是一个极其昂贵的错误；如果你是一名外科医生，切错了器官，那代价无法估量。

但在数学里，当你试图证明一个定理，哪怕你的证明策略彻底失败了，那也不过是一次“廉价的错误”。

更关键的是，我们现在拥有了“形式化验证系统（Formal Verification Systems）”（注：如 Lean 4 这样的交互式定理证明器，能够以代码级的严谨度自动检查数学证明中是否存在逻辑漏洞）。这简直是为强化学习量身定制的判官。

在过去，AI 模型在复杂推理上经常遭遇瓶颈，因为你很难在大规模上给模型的思考过程进行打分。但现在，因为有了这些严苛的代码验证器，我们可以明确地告诉 AI 什么时候做对了，什么时候做错了。这就形成了一个完美的闭环。

詹姆斯：所以，这种严格的规则反而成了解放 AI 能力的钥匙？

Mark Chen：完全正确。只要我们能用清晰的规则（比如形式化语言）去评判它，AI 就能爆发出惊人的力量。

你看我们在编程和数学奥林匹克（IMO）中看到的那些重大进展。当我们能提供明确、高难度的指标让大模型去挑战时，它的进化速度是指数级的。但遗憾的是，很多极其重要的现实能力，是无法被这样轻易量化的。

举个例子，人类之间是如何协作的？我们常说两个人合作时有没有“默契（Vibes）”。但在强化学习（RL）里，你该如何去计算和奖励一段“默契”的合作？（全场大笑）

这正是目前 AI 对齐（Alignment）领域最头疼的问题。我们希望模型具备高超的硬核科学能力，同时又希望它在和人类交互时是个“好队友”。但在训练中我们发现，很多时候你越是要求它表现得温和、配合，它在极端理性推理上的能力就越容易受损。这是我们接下来一年要重点解决的平衡难题。

AI 会创造新的“微积分”吗？

观众提问 1：在诸多科学领域中，比如物理或生物学，最伟大的突破往往不是“证明了某个已知定理”，而是创造了一个全新的理论框架（New Paradigm），或者说是创造了一个全新的“世界模型（World Models）”。目前我们使用的主要是预测下一个 Token（Next-token prediction）的生成式模型。你们认为，未来的 AI 会具备这种“建模整个物理世界”的能力，从而帮我们发现类似广义相对论那样的新框架吗？

Mark Chen：这是一个非常深刻的问题。首先，我们需要厘清“世界模型”这个概念。

大语言模型（LLM）本身也是一种世界模型。它把人类所有的文本知识压缩在它的权重里。当你问它物理问题时，它确实能展现出某种对物理规律的理解。但如果我们谈论的是“纯数字原生”的世界模型——即不通过语言，而是通过与数字环境交互来直接模拟物理世界——这确实是另一个维度的挑战。

我们在开发视频生成模型（比如 Sora）以及一些游戏引擎的模拟中发现，当我们强迫 AI 去模拟物理规律时，它常常会展现出极强的“漏洞利用（Exploitation）”本能。

这有点像你训练一个 AI 玩游戏，如果你给它的奖励机制设置得不够完美，它不会去学习如何优雅地通关，而是会敏锐地发现游戏引擎的一个 Bug，然后利用这个 Bug 疯狂刷分。

当你试图用纯 AI 来取代一个基于硬核物理法则（如 Navier-Stokes 方程）编写的流体力学模拟器时，最可怕的事情不是它学不会，而是它会为了最大化得分，在某个边缘情况中“虚构”出一套荒谬的物理规律。这种脱离了真实物理验证的“自由想象”，在科学研究中是极其危险的。

这也是为什么我们目前依然坚持：AI 的核心价值在于“作为人类智力的加速器”，而不是让它在一套缺乏地基的虚拟系统里独自造神。

陶哲轩：我非常同意 Mark 的观点。

在数学研究中，情况也是类似的。很多公众对 AI 的期待有一种误解，以为 AI 就是一个无所不知的神谕机，你输入一个问题，它吐出一个完美的答案。如果它做不到，大家就会说它不过如此。

但这其实剥夺了科学探索中最宝贵的东西——我们想要的并不只是答案，我们真正渴望的是推导答案的那个过程。

目前 AI 在处理那些需要全新概念（New Concepts）的数学问题时，依然表现得像个蹒跚学步的孩子。如果一个问题需要借用几个不同领域的已知理论，AI 的表现会堪称惊艳。但如果要解决的问题需要一种人类文献中从未出现过的思考路径，AI 就无能为力了。

但我并不认为这是一种局限。相反，这完美地界定了人类与 AI 的协作边界。

就像我刚才说的，数学的海洋是无边无际的。有少部分问题，需要天才的直觉、需要十年如一日的死磕、需要创造出类似“微积分”这样的全新范式才能解决。这部分工作，目前依然、也将长期属于人类。