打开网易新闻 查看精彩图片

在“造桥”与“解题”之间,AI 找到了最廉价的进化温床

编译 | 王启隆

来源 | youtu.be/ddTvK9nlquM

出品丨AI 科技大本营(ID:rgznai100)

如果你是一名建筑工程师,你造的桥塌了,这是一场灾难;如果你是一名外科医生,你切错了血管,这是一场悲剧;但如果你是一名数学家,你在草稿纸上写错了一个公式呢?

你只需要把纸揉成一团,扔进废纸篓。

在过去一年里,当全人类都在恐慌 AI 会不会接管现实世界,甚至为了安全不断给大模型套上枷锁时,数学界却向 AI 敞开了大门。因为在这个由纯粹逻辑构建的虚拟宇宙里,“试错的成本是零”

近日,在洛杉矶加州大学(UCLA)纯粹与应用数学研究所(IPAM)的一间阶梯教室里,发生了一场引人深思的对谈。

打开网易新闻 查看精彩图片

对谈的双方,一方是菲尔兹奖得主、被誉为“数学界莫扎特”的天才数学家陶哲轩(Terence Tao);另一方,则是主导了 OpenAI 最前沿推理模型(o1系列)研发的顶尖科学家Mark Chen

这并不是一场充斥着商业互吹的走穴式圆桌。在现场,没有 PPT,没有跑分图表。一位是最懂人类数学直觉的大脑,一位是最懂机器强化学习的工程师,他们就像两个剥洋葱的人,一层一层地把当前 AI 在科学研究中的真实能力、致命缺陷以及终极演化路径,剥了个精光。

对于那些渴望看透 AI 未来发展的人来说,这场对话的信息密度高得惊人:

  • 从“几分钟”到“几天”的暴力美学:OpenAI 内部衡量 AI 进步的核心指标并非单纯的参数量,而是一个名为“自主运行刻度(Meter Plot)”的指标——即模型能在不崩溃、不幻觉的情况下,连续思考多长时间。去年是几分钟,今年的目标是几天。

  • 数学是强化学习(RL)的终极外挂:现实生活中很难给 AI 定义“绝对的对错”,但在数学里,形式化验证工具可以瞬间判定 AI 生成的证明是否有效。这种“无限次廉价试错”的机制,正是让 AI 突破人类知识边界的唯一引擎。

  • 高情商的 AI,往往是个糟糕的科学家:为了让 AI 看起来像个有礼貌、好合作的“人”,我们强行给它注入了太多人类的偏好(RLHF)。但 Mark 犀利地指出,你很难给“合作默契度(Vibes)”打分。越是试图让 AI 在日常对话中讨好人类,它在硬核推理上的能力就越容易被削弱。

  • AI 的“局部欺骗”本能:当 AI 试图模拟物理规律(如天气)时,如果不加严苛限制,它会像个作弊的玩家一样,去寻找模拟器系统本身的漏洞,而不是真正学习物理法则。

下面,让我们回到 UCLA 的这间阶梯教室,通过这份中文实录,去聆听这场关于真理、算力与未来范式转移的巅峰对话。

打开网易新闻 查看精彩图片

打破“一年之痒”:从不靠谱的学生,到不可或缺的超级外包

James Donovan(主持人,以下简称“詹姆斯”):在正式开始前,我要向 UCLA 的纯粹与应用数学研究所(IPAM)提供这个绝佳的场地表示巨大的感谢。同时,也非常感谢在座各位的到来。我知道大家不是来听我这个主持人长篇大论的,所以我也就不多废话了。

我要特别感谢台上的两位嘉宾。要在同一个房间里凑齐这样两位拥有顶尖大脑的人物,确实非常难得。事实上,我们注意到了一个小细节。就在差不多一年前的今天,陶哲轩教授,您也参加过一次类似的讨论。

我记得当时您对以 GPT 为代表的 AI 在数学领域的表现给出了一个非常经典的评价,您说它就像是一个“非常平庸、效率低下的研究生”

我个人对这个评价印象极深,因为作为人类,我也曾收到过类似的差评,这简直是一个堪称完美的基准线(笑)。一年过去了,从您的角度来看,情况发生了怎样的改变?Mark,之后我也想听听您从 OpenAI 的视角怎么看这个变化。

陶哲轩:确实,过去的一年里发生了太多事情。

这些 AI 工具确实变得强大得多了。我认为,现在很多能力已经被我们“常态化”了,我们几乎每天都在高频使用它们。

首先是深度研究工具。比如文献检索,现在的 AI 已经远远超越了传统的搜索引擎,它变得非常好用。其次是代码生成(Code Generation),这绝对是一个巨大的飞跃。作为一个纯数学家,我以前很少亲自去写厚重的代码。但现在,AI 彻底改变了我处理数学问题的方式。

如果我脑子里对某个数学现象有了一丝模糊的直觉或预感,在过去,我可能只是想想就算了。但现在,我会直接告诉 AI:“帮我把这个函数画出来”,或者“你能尝试用代码证明一下这个猜想吗?”然后它就会替我去完成验证。

我已经开始在日常研究中使用它了。比如,当我遇到一个引理(Lemma),如果我确信我知道该怎么证明,但我实在懒得去纸上做那些繁琐的枯燥计算,我就会直接把它“外包”给 AI。

当然,在极其深入的核心层面——比如当我试图攻克一个难题,在草稿纸上绞尽脑汁,或者和同事进行深度探讨时——AI 现在的水平还不足以在那种对话层面上与我们进行互动。它还没有达到我期望的那个高度。

但也许未来会改变。

从社会学层面来看,我认为整个数学界也开始意识到:“这些工具是来真的,它们不会消失。”

我们必须开始调整我们做研究的方式。过去很多极度繁琐的证明过程,或者以前我们会强迫研究生去干的苦力活,现在我们可以直接丢给 AI。这打开了许多以前我们连做梦都不敢想的数学研究新路径,尤其是那些需要在大规模层面处理的项目。

所以,虽然在现有的工作流中,引入 AI 仍然显得有些笨拙和尴尬,但我认为接下来的重点方向,是为 AI量身定制全新的工作流

这就像我们刚发明汽车的时候。一开始,汽车跑在为马车设计的道路上,处处不适应。但渐渐地,我们改变了建造城市的方式,我们为汽车修筑了公路体系。现在,我们的数学界正处于那个尴尬的中间过渡阶段:我们的道路依然是为行人和马车设计的,但我们手里已经握着汽车的方向盘了。

打开网易新闻 查看精彩图片

OpenAI 的暴力底牌:把“思考的时间”拉长到极限

詹姆斯:Mark,听到陶教授说一年前的 AI 是个“效率低下的研究生”,从你作为模型构建者的角度来看,这也是你们当时的感受吗?以及你们是在为什么样的目标而构建新一代模型的?

Mark Chen:老实说,当陶教授在一年前抛出“无效的研究生”这个比喻时,我一点都不觉得委屈。因为那基本就是我们当时所处的真实技术状态。

当我们回望 AI 这两年的发展轨迹,如果用一个比喻来形容,我们在后台看到的是一场“在刻度表上的爬山运动(Hill-climbing on a meter plot)”

在 OpenAI 内部,我们一直在追踪一个核心指标:模型在没有任何干预的情况下,能够持续、自主、有效进行工作的时间长度。

去年这个时候,这个时间单位还是“分钟(Minutes)”

大家应该都经历过那个阶段:你让大模型去处理一个稍微复杂点的任务,几分钟后它就开始产生幻觉(Hallucinate),或者直接崩溃报错。只要你给它布置了需要一大块时间才能完成的工作,它肯定会中途摔倒。

但我认为,刚刚过去的这一年,对我们行业内的很多人来说是一个巨大的转折点。我们看到模型犯错的概率在显著下降。因此,你终于可以开始信任模型,让它去执行更长时间跨度的工作了。这其实让我们得以拆除掉以前必须依赖的很多“辅助脚手架”。

现在的趋势极其明显,所有的模型都在向着能够自主解决更长周期问题的方向狂奔。我们希望构建的平台,是能让全世界的科学家在上面“自我加速”的。

我们现在看到的景象,就是那些被赋予了 AI 能力的极客们,正在用各种方式突破极限。你可以看到那些 20 岁出头的年轻人,他们拿着我们新一代的模型,去尝试解决连资深专家都头疼的数学问题。虽然他们的方法可能不那么老练,但通过 AI 的辅助,他们能够完成大量的自我引导式探索。

这也是我们成立“OpenAI for Science(科学人工智能计划)”的原因之一。就像你提到的那些“首次证明(First Proof)”或数学领域的探索,它其实是我们在和科学界进行一场深度沟通:搞清楚哪些问题才是真正重要、且亟待解决的?

我们在物理学领域也做过类似的尝试。我们请来顶尖的物理学家,让他们列出哪些问题感觉是可以被 AI 攻克的。这反过来帮助我们塑造了 AI 发展的方向,也让我们发现了模型的缺陷和需要补足的短板。

所以,我们的终极目标不仅是取代眼前的任务,而是推动整个科学前沿的发展。当模型的自主思考能力足够强,我们就能涉足以前根本无法触及的科研深水区。

打开网易新闻 查看精彩图片

埃尔德什问题:衡量 AI 智商的终极“试金石”

詹姆斯:说到这种探索,我知道陶教授您组织过很多大型的数学社区倡议。在这个过程中,您觉得 AI 能如何改变这种大规模的协作?它是否以一种具有重大意义的方式介入了这种协作?

陶哲轩:这二者的结合其实非常精妙。

AI 带来的最大改变,是最终提供了一种分工(Division of Labor)的可能。这在工业革命以来的每一个行业都发生过——除了数学。

传统的数学研究,其痛点在于它高度依赖少数个体的头脑。但现在,你可以把数学证明拆解成好几个部分:提出问题、生成策略、筛选策略、执行策略、验证结果,最后再进行有效沟通。

只要我们将这种能力体系化,我们的数学家只需要在其中几个关键环节表现出色即可。我们必须具备某种技术直觉,知道问题的来源,什么是好的策略;我们必须进行严谨的验证,向同行解释。但这中间有大量繁重的步骤——那些我们以前被迫硬着头皮自己干的环节——现在终于可以卸载给 AI 了。

为了测试这一点,我们目前重点关注了“埃尔德什问题(Erdos Problems)”。(注:保罗·埃尔德什是一位高产且古怪的数学家,他一生提出了数以千计的数学猜想,并为解决这些猜想的人悬赏奖金。这些问题难度跨度极大。)

埃尔德什问题是一个极佳的测试场,因为这上千个问题的难度完全是一个连续的光谱。有些问题是我们做梦都想解决但几十年毫无进展的,我也曾在一两个小点上取得过极其微小的进展;但还有一条长长的“尾巴”,那里堆满了大量未被探索、关注度不高的问题。

正是在这部分“长尾问题”上,AI 工具取得了极其惊人的进展。在过去一段时间里,大概有二三十个这类问题被成功解决,而其中人类只提供了最低限度的监督。

我们利用一些正式的验证工具对 AI 进行测试。我们发现,对于某些已经被充分研究的难题,我们人类有着清晰的方法论,但对另一些问题,AI 确实能找出突破口。

这促使我们数学界的文化也发生了一次转变。以前,我们只会把所有的精力倾注在极少数“地狱难度”的未解之谜上,而完全无视那些处于中等难度、数量庞大的其他问题。但现在,随着 AI 工具的发力,我们作为数学家,开始批量释放这些“我们想知道答案,但懒得自己算”的题库。

也许 AI 只能解决其中的 10%,也许另一名高中生用 AI 又解决了 5%。但整体而言,我们正在迎来一种更具“社区驱动(Community-driven)”的数学研究新范式。

打开网易新闻 查看精彩图片

数学为什么是 AI 的天然温床?

詹姆斯:Mark,你之前在分享中提到一个观点,说 AI 在科学预测上已经做得很好了,比如预测蛋白质折叠(AlphaFold)、预测天气,甚至预测物理状态。但在数学和理论物理中,我们需要的是“推导”、“公式”和“证明”。

这种要求是不是对 AI 来说太苛刻了?或者说,要让 AI 提供一条严密的逻辑证明链,而不是简单地给出一个概率预测,难度是不是大得多?

Mark Chen:这是一个极其核心的问题,也是为什么我对 AI 在数学领域的应用抱有极大期待的原因。

用一句大家都听过的话来说:“数学,是一个试错极其廉价的地方(Mathematics is a place where experiments are cheap)。”也是一个“失败极其廉价”的地方。

我们可以做一个对比。如果你是一名土木工程师,你的任务是造一座桥。如果桥塌了,这是一个极其昂贵的错误;如果你是一名外科医生,切错了器官,那代价无法估量。

但在数学里,当你试图证明一个定理,哪怕你的证明策略彻底失败了,那也不过是一次“廉价的错误”。

更关键的是,我们现在拥有了“形式化验证系统(Formal Verification Systems)”(注:如 Lean 4 这样的交互式定理证明器,能够以代码级的严谨度自动检查数学证明中是否存在逻辑漏洞)。这简直是为强化学习量身定制的判官。

在过去,AI 模型在复杂推理上经常遭遇瓶颈,因为你很难在大规模上给模型的思考过程进行打分。但现在,因为有了这些严苛的代码验证器,我们可以明确地告诉 AI 什么时候做对了,什么时候做错了。这就形成了一个完美的闭环。

詹姆斯:所以,这种严格的规则反而成了解放 AI 能力的钥匙?

Mark Chen:完全正确。只要我们能用清晰的规则(比如形式化语言)去评判它,AI 就能爆发出惊人的力量。

你看我们在编程和数学奥林匹克(IMO)中看到的那些重大进展。当我们能提供明确、高难度的指标让大模型去挑战时,它的进化速度是指数级的。但遗憾的是,很多极其重要的现实能力,是无法被这样轻易量化的。

举个例子,人类之间是如何协作的?我们常说两个人合作时有没有“默契(Vibes)”。但在强化学习(RL)里,你该如何去计算和奖励一段“默契”的合作?(全场大笑)

这正是目前 AI 对齐(Alignment)领域最头疼的问题。我们希望模型具备高超的硬核科学能力,同时又希望它在和人类交互时是个“好队友”。但在训练中我们发现,很多时候你越是要求它表现得温和、配合,它在极端理性推理上的能力就越容易受损。这是我们接下来一年要重点解决的平衡难题。

打开网易新闻 查看精彩图片

AI 会创造新的“微积分”吗?

观众提问 1:在诸多科学领域中,比如物理或生物学,最伟大的突破往往不是“证明了某个已知定理”,而是创造了一个全新的理论框架(New Paradigm),或者说是创造了一个全新的“世界模型(World Models)”。目前我们使用的主要是预测下一个 Token(Next-token prediction)的生成式模型。你们认为,未来的 AI 会具备这种“建模整个物理世界”的能力,从而帮我们发现类似广义相对论那样的新框架吗?

Mark Chen:这是一个非常深刻的问题。首先,我们需要厘清“世界模型”这个概念。

大语言模型(LLM)本身也是一种世界模型。它把人类所有的文本知识压缩在它的权重里。当你问它物理问题时,它确实能展现出某种对物理规律的理解。但如果我们谈论的是“纯数字原生”的世界模型——即不通过语言,而是通过与数字环境交互来直接模拟物理世界——这确实是另一个维度的挑战。

我们在开发视频生成模型(比如 Sora)以及一些游戏引擎的模拟中发现,当我们强迫 AI 去模拟物理规律时,它常常会展现出极强的“漏洞利用(Exploitation)”本能。

这有点像你训练一个 AI 玩游戏,如果你给它的奖励机制设置得不够完美,它不会去学习如何优雅地通关,而是会敏锐地发现游戏引擎的一个 Bug,然后利用这个 Bug 疯狂刷分。

当你试图用纯 AI 来取代一个基于硬核物理法则(如 Navier-Stokes 方程)编写的流体力学模拟器时,最可怕的事情不是它学不会,而是它会为了最大化得分,在某个边缘情况中“虚构”出一套荒谬的物理规律。这种脱离了真实物理验证的“自由想象”,在科学研究中是极其危险的。

这也是为什么我们目前依然坚持:AI 的核心价值在于“作为人类智力的加速器”,而不是让它在一套缺乏地基的虚拟系统里独自造神。

陶哲轩:我非常同意 Mark 的观点。

在数学研究中,情况也是类似的。很多公众对 AI 的期待有一种误解,以为 AI 就是一个无所不知的神谕机,你输入一个问题,它吐出一个完美的答案。如果它做不到,大家就会说它不过如此。

但这其实剥夺了科学探索中最宝贵的东西——我们想要的并不只是答案,我们真正渴望的是推导答案的那个过程。

目前 AI 在处理那些需要全新概念(New Concepts)的数学问题时,依然表现得像个蹒跚学步的孩子。如果一个问题需要借用几个不同领域的已知理论,AI 的表现会堪称惊艳。但如果要解决的问题需要一种人类文献中从未出现过的思考路径,AI 就无能为力了。

但我并不认为这是一种局限。相反,这完美地界定了人类与 AI 的协作边界。

就像我刚才说的,数学的海洋是无边无际的。有少部分问题,需要天才的直觉、需要十年如一日的死磕、需要创造出类似“微积分”这样的全新范式才能解决。这部分工作,目前依然、也将长期属于人类。

但数学世界里更多的,是那数以百万计的、难度中等、繁琐枯燥的“长尾问题”。这些问题同样构成了人类知识大厦的基石,但过去我们根本没有足够的人力去处理。

这就是 AI 接下来要大显身手的地方。它不会立刻写出超越爱因斯坦的理论,但它会在接下来的几年里,以我们无法想象的速度,清扫掉科学大厦里所有的灰尘与盲区。

而当这一切完成时,人类的科学家们,终于可以卸下所有的包袱,站在 AI 铺设好的地基上,去眺望更远的星空。

詹姆斯:我想,没有比这更精彩的结语了。无论是作为一位被“赋能”的纯粹数学家,还是作为正在打造这些“数字大脑”的工程师,你们为我们揭示了一个充满无限可能的时代。

(投稿或寻求报道:zhanghy@csdn.net)

打开网易新闻 查看精彩图片

未来没有前后端,只有 AI Agent 工程师。

这场十倍速的变革已至,你的下一步在哪?

4 月 17-18 日,由 CSDN 与奇点智能研究院联合主办「2026 奇点智能技术大会」将在上海隆重召开,大会聚焦 Agent 系统、世界模型、AI 原生研发等 12 大前沿专题,为你绘制通往未来的认知地图。

成为时代的见证者,更要成为时代的先行者。

奇点智能技术大会上海站,我们不见不散!