陶哲轩：AI解50题停滞，人类深度思考成新护城河|开普勒|数学家|柏拉图|科学|陶哲轩

AI 正在让“想法”变得廉价，甚至毫无价值。真正的瓶颈，从来都不是“灵光一现”。

数学家陶哲轩最近和 Dwarkesh Patel 的访谈中，讨论了 AI 在科学发现中的作用。我们总在问 AI 何时能产生伟大的想法，但陶哲轩的观察揭示了更深层的问题：当想法的生产成本趋近于零时，我们该如何应对？

陶哲轩认为，AI 正在成为一个无与伦比的“广度”工具，但人类“深度”核心价值，不仅没有被取代，反而因为 AI 的存在而变得更加关键。

这不仅仅是关于数学，更是关于科研范式，甚至是知识工作本身的未来。

我们先从一个有趣的故事开始：开普勒如何发现行星运动定律。

通常听到的版本是，开普勒是个天才，灵光一现，提出了三大定律。但真实的历史要“丑陋”得多。开普勒最初的理论，是一个他自认为完美无比的“神圣几何”模型。他相信，当时已知的六大行星轨道之间，可以完美地嵌套五个正多面体（柏拉图立体）。

然后，悲剧发生了。他那个“完美”的理论，跟第谷的精确数据对不上，有大约10%的误差。但开普勒没有放弃。他在接下来近二十年的时间里，把自己泡在这些数据里，尝试了无数种可能——包括各种占星术、世界和谐论等在我们今天看来纯属胡说八道的理论。在他的著作《世界的和谐》中，他甚至写道，地球的音符是“mi-fa-mi”，象征着苦难与饥荒。

就在这堆看似“垃圾”的想法中，他偶然发现了一条经验规律：行星公转周期的平方与轨道半长轴的立方成正比。这就是后来举世闻名的开普勒第三定律。

访谈的主持人 Dwarkesh 提出了一个绝妙的比喻：开普勒就像一个“高温”（high temperature）状态下的大语言模型。

所谓“高温”，在 LLM 的语境里，意味着更高的随机性和创造性，模型会生成更多样、更不寻常的输出，但准确性会下降。开普勒就是这样，他疯狂地生成各种假设，从正多面体到音乐和声，其中绝大多数都是错的。但最终，只要有一个假设能够通过第谷那“黄金数据集”的验证，它就能留存下来，成为推动科学进步的基石。

这个比喻说明：科学进步的链条中有两个关键环节——假设生成和假设验证。

在过去，我们总是推崇“尤里卡”式的顿悟时刻，认为“想法”是科学中最宝贵、最稀缺的资源。但现在，情况变了。

陶哲轩指出，AI 已经将“想法生成”的成本几乎降到了零。就像互联网将信息传播的成本降到零一样。

这是一个巨大的变革。对于任何一个科学问题，我们现在理论上可以让 AI 在短时间内生成成千上万个可能的假设或理论。这听起来是科学的天堂，但它正在迅速变成科学的地狱。

瓶颈被转移了。当想法不再稀缺，如何验证、评估、筛选这些想法，就成了新的、也是更严峻的瓶颈。

许多学术期刊现在正被 AI 生成的投稿淹没，审稿人已经不堪重负。过去，我们有同行评审、学术会议等一系列机制，来过滤掉那些价值不高的“民科”理论，从而让科学共同体能集中精力去检验那些“高信号”的想法。但现在，当机器可以大规模生产看似合理、实则空洞的“AI slop”（AI垃圾）时，这套旧系统正在失灵。

后人庆祝开普勒时，但常常忽略，开普勒的成功离不开第谷。第谷花费数十年时间，用肉眼观测积累的数据，其精度比前人高出十倍。正是这“多出来的一位小数”，才让开普勒能够证伪自己那个漂亮的柏拉图立体模型，并最终发现椭圆轨道。

没有高质量、高精度的验证闭环，再多的“想法”也只是噪音。

这些判断充满了我们甚至无法清晰表达的直觉、品味和启发式判断。这恰恰是目前我们不知道如何教给机器，更不用说塞进一个强化学习循环里的东西。

所以，AI 带来的不是一个更简单的世界，而是一个对人类判断力要求更高的世界。

那么，AI 在数学研究中的实际表现如何？

陶哲轩提到，在过去几个月里，AI 系统解决了大约50个国际数学奥林匹克（IMO）竞赛级别的问题。这听起来非常惊人。但随后，进展就停滞了。陶哲轩的解释是：AI 采摘了所有“低垂的果实”。

他打了个比方：想象数学研究是一片有无数悬崖峭壁的山脉，有的墙高一米，有的三米，有的几十米。我们并不知道哪面墙矮。AI 就像一个弹跳力惊人的“跳跃机器人”，它可以跳得比任何人都高，比如两米。于是，我们把它放到这片山脉里，让它到处乱跳。很快，所有两米以下的墙壁都被它征服了。这是一个激动人心的时期。但之后呢？它就停下了，因为剩下的墙壁都高于它的跳跃极限。

这揭示了 AI 目前在科研中的模式：它擅长广度，而人类擅长深度。

AI 的“广度”体现在，它可以将所有已知的技术、方法、定理，系统性地应用到成千上万个不同的问题上。只要一个问题的解决方案，是现有知识库中几种工具的巧妙组合，AI 就有很大概率找到它。这是一种规模化的、暴力的搜索。那50个被解决的数学问题，大多属于此类。它们之前没人解决，不是因为它们需要全新的理论，而可能仅仅是因为没有足够多的人类专家去关注它们，去尝试所有可能的组合。

人类专家的“深度”则完全不同。当一个问题无法用现有工具解决时，人类需要做的不是尝试更多的组合，而是发明一个全新的工具。这个过程不是跳跃，而是“攀爬”。你可能需要先找到一个中间立足点，建立一个引理，即便这个引理本身并不能解决最终问题，但它为你下一步的攀登提供了基础。

陶哲轩观察到，AI 在这方面表现极差。它们要么直接成功，要么彻底失败，几乎无法产生有意义的“部分进展”。AI 无法理解“我虽然没解决这个问题，但我找到了一个很有意思的中间步骤，这个步骤本身可能比原问题更有价值”。这种对“部分进展”的评估和积累，正是建立深刻理解和新理论的核心。

这直接反映在陶哲轩自己的工作流上。他说 AI 极大地改变了他的工作方式，但不是我们想象的那样。

一个常见的担忧是，如果未来 AI 解决了黎曼猜想，但给出了一个长达数百万行的、人类无法理解的形式化证明（比如用 Lean 语言写的代码），那这算科学进步吗？我们能从中获得任何“理解”吗？

陶哲轩对此非常乐观。他认为，我们不必担心“无法理解的证明”。

一个形式化的证明，就像一个可以被精确解剖的数字构件。我们可以原子化地研究其中的每一步。人类数学家（或者其他 AI 工具）可以对这个庞大的证明进行“代码重构”，做“消融实验”，移除某些部分看看证明是否依然成立，从而找出哪些是关键步骤。

AI 负责找到“存在性”的证明，而人类（或人机协作）负责从中提炼出“理解”和“智慧”。

获取证明的这个过程，本身就是一种数据分析。我们从一个“解决方案”的巨大数据集中，去挖掘其背后的深刻结构。

这引出了他另一个更具前瞻性的思考：我们现在有了像 Lean 这样描述“数学证明”的形式化语言，这使得 AI 可以被训练来生成和验证证明。但我们还缺少一种描述“数学策略”的半形式化语言。

也就是说，我们不仅需要一种语言来描述“A 推导出 B”这个逻辑事实，更需要一种语言来描述“‘先证明 C，再用 C 去证明 B’是一个很有前途的策略”这种启发式思考。这关乎合理性的评估，关乎科学家之间交流的那些微妙的直觉、叙事和信念。高斯当年仅仅通过计算大量素数，就“猜”出了素数定理的雏形。这种基于数据、直觉和统计规律的猜想能力，正是目前 AI 难以企及的。

如果能将这种“策略层”的思考也进行某种程度的形式化，那将是 AI 辅助科学发现的又一次巨大飞跃。

陶哲轩没有给出任何关于 AGI 何时到来的预测，但他清晰地描绘了在可预见的未来，AI 将如何重塑科学研究的图景。

我的理解是，我们正处在一个价值重估的时代。

第一，“想法”的价值正在被稀释。纯粹的、未经检验的想法生成，会变得越来越廉价。评价一个人的能力，将不再是看他能提出多少点子，而是看他验证和实现想法的能力。

第二，“广度”和“深度”的价值将出现分化。依赖广博知识、信息检索和组合创新的工作，其价值会被 AI 大大拉低。而那些需要建立深刻的、第一性的理解，需要发明全新概念和工具的“深度”工作，其价值将空前凸显。

最后，陶哲轩给年轻数学家的建议同样适用于我们所有人：拥抱变化，保持适应性。过去几百年行之有效的方法论和职业路径，未来可能不再适用。需要有一种更灵活的心态，愿意去探索那些非线性的、甚至尚未存在的机会。

AI 不是来取代顶尖科学家的，它是来“外包”掉科学家工作中那些重复的、可被规模化的部分，从而迫使我们将精力聚焦于那些真正无法被替代的核心智力活动上。

从这个角度看，这确实是一个激动人心，但也充满挑战的时代。我们都需要重新思考，自己的价值究竟在哪里。