AI 正在让“想法”变得廉价,甚至毫无价值。真正的瓶颈,从来都不是“灵光一现”。
数学家陶哲轩最近和 Dwarkesh Patel 的访谈中,讨论了 AI 在科学发现中的作用。我们总在问 AI 何时能产生伟大的想法,但陶哲轩的观察揭示了更深层的问题:当想法的生产成本趋近于零时,我们该如何应对?
陶哲轩认为,AI 正在成为一个无与伦比的“广度”工具,但人类“深度”核心价值,不仅没有被取代,反而因为 AI 的存在而变得更加关键。
这不仅仅是关于数学,更是关于科研范式,甚至是知识工作本身的未来。
我们先从一个有趣的故事开始:开普勒如何发现行星运动定律。
通常听到的版本是,开普勒是个天才,灵光一现,提出了三大定律。但真实的历史要“丑陋”得多。开普勒最初的理论,是一个他自认为完美无比的“神圣几何”模型。他相信,当时已知的六大行星轨道之间,可以完美地嵌套五个正多面体(柏拉图立体)。
然后,悲剧发生了。他那个“完美”的理论,跟第谷的精确数据对不上,有大约10%的误差。但开普勒没有放弃。他在接下来近二十年的时间里,把自己泡在这些数据里,尝试了无数种可能——包括各种占星术、世界和谐论等在我们今天看来纯属胡说八道的理论。在他的著作《世界的和谐》中,他甚至写道,地球的音符是“mi-fa-mi”,象征着苦难与饥荒。
就在这堆看似“垃圾”的想法中,他偶然发现了一条经验规律:行星公转周期的平方与轨道半长轴的立方成正比。这就是后来举世闻名的开普勒第三定律。
访谈的主持人 Dwarkesh 提出了一个绝妙的比喻:开普勒就像一个“高温”(high temperature)状态下的大语言模型。
所谓“高温”,在 LLM 的语境里,意味着更高的随机性和创造性,模型会生成更多样、更不寻常的输出,但准确性会下降。开普勒就是这样,他疯狂地生成各种假设,从正多面体到音乐和声,其中绝大多数都是错的。但最终,只要有一个假设能够通过第谷那“黄金数据集”的验证,它就能留存下来,成为推动科学进步的基石。
这个比喻说明:科学进步的链条中有两个关键环节——假设生成和假设验证。
在过去,我们总是推崇“尤里卡”式的顿悟时刻,认为“想法”是科学中最宝贵、最稀缺的资源。但现在,情况变了。
陶哲轩指出,AI 已经将“想法生成”的成本几乎降到了零。就像互联网将信息传播的成本降到零一样。
这是一个巨大的变革。对于任何一个科学问题,我们现在理论上可以让 AI 在短时间内生成成千上万个可能的假设或理论。这听起来是科学的天堂,但它正在迅速变成科学的地狱。
瓶颈被转移了。当想法不再稀缺,如何验证、评估、筛选这些想法,就成了新的、也是更严峻的瓶颈。
许多学术期刊现在正被 AI 生成的投稿淹没,审稿人已经不堪重负。过去,我们有同行评审、学术会议等一系列机制,来过滤掉那些价值不高的“民科”理论,从而让科学共同体能集中精力去检验那些“高信号”的想法。但现在,当机器可以大规模生产看似合理、实则空洞的“AI slop”(AI垃圾)时,这套旧系统正在失灵。
后人庆祝开普勒时,但常常忽略,开普勒的成功离不开第谷。第谷花费数十年时间,用肉眼观测积累的数据,其精度比前人高出十倍。正是这“多出来的一位小数”,才让开普勒能够证伪自己那个漂亮的柏拉图立体模型,并最终发现椭圆轨道。
没有高质量、高精度的验证闭环,再多的“想法”也只是噪音。
这些判断充满了我们甚至无法清晰表达的直觉、品味和启发式判断。这恰恰是目前我们不知道如何教给机器,更不用说塞进一个强化学习循环里的东西。
所以,AI 带来的不是一个更简单的世界,而是一个对人类判断力要求更高的世界。
那么,AI 在数学研究中的实际表现如何?
陶哲轩提到,在过去几个月里,AI 系统解决了大约50个国际数学奥林匹克(IMO)竞赛级别的问题。这听起来非常惊人。但随后,进展就停滞了。陶哲轩的解释是:AI 采摘了所有“低垂的果实”。
他打了个比方:想象数学研究是一片有无数悬崖峭壁的山脉,有的墙高一米,有的三米,有的几十米。我们并不知道哪面墙矮。AI 就像一个弹跳力惊人的“跳跃机器人”,它可以跳得比任何人都高,比如两米。于是,我们把它放到这片山脉里,让它到处乱跳。很快,所有两米以下的墙壁都被它征服了。这是一个激动人心的时期。但之后呢?它就停下了,因为剩下的墙壁都高于它的跳跃极限。
这揭示了 AI 目前在科研中的模式:它擅长广度,而人类擅长深度。
AI 的“广度”体现在,它可以将所有已知的技术、方法、定理,系统性地应用到成千上万个不同的问题上。只要一个问题的解决方案,是现有知识库中几种工具的巧妙组合,AI 就有很大概率找到它。这是一种规模化的、暴力的搜索。那50个被解决的数学问题,大多属于此类。它们之前没人解决,不是因为它们需要全新的理论,而可能仅仅是因为没有足够多的人类专家去关注它们,去尝试所有可能的组合。
人类专家的“深度”则完全不同。当一个问题无法用现有工具解决时,人类需要做的不是尝试更多的组合,而是发明一个全新的工具。这个过程不是跳跃,而是“攀爬”。你可能需要先找到一个中间立足点,建立一个引理,即便这个引理本身并不能解决最终问题,但它为你下一步的攀登提供了基础。
陶哲轩观察到,AI 在这方面表现极差。它们要么直接成功,要么彻底失败,几乎无法产生有意义的“部分进展”。AI 无法理解“我虽然没解决这个问题,但我找到了一个很有意思的中间步骤,这个步骤本身可能比原问题更有价值”。这种对“部分进展”的评估和积累,正是建立深刻理解和新理论的核心。
这直接反映在陶哲轩自己的工作流上。他说 AI 极大地改变了他的工作方式,但不是我们想象的那样。
一个常见的担忧是,如果未来 AI 解决了黎曼猜想,但给出了一个长达数百万行的、人类无法理解的形式化证明(比如用 Lean 语言写的代码),那这算科学进步吗?我们能从中获得任何“理解”吗?
陶哲轩对此非常乐观。他认为,我们不必担心“无法理解的证明”。
一个形式化的证明,就像一个可以被精确解剖的数字构件。我们可以原子化地研究其中的每一步。人类数学家(或者其他 AI 工具)可以对这个庞大的证明进行“代码重构”,做“消融实验”,移除某些部分看看证明是否依然成立,从而找出哪些是关键步骤。
AI 负责找到“存在性”的证明,而人类(或人机协作)负责从中提炼出“理解”和“智慧”。
获取证明的这个过程,本身就是一种数据分析。我们从一个“解决方案”的巨大数据集中,去挖掘其背后的深刻结构。
这引出了他另一个更具前瞻性的思考:我们现在有了像 Lean 这样描述“数学证明”的形式化语言,这使得 AI 可以被训练来生成和验证证明。但我们还缺少一种描述“数学策略”的半形式化语言。
也就是说,我们不仅需要一种语言来描述“A 推导出 B”这个逻辑事实,更需要一种语言来描述“‘先证明 C,再用 C 去证明 B’是一个很有前途的策略”这种启发式思考。这关乎合理性的评估,关乎科学家之间交流的那些微妙的直觉、叙事和信念。高斯当年仅仅通过计算大量素数,就“猜”出了素数定理的雏形。这种基于数据、直觉和统计规律的猜想能力,正是目前 AI 难以企及的。
如果能将这种“策略层”的思考也进行某种程度的形式化,那将是 AI 辅助科学发现的又一次巨大飞跃。
陶哲轩没有给出任何关于 AGI 何时到来的预测,但他清晰地描绘了在可预见的未来,AI 将如何重塑科学研究的图景。
我的理解是,我们正处在一个价值重估的时代。
第一,“想法”的价值正在被稀释。纯粹的、未经检验的想法生成,会变得越来越廉价。评价一个人的能力,将不再是看他能提出多少点子,而是看他验证和实现想法的能力。
第二,“广度”和“深度”的价值将出现分化。依赖广博知识、信息检索和组合创新的工作,其价值会被 AI 大大拉低。而那些需要建立深刻的、第一性的理解,需要发明全新概念和工具的“深度”工作,其价值将空前凸显。
最后,陶哲轩给年轻数学家的建议同样适用于我们所有人:拥抱变化,保持适应性。过去几百年行之有效的方法论和职业路径,未来可能不再适用。需要有一种更灵活的心态,愿意去探索那些非线性的、甚至尚未存在的机会。
AI 不是来取代顶尖科学家的,它是来“外包”掉科学家工作中那些重复的、可被规模化的部分,从而迫使我们将精力聚焦于那些真正无法被替代的核心智力活动上。
从这个角度看,这确实是一个激动人心,但也充满挑战的时代。我们都需要重新思考,自己的价值究竟在哪里。
热门跟贴