昨天,陶哲轩在他的个人博客上发布了一则论文更新。他在贴文中写道,“我很少写哲学性质的长篇文章,上一次大概是 2007 年。”这位菲尔兹奖得主、加州大学洛杉矶分校数学教授,刚在 arXiv 上传了一篇题为《人工智能时代的数学方法与人类思维》(Mathematical Methods And Human Thoughts In The Age Of AI) 的论文,论文的合著者是他的多年好友、跨学科学者 Tanya Klowden。

陶哲轩还补充道,这篇论文的撰写耗时超过一年,或许这听起来和当今人工智能的发展速度相比有些滞后。但他们想跳出当下人工智能与形式化工具带来的具体技术问题,而是想把视角聚焦在 AI 与人类智能关系的深度思考:他们的话题非常的广泛,从古希腊的欧几里得讲到当下的大语言模型,从数学证明的“气味”谈到十九世纪卢德分子砸毁纺织机的往事。论文将作为即将出版的《布莱克威尔数学哲学指南》中的一个章节。

(来源:陶哲轩个人博客)
打开网易新闻 查看精彩图片
(来源:陶哲轩个人博客)

过去两年,陶哲轩对 AI 工具的态度经历了一次公开的转变。在2024 年,他曾把使用 AI 做数学比作“指导一个平庸但还算有点能力的研究生”。而到了 2026 年 2 月初,在 UCLA 举办的一场名为“用 AI 加速数学与理论物理”的会议上,他的措辞变成了“AI 现在可以正式上场了”,因为它“节省的时间已经超过了它浪费的时间”。

但陶哲轩并没有因此变成技术乐观主义的布道者。他依然站在“人”的这一侧。这篇新论文试图回答的问题是:当 AI 可以生成外表光鲜、逻辑上无可挑剔的数学证明时,我们还需要人类数学家做什么?更广泛地说,当 AI 开始自动化创造过程本身,不只是通讯、计算、排版这些辅助环节,我们该如何重新定义智识工作的价值?

论文的核心论点可以概括为一句话:AI 是人类工具演进的自然延续,但它的发展必须以人为中心。这听起来像是一句正确但空洞的口号,但陶哲轩和 Klowden 花了相当篇幅来解释他们所说的“以人为中心”具体意味着什么。

首先是关于数学证明的“气味”问题。这里的“气味”可以理解成一种直觉性的体验,任何一个有经验的数学家在阅读一篇论文时,往往在逐行检查之前就已经对论证的可信度有了直觉判断。这种直觉来自于证明是否提供了“理解”,不只是显示假设蕴含结论,还能解释为什么这种蕴含是可能的,哪些步骤是关键的,哪些是常规的。论文引用了著名数学家瑟斯顿(William Thurston)的观点:好的证明不仅正确,还要提供洞见。

问题在于,当前的形式化验证系统(如 Lean 或 Rocq)只能检查证明的逻辑正确性,无法捕捉这种“气味”。一个 AI 可能产出“无味”的证明,在技术上完美无瑕,却让读者感到莫名不满,因为它没有告诉你任何关于更广泛数学领域的信息。

2024 年国际数学奥林匹克(International Mathematical Olympiad,简称 IMO)上,DeepMind 的 AlphaProof 系统解出了包括最难的第六题在内的三道题目,获得银牌水平的成绩。但陶哲轩在论文中指出,那些 AI 生成的证明“包含大量冗余或难以解释的步骤”,尽管它们都通过了 Lean 的形式化验证。

这就引出了论文的第二个关键论点:形式化验证是必要的,但远远不够,翻译错误的风险始终存在。费马大定理陈述中隐含的假设是自然数从 1 开始而非从 0 开始,一个不加注意的 AI 可能因此“证明”费马大定理是错的。更微妙的是,即使在纯粹抽象的数学领域,只有一部分论证可以被形式化;围绕这个核心的是一圈启发式、经验性、元数学的推理,这些推理提供了关于论证为何有效、是否可推广、动机何在的宝贵信息。

这些问题在数学领域已经足够复杂,推广到现实世界就更加棘手了。论文用了相当篇幅讨论 AI 的社会成本:数据中心的能源和水资源消耗、入门级工作岗位的消失、训练数据的知识产权争议、以及“数字鸿沟”。不仅是有 AI 和没有 AI 的人群之间的差距,还包括被锁定在不同 AI 生态系统中的研究者之间能力的不均衡。

Tanya Klowden 的加入则让论文有了更加广泛的关切。

图 | 陶哲轩与 Tanya 合照(来源:Instagram)
打开网易新闻 查看精彩图片
图 | 陶哲轩与 Tanya 合照(来源:Instagram)

她的背景颇为丰富精彩:首先是物理学硕士(研究课题是石墨烯的催化刻蚀)、艺术史硕士(研究 16 世纪西班牙宫廷肖像画中的合作关系),曾是舞台设计师,现在是伦敦考陶尔德艺术学院的博士研究生。陶哲轩在博客中称她为“博学者”(polymath),两人还合作撰写了一本关于天文学距离阶梯的科普书籍,即将由耶鲁大学出版社出版。这种跨学科的组合使得论文能够在技术细节和人文关怀之间自如切换:从 Lean 证明助手的语法讲到十九世纪诺丁汉纺织工人的绝望反抗。

论文中有一个引人注目的类比,现代 AI 的出现类似于天文学中的哥白尼革命,这在陶哲轩在近日接受 Dwarkesh Podcast 采访也有所提及。在古代地心说模型中,地球享有宇宙中心的特殊本体论地位;历经几个世纪的天文学和物理学进步,这种特权被逐步瓦解,取而代之的是哥白尼原理。地球只是无数行星中的一颗,不受自然法则的任何特殊对待。类似地,人类智能长期以来被视为认知宇宙的中心,但现在我们正在发现(或创造)其他与我们在很多方面可比但又截然不同的“智能行星”。

(来源:Youtube)
打开网易新闻 查看精彩图片
(来源:Youtube)

这个类比的微妙之处在于:接受地球在宇宙中的平凡地位,并不妨碍我们继续高度关心地球上发生的事情。同样,承认人类智能不再是唯一的智能形式,也不意味着我们要放弃对人类认知活动的重视。论文引用了国际象棋的例子:自从 1990 年代人类棋手再也无法战胜象棋引擎之后,国际象棋非但没有消亡,反而作为一项人类活动继续繁荣。棋手们把引擎整合进训练中,用它来重新审视旧理论、探索新战术、寻找即使是“不可战胜”的 AI 也可能存在的弱点。

但论文也承认,这种乐观的共存场景有赖于一些条件,而这些条件目前远未得到满足。作者们明确拒绝了三种极端立场:纯粹形式主义(只要符号操作正确就行,不需要理解),人类沙文主义(人类创造力有某种不可言喻的特质是 AI 永远无法复制的),以及 AI 至上主义(人类认知活动是一种苦差事,应该尽快被自动化取代)。他们认为,在这些极端之间存在哲学上的中间地带,可以为人与 AI 之间的互补共存提供有用的视角。

具体到当下的实践建议,论文提出了一个逐步演进的框架。短期内,AI 应该像烘焙中的香草精,适量添加可以提升风味,过量则会毁掉整道菜。中期内,AI 适合扮演“红队”角色,负责测试、验证、检查人类生成的内容,但不应该在“蓝队”,即核心创作环节和承担结构性职责。至于长期,论文只是提出了问题而没有给出答案:如果未来某一天,AI 在所有实际维度上都超越了人类专家,我们将如何应对那些关于智识劳动价值的根本性哲学问题?

陶哲轩在 Dwarkesh 那里接受采访时曾说,他在 2023 年预测“到 2026 年 AI 将成为数学研究中值得信赖的合著者”,现在他对这个预测感到满意。但他也坦言,AI 让他的论文更丰富了,核心突破仍然要靠纸笔完成。AI 擅长广度,人类擅长深度,二者高度互补;他认为人机混合将在数学领域占据主导地位的时间会比很多人预期的更长。

论文的最后一部分坦率地讨论了知识产权和责任归属的困境。当 AI 被应用于一个问题时,谁对错误负责?谁获得洞见的荣誉?这两者可能并不是同一方,甚至可能根本没有明确定义的“方”。传统的学术引用系统是否足以处理一个可能有数百或数千个“隐藏”贡献者的场景?仅仅引用 AI 模型本身是否足够?论文没有给出答案,但它指出,隐藏 AI 使用的做法已经在学术界引发了类似于抄袭的强烈反应,这反过来又导致一些从工具中受益的研究者更加隐蔽地使用它们。

在采访和博客中,陶哲轩反复强调一个观点:AI 的能力不是一个单一的量。同一个任务,根据你给它多少资源、多少辅助、如何报告结果,AI 的表现可以相差几个数量级。用他在 Mastodon 上的帖子来说,这就像评估一个人类学生的能力。是让他在考场上闭卷作答四小时,还是让他和导师、同学讨论几天再提交论文?两种场景测试的是完全不同的东西。

这篇论文或许不会改变任何正在进行中的 AI 开发路线图,但它代表了一种声音:来自一个在 AI 应用于数学方面走在最前沿的实践者,却也愿意停下来问一些不那么容易回答的问题。

在结尾,陶哲轩和 Tanya 在脚注中写道:“一个著名的 Tumblr 思想实验得出结论,一块香草精含量达到 44% 的蛋糕是无法食用的。”尽管我们总是幻想着它更多一点更美味。这就好像目前的 AI 使用,适量添加可以增强和丰富作品,但如果 AI 内容成为核心组成部分,将不会产生理想、有效或有价值的结果。

当前 AI 的使用量或许大概还远没到 44%,但在某些领域,例如学生作业、低质量论文、社交媒体内容……这个比例正在快速攀升。因此,论文的立场是,精灵已经出了瓶子,试图把它塞回去既不现实也可能弊大于利;现在的问题是如何与它共处,同时确保人类的需求、人类的创造力、人类的理解始终处于等式的核心。

1.https://terrytao.wordpress.com/2026/03/29/mathematical-methods-and-human-thought-in-the-age-of-ai/

2.https://arxiv.org/abs/2603.26524

运营/排版:何晨龙