置顶zzllrr小乐公众号(主页右上角)数学科普不迷路!

在全新一期 On the SAIR 节目中,菲尔兹奖得主陶哲轩(Terence Tao)与 Peter L.(SAIR基金会秘书长)展开对话,探讨 “AI for Science(人工智能赋能科学)” 真正需要的是什么:不是炒作,而是科学家能够信赖的方法。

打开网易新闻 查看精彩图片

随着 AI for Science: Kickoff 2026 活动临近,陶哲轩分享了他为何参与联合创立 SAIR:相关工具已经具备重塑科研工作的能力,但错误使用它们的方式,远多于正确使用的方式。想要用对,就需要研究人员深度参与、制定标准,并构建能让输出结果可追责的工作流程。

本次对话还深入探讨了为何数学或许是最佳试验场:当 AI 给出看似笃定的结论时,数学领域拥有相应的学术传统与工具去检验它们,包括能把每一步推理转化为精确、可机器核验的形式化验证系统。

陶哲轩与 Peter 共同探讨了:

  • 陶哲轩联合创立 SAIR——Science & AI Research 的原因,以及为何学术界必须主动引领、而非被动跟随

  • 现代 AI 存在的可靠性短板,以及为何 “看似合理” 远远不够

  • 证明辅助工具与验证机制如何在数学领域保证输出可信

  • 为何知识广度很重要,但仍离不开人类判断

  • 真正的进步是什么样的:交互式工作流程,而非一键出答案

  • 为何 “AI” 并非单一技术,以及科学家与公众使用的工具有何不同

正如陶哲轩所说:“我们不只要答案,我们同样想要过程。

SAIR 将在加州大学洛杉矶分校(UCLA)举办 AI for Science: Kickoff 2026,正式开启其公开征程。这场全球盛会汇聚了学术界、科技界与研究领域的领军人物,共同探索人工智能驱动科学的下一个前沿。

打开网易新闻 查看精彩图片

作者:SAIR基金会 2026-2-10

译者:zzllrr小乐(数学科普公众号)2026-2-14

大家好。今天我们再次请到了陶哲轩(Terence Tao。很荣幸能有机会再次采访他。接下来我们要聊的是AI for Science(人工智能赋能科学)的应用,尤其是再过几天SAIR就要正式启动了。我们很高兴能带来一些新的视角,探讨AI可以如何应用于科学研究,以及未来我们可以做些什么。那么如果您不介意的话,能否简单快速地做个自我介绍?

好的。我是Terence Tao(陶哲轩),目前是UCLA(加州大学洛杉矶分校)的数学教授。传统上,我一直专注于纯数学,但我越来越多地参与到利用AI及其他技术开展数学研究、乃至更广泛的科学研究的新方式中。最近,我和其他多位科学家及捐赠者一起,共同创立了SAIR这个全新的基金会,旨在以多种方式支持AI for Science,把这些新技术融入到科研工作流。几天后,我们将在UCLA的IPAM(纯数学与应用数学研究所)举办首次启动活动。

谢谢。我想这也是很多人关心的问题:是什么让您决定联合创立SAIR?

这是很多因素共同促成的。正如我刚才所说,过去几年里,我越来越确信,这些技术已经成熟到足以变革科学,我们必须做好准备、做好规划去接纳它们。我们需要学会以正确的方式使用它,避免错误的方式。而遗憾的是,把AI用错的方式远比用对的方式多得多,所以我们必须把它用对。

学术界必须深度参与其中。我们不能只等着科技公司给我们一个产品,然后直接拿来用。我们需要真正参与互动,弄清楚我们真正需要什么:哪些科研领域AI能帮上忙,哪些领域人类方法依然适用。

尤其是在过去一年,与此同时,很多科研经费突然出现了不确定性。比如我担任IPAM(UCLA的纯数学与应用数学研究所)特别项目主任时,我们的经费一度被暂停,很多原本计划开展的项目都不确定能否继续。所以当时确实到了需要寻找新的资金来源、接触更多新的投资者与合作伙伴的时候。这段混乱时期带来的一点积极结果是,IPAM如今有了很多新的项目,包括这次的合作。

我认为,具体到数学领域,AI的能力格外强大。您是否认同这一点?

我认为它拥有格外巨大的潜力。现代AI工具,尤其是大语言模型(large language models),最大的阿喀琉斯之踵(Achilles' heel,致命弱点)是它们并不稳定:有时能给出非常出色的答案,有时又完全是胡说八道。它们不扎根于现实,只是在统计上匹配它们认为“合理”的答案,偶尔会给出极其优秀的结果。

正因为如此,AI在很多其他学科的应用效果,并没有我们最初期待的那么理想,核心问题就是不可靠性。但在所有应用领域中,数学几乎是独一无二的——我们拥有非常成熟的验证输出能力。如果有人给我一份数学证明,或是某个数学命题的声称证明,我们可以借助逻辑法则与数学法则,检验论证是否正确。现在我们甚至可以用计算机来完成这件事,我们有形式化证明助手语言可以自动完成验证。

这在某种程度上能“约束”AI的行为,而这在其他任何学科中都更难实现。因此,数学最有希望过滤掉AI所有不好的应用场景,只保留好的部分。当然这并非完美,并非数学的每一个方面都能被形式化验证。证明是数学的重要部分,但还有其他工作:比如提出新的猜想,或是把内容清晰地解释出来。很多数学任务目前AI还不擅长,但至少在我们做的一部分工作中,潜力非常大。

我完全能理解这一点。您刚才提到了用于验证AI工作成果的程序。随着这类程序出现和发展,您认为未来会不会有一天,我们能拥有足够稳健的程序,让AI持续生成想法并自动验证,从而创造出新的东西,而不局限于我们已经规划好的内容?

这正是我们的希望。目前,如果你让AI生成想法,它会产出各种随机内容,也许只有很小一部分真正有价值,但我们暂时还无法验证这些想法。不过我们或许可以从自然科学中借鉴一些思路。物理学家或化学家提出一个假说后,可以通过实验收集支持证据——这算不上严格证明或证伪,但有办法增强或削弱对这个假说的信心。

我确实能预见,数学会比现在拥有更多实验性的一面。目前数学几乎完全是理论性的,而借助AI,AI可以提出假说,甚至可能提出检验这些假说的“实验”。比如你猜想某个公式对所有自然数成立,就可以检验若干数值案例、寻找其他特例、检查它是否与文献中的其他结论兼容。这类应用目前还处于初期阶段。同样,因为我们暂时还不具备完善的验证能力,进展相对缓慢,但随着我们正确使用AI的专业能力不断成熟,我相信这一天会到来,不过可能还需要10年左右。

说实话这比我预想的要好。10年听起来很久,但放在科研领域其实不算长。发展速度比我预期的要快。有些人的期望值非常高,以为到现在数学家或科学家都该被AI取代了。但现实是,AI已经能够证明一些此前未被标准方法证明的定理,也能发现我们之前没注意到的patterns(模式、规律)。它依然非常不可靠,但潜力确实存在,我们需要研究如何正确、如何错误地使用它。

我认为AI非常擅长的是高度结构化重复,也就是有严格指令、可以反复执行的任务。它的意义在于帮我们节省时间,让我们去做更困难、更有创造性的工作,对吧?

没错。AI和人类不一样。有点可惜的是,目前AI的市场宣传,甚至“artificial intelligence(人工智能)”这个名字本身,都让人觉得它是在取代人类。但人类其实很不喜欢做高度重复的任务。比如在数学里,给你一千道题,人类可能只会认真做前一两道,剩下的998道交给AI去完成就再好不过了。

所以我认为,也许10年后情况会变,但短期内最自然的分工是:人类启动一个数学项目,给出前几步思路和预期方向,然后AI把这个框架充实完善,完成所有繁重的基础工作。这可以极大地加速现有的工作流程。

说到底它只是一个工具,对吧?就是用来帮我们简化大量流程。我还想请教另一个问题:当AI给出看似随机的解释时,我们能做些什么?很多时候AI会给出看似合理、好像正确的答案,但实际上大量内容都是无意义的。您认为我们该如何改进这一点?

在数学领域,目前我们找到应对这个问题最好的办法就是形式化验证(formal verification)。AI可以先给出一段自然语言论证,可能对也可能错,然后我们让同一个或另一个AI把它转换成形式化语言(formal language)。每一个论断都必须被转换成精确语言,再由一个非常严格的编译器(compiler)验证——这个编译器不是AI,而是传统的、高度可靠的软件。它被专门设计得极其稳定,主流证明辅助语言的编译器至今没有出现过重大漏洞。

如果通过验证,就说明成立;如果没通过,我们就让AI再试一次。通过验证后,我们会得到一长串AI生成的形式化证明(formal proof),可能不太易读,但我们可以反过来让另一个AI来解释它。而且形式化证明的好处在于,证明里的每一步都非常精确。你可以手动把这个大定理拆成若干部分,分别研究。

即便这份形式化证明长达数千行,你依然可以分析它——可以由人类、AI或两者结合完成。我们已经有很多这样的案例:AI先给出一份我们一开始看不懂的证明,我们对它进行反编译(decompile,拆解)后,有人就能用人类的语言解释清楚背后的思路。

到目前为止,每次AI给出那种“凭空出现”的惊艳证明,我们经过几天研究后都会发现,其实文献中早就有类似思路的论文。AI相比人类的一个优势是,它可以吸收几乎全部文献。它不会直接记住所有内容——它的内存与参数不足以做到这一点——但它能吸收大量技巧的精髓。

人类数学家可能很擅长用四五种技巧解决某类问题,而AI可能掌握十几种。它不一定总能正确应用,有时会失败,但它的广度非常强,至少在处理文献中已有内容时威力巨大。我们目前还没看到AI能提出完全没有文献先例的原创想法,但话说回来,大多数人类数学家也很难做到这一点。

这确实很难,尤其是现在很多AI都依赖已有信息。这就引出我的下一个问题:您认为AI发展的一个重要里程碑会是什么?是思维方式、理解能力,还是应用层面?

我们仍然期待看到很多东西。一是真正拥有无法追溯到已有文献的创造力。二是某种针对特定知识体系的持续学习与微调能力。

我自己曾把当前AI在数学上的能力比作一名数学研究生:知识量很大,掌握一套方法,会去尝试,有时成功有时失败。但人类研究生有一个特点:如果尝试失败了,我们和他交流,指出错误,他就会学会不再犯同样的错,下次再遇到就会避开。

但AI不一样,你新开一个会话,它就把之前的一切忘了。你可以保留上下文,它会短暂记住不要做某事,但并不可靠。甚至有个很常见的现象:你越告诉AI不要做什么,它反而越容易去做。

而且我们现在用的都是通用AI,在所有数据上训练,还无法把AI蒸馏(distill,提炼/专精)成只做数学的专用系统,就像人类研究生可以专攻一个研究方向那样。我们目前只能做少量微调(fine-tune),远达不到想要的效果。

但我最希望看到的,是一种真正稳健、能把AI融入我们工作流(workflows)的方式。现在我们都是用各种临时办法使用AI:写论文卡住了,打开浏览器,点开聊天工具,用一下AI。有人试过把AI变成代理(智能体agent),让它控制电脑——说实话出于很多原因这并不是个好主意。它还没有真正成为一名“共同作者”。

和人类合作者工作时,你们可以在黑板前讨论、写公式、交流。和AI聊天有点类似,但还没有那种浑然一体的协作感。数百年来,我们已经打磨出和人类合作的最佳方式,但和AI合作的最佳方式我们还没完全摸索出来。

如果让您说,目前工作流程推进中最缺的是什么?

这是个好问题。可能是某种无形的东西。有点像疫情期间我们全都转向线上会议。你可以说线上会议完全够用,只是聊天而已,在屏幕前和面对面有什么区别?但面对面交流确实有一些无形的东西:眼神交流、肢体语言。

和人类交流时,你们说的话、在黑板上写的公式,只是对话的一部分,还有很多其他信息在传递,而这些在和AI互动时无法被捕捉。

我理解。另一点是和其他人的相互协作,互动感比AI强得多。

没错。AI公司倾向于展示“一键完成”式的成品:按一下按钮,AI就给出完整解决方案,而你本人没有参与解题过程。这样一来,如果你要向别人解释这个方案,你根本解释不了;你想修改它,也只能回头再让AI改,每次修改效果都会变差一点。

所以理想情况下,我们需要更互动的体验:你走一步,AI走下一步,你给出反馈,它进行修正。在这个互动过程中,你才能理解证明是如何形成的。人类写出证明、解决问题后,可以解释思考过程、尝试过的思路、受到哪些文献启发。但AI生成这些证明产物(proof artifacts)时,有时不会附带任何来源记录,只给出一个答案。

而我们后来意识到,这只是我们想要的一部分。我们不只要答案,我们还想要过程。一旦我们找到把AI整合进来的方法——也许关键就像用盐:少量提味,不能整罐倒进去,用在合适的时候,不用在不合适的时候。

我觉得很棒。而且科研本身通常也不是立刻得到答案,往往是一个漫长的过程,在已有基础上不断迭代,有时甚至不一定能得到最终答案,对吧?

是的。人类其实非常不擅长精确设定目标。而AI的特点是,它太擅长完成目标了,有点像神话里的精灵,会非常字面地实现你的愿望。你说要优化某个指标、解决某个问题,它就会耗费大量算力和精力,严格按你的要求去做。

结果你常常会发现,比如我让AI在某种形式化证明助手语言里形式化证明,不惜一切代价给出证明,它就会走捷径:自创公理、修改定义,用各种方式严格满足你字面上的要求,却违背本意。

我们正在学习,给AI下达任务,尤其是需要高度精确说明(specifications)的任务时,必须把一切描述清楚,确保没有漏洞,清晰想明白自己真正想要什么。就拿证明来说,我们不只要答案,还要理解:它和现有文献有什么联系、能解决哪些其他问题、如何向他人解释这个结果。

以前我们不需要过多考虑精确目标,因为让人类做事时,他们通常不仅会完成你明确要求的部分,还会做好你隐含希望的所有事。比如你让人倒杯茶,对方不会直接把茶泼在你身上,而是会连杯子、托盘一起准备好。即便你没有明确要求,对方也理解背后的语境。AI有时能理解语境,有时则不能。所以我们必须更擅长明确目标,才能最好地使用AI。

这个视角很有意思:AI只专注于回答问题,却不确保把所有事情都弄对。也许这正是目前限制它发展的核心问题。

可以这么说。这其实是整个机器学习(machine learning)的理念。过去并非如此,传统AI并不那么基于目标,早期AI试图构建模仿人类思维的推理系统(reasoning systems),但进展艰难,只能完成非常基础的任务。

后来有人尝试了相反的思路:只指定一个目标,不计较方式是否笨拙、是否符合逻辑,只管尽可能优化衡量目标距离的指标。一开始效果并不好,但随着算力、数据和规模不断提升,效果越来越好,突然跨过一个阈值,就变得相当出色。

但问题是,它有时过于“优秀”,只会严格优化你设定的指标。有很多机器学习的例子:你让AI打赢一个电脑游戏,它总会找到exploits(漏洞/作弊方式),利用代码里的bug,违背游戏精神,但却严格完成了你要求的任务。

我的最后一个问题是:您认为人们在科学中使用AI时,最常见的误区是什么?

对大多数人来说,现代AI就是聊天机器人,会跟你说“您的观察很棒”这类让你心情好的话。有些科学家确实用聊天机器人辅助思考,但AI for Science最高效的应用其实完全不同。

通常是和验证结合在一起,比如我经常用它做数值计算(numeric computation)、画图、检验某个论证。科学家使用AI的方式和公众很不一样,比如我们不会用它生成很多好看的图片,那对科研用处不大。

遗憾的是,人们把AI笼统地当成一项单一技术,可它实际上并不是一项技术,而是数百种相关技术的集合。最受关注的那些,往往不是科学界最常用的。也许我们应该有更细致的命名,不要把所有东西都叫AI。

现在其实已经有generative models(生成模型)、LLMs(大语言模型)、algorithms(算法)等区分了,但公众通常只关注“AI”这个统称,不关心它们的区别、用途和运行原理。但我认为运行原理才是最重要的,因为它从根本上决定了AI在做什么、准确度有多高——对科研来说这至关重要。

是的。神经网络(neural networks)是已经有20年历史的技术,虽然不像现在的大语言模型那么吸引人,但科学家已经用了很多年,效果非常好。它没有文本界面,只是用来在数据中寻找规律,用神经网络做数据科学(data science)效果出色,但过程非常普通、枯燥,就是数值计算,完全不像和科幻机器人对话那样酷炫。

好的,我们的采访到此结束。再次非常感谢您的到来,这是第二次采访,非常愉快。

我也很荣幸。

好的,谢谢。

参考资料

https://sair.foundation/event/ai-for-science-kickoff-2026/

https://www.youtube.com/watch?v=Z5GKnb4H_bM

https://sair.foundation

https://flive.ifeng.com/live/1016492.html

小乐数学科普近期文章

·开放 · 友好 · 多元 · 普适 · 守拙·

打开网易新闻 查看精彩图片

让数学

更加

易学易练

易教易研

易赏易玩

易见易得

易传易及

欢迎评论、点赞、在看、在听

收藏、分享、转载、投稿

查看原始文章出处

点击zzllrr小乐

公众号主页

右上角

置顶加星

数学科普不迷路!