★置顶zzllrr小乐公众号(主页右上角)数学科普不迷路!
2月11日,陶哲轩在UCLA(加州大学洛杉矶分校),发表首场主题演讲《机器辅助与数学研究的未来》:
作者摘要:
近年来,多种机器辅助的数学辅助方式迅速成熟,尤其是在形式证明助手、大语言模型、在线协作平台及其相互作用方面。我们回顾了这些发展,并推测它们将如何影响未来的数学研究实践。
核心要点笔记(极简版)
- 数学很保守
教材、黑板、小团队合作,两百年来变化很小。
- AI 带来三大突破
规模化研究、大众可参与、形式化验证过滤错误。
- 埃尔德什问题集现状
AI 成功率约 1%–2%
能解决关注人少、中等难度问题
暂时啃不动顶级难题
- 未来模式
人类主攻深度思想
AI 负责检索、计算、批量尝试、形式化
社区 + 工具 + 验证 = 新数学
- 长期判断
AI 会变成标配工具,而非取代数学家
跨学科合作(数学 × 物理 × 生物)也将因此受益
以下正文为完整演讲内容(含Q&A问答环节)
作者:陶哲轩(Terence Tao) & SAIR基金会 2026-2-11
译者:zzllrr小乐(数学科普公众号)2026-2-15
陶哲轩演讲全文
嗯,我们能建立的所有这些新联系……我觉得 IPAM(加州大学洛杉矶分校纯数学与应用数学研究所)这个平台的核心就是搭建交流与联结,而今天这场活动,正是探讨一个非常重要话题的绝佳场合。
好的,那我接下来要讲的是数学正在如何发生改变。过去几年里,大家能明显感受到一股热潮:AI人工智能和各类工具在数学以及其他领域的能力越来越强。但我认为,真正的变革,是从今年才真正开始落地的。
说实话,数学这门学科早就该迎来一些革新了。因为在很多方面,我们是一个极度保守的领域——不是政治意义上的保守,而是研究与教学方式上的保守。
我给大家举两个例子。
差不多 201 年前,柯西写过一本专著,奠定了复分析的基础,比如大家熟知的柯西公式。这本书是用法语写的,不是拉丁语——(笑声)——但除此之外,它和你今天看到的教材几乎一模一样。我们现在教数学的方式,只在次要细节上有变化。一个研究复分析的研究生,基本上能完全看懂那本两百年前的书。
还有,我们至今仍极度依赖黑板。数学几乎是唯一一个还在大量使用黑板的学科,甚至到了摄影师都把黑板当成一种艺术形式的地步。事实上,杰西卡·温就出过一本很精美的画册,专门拍摄数学家的黑板,把它当作一种别处看不到的独特艺术。(笑声)
所以我们这个领域确实有点与众不同。
再比如,我们的合作程度非常低,至少直到最近都是如此。哪怕和其他自然科学比也是这样。这里有一张十年前的图表,统计的是数学、化学、物理论文的合著人数。几十年来,数学论文的合作者一直停留在 1~2 人;而其他学科早就意识到,现代研究需要广泛协作、多元团队。我们在这方面明显落后,没能跟上科学规模化、产业化的趋势。
这背后是有原因的,不只是因为数学家“不爱社交”。(笑声)
首先,数学的入门门槛极高,很多问题甚至需要数学博士才能理解题意。
其次,我们对证明的严谨性要求极高。我们希望每一步都绝对正确。如果 10 个人合作,只要有一个人不可靠、给出的论证站不住脚,要么所有人都得逐一核对——这非常繁琐——要么整个工作流程就无法规模化。
黑板在两三个人讨论时非常棒,和思维同频的人一起在黑板上推导问题,体验堪称绝佳。
但如果是 20 人、50 人,分布在不同国家,你就没法靠一块黑板、甚至靠 Zoom 真正解决一个复杂问题。
所以,数学不像其他学科那样与时俱进,是有客观原因的。
但我认为,随着技术发展,这一切即将改变。
过去一两年,我们终于开始出现大规模合作项目。
我喜欢打一个比方:
在实验科学里,有两种研究模式:
一种是个案研究——盯着一个对象,做深度、细致的分析。这很像传统数学:盯着一个问题、一个概念,仔细钻研。
另一种是群体普查——研究上千个样本,做数据分析、统计,看比例、看规律。
而在数学里,我们一直做不到第二种,因为直到最近,我们都没有工具能系统地研究“一大批问题”。
现在,我们终于可以开始广泛参与了。
在其他科学里,早就有公民科学:业余爱好者可以收集蝴蝶、观测彗星、采集水样……哪怕数据没那么完美、有噪声,依然能用。
而直到不久前,数学还做不到这一点,除了找大素数等少数项目能吸引爱好者参与。
但现在,数学也可以了。
我们开始出现这样的项目:贡献者不只是职业数学家,还有研究生、中学生、计算机行业、科技行业的爱好者,利用业余时间参与。
越来越多人能用有趣的方式为数学做出贡献。
当然,还有人工智能。
AI 发展得极快,现在已经能实时助力这些项目,带来的效率提升远大于它带来的麻烦。我们已经跨过了这个临界点。
而让这一切真正运转起来的,还有一个秘密武器:
形式化验证。
自动检验论证是否正确的技术取得了巨大进步。
哪怕来自 AI、大众或大规模项目的贡献并不完全可靠,我们也有办法过滤掉不可信的内容,留下优质成果。这一点带来了颠覆性改变。
我这几年多次讲过类似内容,以前通常会列举 AI、神经网络在单点问题上取得的进展。
但正如我所说,我们现在进入了规模化时代。
所以今天我只重点讲一个“群体研究”案例,我把它叫做一次样本普查——就是最近在社交网络上很火的:
埃尔德什问题集。
https://www.erdosproblems.com
它是第一批能让我们系统用上所有这些新工具的大规模问题库,可以清晰看出哪些方法有效、优势和局限在哪里。
保罗·埃尔德什(Paul Erdős, 1913—1996)
保罗·埃尔德什是 20 世纪一位极其多产的数学家,发了 1500 多篇论文,至今可能仍是纪录保持者。他几乎和所有人都合作过。(笑声)他特别喜欢提问题,我 10 岁见过他,他当场就丢给我一个问题,我们一起研究,虽然没解决,但后来被别人解决了。
他最有名的特点之一,就是不断提出问题,有些还设了现金奖励。大部分奖金不高,几十美元,但有少数问题影响极大。
比如其中一个问题,他悬赏了 5000 美元,至今仍是开放问题。我本人也研究过它的一些方向,很多阶段性成果都发在了顶级期刊。
埃尔德什很擅长提出这种好问题:non-trivial(非平凡),也不是完全不可能,刚好处在只要有进展就很有价值的边界上。
他把这类问题叫作橡子:需要深刻、精妙的新洞见,最终能长成参天大树。
但他提了大约一千多个问题,不都是“橡子”。
有些后来发现简单得离谱。
比如他问过一个阶乘方程有没有解,看上去像个经典数论问题。几十年后人们用计算机一搜就发现:无解,有非常直接的反例。
https://www.erdosproblems.com/399
他自己也知道这类问题,把它们叫作棉花糖:只是一口小甜点,短暂有趣一下。
所以这一千多个问题难度差异极大。
这里我要先澄清一个误区:
最近社交媒体上,有些 AI 公司宣传“我们解决了 5 个、6 个埃尔德什问题”,仿佛数学家的工作就是天天解这种题。
我必须先说明:解题只是数学研究的一部分。
我们更关心理解概念、沟通、简化、建立理论。解题的意义,往往不在于问题本身有多少应用,而在于解题过程中会发现新方法。
比如等差数列相关问题,直接催生了整个加性组合领域。
但不管怎么说,这一千个问题,有解的、未解的,在计算机科学家眼里,非常像一个基准测试集。
它不是官方基准,但非常诱人:你可以拿新 AI 工具来测——能解多少个?
它成了一个很好的数据集,用来快照式评估当前工具的水平,还能做对比实验:哪种 AI 用法更有效?只看一两个成功案例看不出来,但一千个问题就可以做数据分析。
当然,这里也有不少炒作。我直接说结论:
目前 AI 并没有在数学家最关心的那些顶级难题上取得突破。
它解决的,大多是关注度不足的问题:只在论文里出现过一两次,几乎没有后续文献,没人认真深挖。
但 AI 可以规模化,所以它能帮我们清理掉一大批被人类忽略的“低垂果实”。
即便如此,AI 的能力提升绝不是纯炒作,是肉眼可见的真实进步。
对我来说,这些进展真正展示的是:
数学可以有一种互补的新模式。
传统上,人类小团队花数月攻克难题,我们会继续这么做。
但同时,我们可以让 AI 去规模化扫荡一千个问题,把所有简单可解的先解决掉:把 20 种技巧自动套用到一万个问题上,看哪些能直接攻破——这就是现在 AI 能做到的。
我们还能做统计。
从去年 9 月起,我们开始追踪数据:
这一千多个问题里,目前还有 699 个未解决;已解决大约 480 个,数量一直在稳步上升。AI 大约从某个节点开始大幅贡献;还有一次激增是因为文献检索工具出现,AI 从旧文献里挖出了一堆早已被解决但没被统计进来的答案。
最近几周增速有所放缓,可能是因为有新的基准出现,吸引了大量注意力。
同时,我们还在把很多证明形式化,用 Lean 语言进行机器验证。
很多进步现在看起来平平无奇,但半年前还觉得很震撼,就像当年的网页搜索:刚出现时惊为天人,现在习以为常。
现在的深度研究工具,可以让 AI 检索海量文献,跨语言、跨领域,找到几十年前某篇论文里的相似结论,稍微修改就能解决当前问题。
我们终于有了语义检索,这是我们多年想要的能力。
AI 偶尔会编造参考文献,但至少文献检索可以手动核对。
就这样,二三十个埃尔德什问题被解决。
现在用 AI 生成代码、做数值实验也极其简单。
更重要的是形式化速度大幅提升:
以前把非形式证明转成可机器检查的形式证明要花几周,现在几小时就能完成。
这对和 AI 合作至关重要,因为 AI 生成的几页证明常常夹杂错误,没人有时间逐行看,但自动转成形式证明后,能不能通过一目了然,我们就能处理大量 AI 输出的证明。
我自己最近一篇论文也用到了 AI:用它验证结论、画专业级图表,比自己写 Python 快得多。
哪怕只做这些辅助工作,AI 已经非常优秀。
这就是形式化证明的样子,有点像数学和 Python 的混合体。对专家来说有点冗长、不够优雅,但只要能编译过,我们就满意了。优雅可以以后再优化。
我们能取得这么多进展,还有一个关键:社区。
Thomas Bloom 非常努力地建立了社区、论坛和规则。
我们既不极端捧 AI,也不极端反 AI。
论坛允许 AI 生成的解法,但有明确规则:
必须披露、必须总结、必须对内容负责、不能刷屏、长内容放链接。
这套合理的规则运行得很好,避免了被低质 AI 内容淹没,传统数学家和 AI 辅助研究者之间有了建设性交流。
我快速举两个真实的人机协作案例:
第一个是问题 367,严格来说还没完全解决,它有两个不等式。
AI 证明了其中一个,另一个仍开放。
https://www.erdosproblems.com/367
过程是:
一位参与者做数值实验,得到一个构造,但需要证明一个恒等式;
我登录论坛,没手推,直接把问题给了 Gemini,它用稍复杂的工具证明了缺失步骤;
我把证明简化解释在论坛;
第三个人把证明喂给 AI 自动形式化工具,转成 Lean 代码,验证通过。
这就是典型的人机协作链条。
第二个例子,也是最后一个:
问题 1026,我们完全解决了。
https://www.erdosproblems.com/1026
它可以理解成一个硬币游戏:
爱丽丝把硬币分成 n 堆,鲍勃只能选单调递增或单调递减的堆,要让自己拿到最多硬币;爱丽丝要让自己损失最少。
问题是:这个游戏的公平价格是多少?也就是 c(n) 是多少?这就是埃尔德什的问题。
论坛里有人用线性规划算出小 n 的情况,提出猜想:
如果堆数是平方数 k²,最优比例是 1/k。
后来用深度检索发现,这个猜想 1980 年就有人提过,只是我们不知道。
两个月没进展,直到有人把猜想喂给自动证明工具,居然证出来了。
AI 把硬币问题巧妙转化成了小正方形填大正方形的问题,我们都很意外。
后来发现 1959 年有过类似技巧,2016 年也有人用别的方法解决过平方情况。
所以这不是全新的开放问题突破,但方法很有创造性。
但它只解决了平方数情况,那非平方数呢?
线性规划到后来规模指数爆炸,算不动。
我用另一个 AI 工具 AlphaEvolve,算出直到 n=16 的最优或近似最优分堆方式,观察规律,给出 c(n) 的猜想;
合作者又把猜想简化;
再后来有人发现,这个函数和另一个正方形装箱问题里的函数几乎一样,而那个问题两年前刚被解决。
把这些拼在一起,我们最终完整解决了问题 1026,并且已经形式化验证。
这是非常迷人的人机协作过程。
总结
AI 已经让数学以前所未有的规模、速度展开新可能,参与者也空前广泛。
最重要的是:当你有一套系统化的问题或任务数据集,很多好事就会发生。
计算机科学早就懂这一点,但数学家以前不够重视数据集。
现在,有了好的任务集,有大量工具,有很多非职业数学家愿意尝试,就会出现各种意想不到的进展。
AI 显著降低了数学的入门门槛。
有些问题甚至是高中生在 AI 辅助下解决的,而且能用 Lean 严格验证。
另一点至关重要:验证机制。
大家都见过不加验证的 AI 会带来什么。
AI 本身已经很强,但人机协作的潜力才更大,尤其适合长尾应用。
对于最难的那几个顶级难题,目前还不清楚怎么直接应用这套方法;
但如果是一千个中等难度问题,AI 非常强大。
我的分享就到这里,谢谢大家。
(掌声)
问答环节
问:您最后说 AI 的应用非常场景化。五年、十年后还会是这样吗?
答:技术上可能仍然是场景化的,但我们会学会怎么正确使用它。
可以类比维基百科:刚出现时,学生直接抄到作业里,老师想禁止。后来大家明白:维基百科不是用来给最终答案的,而是起点、参考文献,需要自己判断。
现在没人禁止维基百科,因为我们懂了用法。
AI 会走同样的路。
五年后,学界会形成成熟文化,知道 AI 能做什么、不能做什么,不再需要纠结“好 AI”、“坏 AI”的问题。
问:那些很难的著名问题,比如你证明的那个定理,AI 能解决吗?
答:目前还不能。
有人把一千个问题挨个喂给 AI,成功率大约 1%~2%,已经很惊人。
但目前解决的,都是研究较少、解法较短、比较标准的问题。
对于需要艰深独创方法的难题,AI 还没有给出过人类从未见过的全新思路。这是我们当前的状态。
问:那提出猜想呢?
答:好问题。
这个网站目前不接受外来新猜想。
但猜想是潜在的重要方向。
问题有明确“解/未解”,有评分目标,AI 很擅长优化。
但猜想有用/没用,很难评分。随机生成猜想很容易,生成有用的猜想很难。
短期来看,更可能的模式是:
人类提出猜想,AI 来评判、尝试证伪、用例子检验、给出反馈。
AI 自主提出高质量猜想,暂时还做不到,但会是重要方向。
问:你说 AI 帮助数学解决中等难度问题,那它对数学和物理、生物等学科的交叉有帮助吗?
答:目前跨学科合作依然很难,往往只有同校刚好有重叠方向的人才会合作。
如果能让数学家更多参与应用数学,会非常棒。
我们下个月就有活动,把物理学家和数学家聚在一起做这件事。
AI 应该会有帮助,比如解释基础概念:我和物理学家合作,我不懂量子场论,让 AI“用数学家能懂的方式讲给我听”,这很有用。
不过有一点区别:
数学之所以能很好地用 AI,是因为我们有严格验证,能过滤错误。
换到其他学科,验证没有这么严密,但依然有空间。
更广泛的参与,也包括让数学家参与物理、化学、生物项目。
好的,再次感谢大家。
参考资料
https://www.youtube.com/watch?v=SuTxpKggY30
https://sair.foundation/event/ai-for-science-kickoff-2026/
2026AI科学盛典——圆桌讨论《AI与高等教育变革》会议全文
2026AI科学盛典——圆桌讨论《AI与数学》会议全文
2026AI科学盛典——诺贝尔奖得主巴里·巴里什(Barry Barish)主题演讲全文《LIGO:十年新科学》
https://www.erdosproblems.com/367
https://www.erdosproblems.com/26
小乐数学科普近期文章
·开放 · 友好 · 多元 · 普适 · 守拙·
让数学
更加
易学易练
易教易研
易赏易玩
易见易得
易传易及
欢迎评论、点赞、在看、在听
收藏、分享、转载、投稿
查看原始文章出处
点击zzllrr小乐
公众号主页
右上角
置顶加星★
数学科普不迷路!
热门跟贴