★置顶zzllrr小乐公众号(主页右上角)数学科普不迷路!
EPFL(洛桑联邦理工学院)很高兴与大家分享近期《纽约时报》于2026年2月7日刊登的对其主任马丁·海勒教授的专访 。在这次内容广泛的对话中,海勒教授反思了人工智能与数学研究之间不断演变的关系,探讨了人工智能在解决深奥的数学问题方面能够做什么,以及不能做什么。
作为菲尔兹奖得主,他结合自身经验,深入剖析了当今的前沿实验、现有人工智能系统在证明原创性结论方面的局限性,以及人类创造力在数学领域经久不衰的作用。此次访谈为我们提供了一个富有洞见的视角,让我们得以了解人工智能如何重塑数学研究,同时也重申了严谨数学思维的基础性重要性。
作者:EPFL洛桑联邦理工学院官网 & Siobhan Roberts(纽约时报记者)2026-2-11
译者:zzllrr小乐(数学科普公众号)2026-2-12
《纽约时报》原文标题——对话:这群数学家正在测试 AI人工智能
大语言模型难以解决研究级别的数学问题。要判断它们到底有多差,还得靠人类。
马丁・海勒身着深绿色高领毛衣,在写满公式与图表的黑板前留影。
马丁・海勒(Martin Hairer),瑞士洛桑联邦理工学院数学家。他同时在该校与伦敦帝国理工学院任职。
图片版权:Aurelien Bergot,《纽约时报》
文 / 西沃恩・罗伯茨(Siobhan Roberts)发表于2026年2月7日
更新于2026年2月10日
几周前,一名高中生给以惊人创造力闻名的数学家马丁・海勒(Martin Hairer)发了一封邮件。这名少年立志成为数学家,但随着AI人工智能的崛起,他开始产生怀疑。“很难理解到底发生了什么,” 他写道,“感觉这些模型每天都在进步,用不了多久,我们就会变得毫无用处。”
他问道:“如果有一台机器在解题上远比我们厉害,数学难道不会失去一部分魔力吗?”
海勒博士于 2014 年获得数学界最高荣誉菲尔兹奖(Fields Medal),并于 2021 年获得奖金丰厚的科学突破奖(Breakthrough Prize)。他同时任职于瑞士洛桑联邦理工学院(EPFL)与伦敦帝国理工学院(Imperial College London)。在回复这名学生时,他指出,很多领域都在面对 AI 带来的 “被淘汰” 焦虑。
“我相信数学其实相当‘安全’。” 海勒博士说。他提到,大语言模型(LLM)—— 也就是聊天机器人的核心技术 —— 现在确实很擅长解决人为设计出来的题目。但他表示:“我还没见过任何一个可信的例子,能证明 LLM 提出了真正全新的想法和(或)概念。”
海勒博士在谈论一篇题为
First Proof(首轮验证)的新论文 https://arxiv.org/abs/2602.05192 时,提到了这段对话。这篇论文由他与多位数学家合著,包括:斯坦福大学的穆罕默德・阿布扎伊德(Mohammed Abouzaid)、哈佛大学的劳伦・威廉姆斯(Lauren Williams)、运营旧金山湾区咨询公司 MathSci.ai 的 塔玛拉・科尔达(Tamara Kolda)。
这篇论文介绍了一项刚刚启动的实验:收集来自作者未发表研究的真实测试题,旨在为 AI 的数学能力提供一次有实际意义的衡量。
作者们希望,这项研究能为 “AI 已‘攻克’数学领域” 这类常常过于夸张的叙事增添更细致的视角,并减轻炒作带来的后果 —— 比如吓走下一代学生、让科研资助者却步。
“尽管商用 AI 系统无疑已经达到了可以成为数学家有用工具的水平,” 作者们写道,“但在没有专家介入的情况下,AI 系统独立解决研究级数学问题的能力究竟如何,目前仍不明确。”
AI 公司使用一些数学家口中 “人为编造” 或 “限制条件过多” 的题目,来评估和评测 LLM 在无人辅助下的表现 【https://epoch.ai/frontiermath 详情参阅 】。有时,他们会邀请数学家出题,每题报酬约 5000 美元。(First Proof 项目的所有作者均与 AI 公司无任何关联。)
去年4月,2017 年数学新视野奖(New Horizons in Mathematics Prize) 得主阿布扎伊德博士拒绝了这样一份邀请。
“我认为应该有一项更广泛、独立且公开的行动。” 他说。他补充道,First Proof 项目就是第一轮尝试。
“目标是对 AI 的研究能力做出客观评估。” 近期获得古根海姆学者与麦克阿瑟学者称号的劳伦・威廉姆斯(Lauren Williams)博士说。
劳伦・威廉姆斯身着深红色高领毛衣,在哈佛大学一栋建筑的栏杆旁留影。
哈佛大学的劳伦・威廉姆斯。
图片版权:露西・卢(Lucy Lu),《纽约时报》
在这项实验中,来自不同数学领域的作者们,每人贡献了一道来自自己正在进行但尚未发表的研究的测试题。他们也确定了答案;这些解答已在线加密,将于2月13日公布 https://1stproof.org 。
“我们的目标是理解边界 ——AI 究竟能在多大程度上超越它的训练数据和在网上找到的现有解法?” 科尔达博士说。她是少数当选美国国家工程院院士的数学家之一。
研究团队对 OpenAI 的 ChatGPT‑5.2 Pro 与谷歌的 Gemini 3.0 Deep Think 进行了初步测试。作者写道,在仅给一次作答机会的情况下,“目前公开可用的最佳 AI 系统在回答我们的许多问题时都十分吃力。”
论文引言对标题做出了解释:“在烘焙中,首轮发酵(first proof首次醒发)是关键步骤:将整团面团作为一个整体发酵,之后再分割、塑形为面包。” 在发布第一批测试题后,团队邀请数学界共同探索。几个月后,在意见与思路 “发酵” 之后,将开展第二轮更结构化的评测,使用全新一批题目。
团队赶在欧拉日(Euler Day)——2月7日,星期六 —— 发布了 First Proof 论文。该节日以 18 世纪瑞士数学家莱昂哈德・欧拉(Leonhard Euler) 命名。日期对应欧拉数,一个像圆周率 π 一样用途广泛的数学常数,约等于 2.71828……,记为 e。神经网络 AI 系统的训练,基于欧拉为求解常微分方程所发现的方法,即欧拉法(Euler’s method)。
以下对话通过视频会议与邮件进行,经精简与编辑以便清晰阅读。
问:First Proof 方法与其他评测工作相比,新颖之处在哪?
穆罕默德・阿布扎伊德(Mohammed Abouzaid):最主要的新颖点是,我们的测试题真正取自我们自己的研究—— 从我们关心的问题出发。在这个范围内,我们尝试设计可以被测试的问题。
问:什么样的问题适合用来测试?
当前的 AI 系统有一些公认的局限。比如,它们在视觉推理上出了名地差,所以我们避开了这类问题;如果我们的目标是刻意刁难,就会出带图的题。
而且,公司会限制模型单次回复的长度,因为超过一定长度后答案质量会下降,所以我们确保避免答案需要超过五页篇幅的问题。
问:论文谨慎地澄清了 “什么是数学研究”。它到底是什么?
阿布扎伊德:在现代研究中,关键一步往往是识别出核心驱动问题,以及应该从什么方向去处理这个问题。这涉及各种前期工作,而数学创造力就体现在这里。
一旦问题被解决,数学家往往会根据由此引出的新问题,来评价研究贡献的重要性。有时,以某种方式解决一个猜想反而会令人失望,因为它堵死了产生新研究问题的可能。
穆罕默德・阿布扎伊德身着夹克衬衫,未系领带,在户外条板墙前留影。
斯坦福大学的穆罕默德・阿布扎伊德(Mohammed Abouzaid)
图片版权:卡罗琳・方(Carolyn Fong),《纽约时报》
劳伦・威廉姆斯(Lauren Williams):我打个不太严谨的比方。在实验科学里,我可以把研究分成三部分:一、提出重大问题,希望其研究能照亮我们的领域;二、设计实验来回答这个问题;三、执行实验并分析结果。
我可以类似地把数学研究分成对应的三部分:一、提出重大问题,希望其研究能引领我们的领域;二、构建求解框架,把大问题拆成更小、更容易处理的问题 —— 就像我们的测试题;三、找到这些小问题的解,并证明其正确性。
这三部分都必不可少。在 First Proof 项目中,我们聚焦第三部分,因为它最容易被量化。我们可以用小而定义清晰的问题去询问 AI 模型,然后判断答案是否正确。如果让 AI 提出大问题或构建框架,评估其表现会难得多。
问:AI 系统在 “首轮验证” (First Proof)评测中表现如何?
威廉姆斯:针对我的问题,有一次测试出现了一连串有趣的回复。模型会给出一个答案,然后说 “好了,这就是最终解”。接着又说 “等等,停一下,这个情况呢?” 然后以某种方式修改答案。如此反复:“好了,最终解。等等,这里有个坑!” 它陷入了无限循环。
还有一次回答,解的是一道高度相关但并不相同的题。
塔玛拉・科尔达(Tamara Kolda):我的初步结果令人失望:AI 完全搞不懂问题,在答案的某些部分忽略关键信息,而且逻辑根本不连贯。我后来修改了问题表述,加了更明确的说明,试图给 AI 更好的机会。最终结果如何,我们拭目以待。
马丁・海勒(Martin Hairer):我整体注意到一点:模型倾向于在简单的地方铺陈大量细节,你会心想:“行吧,快点,这些我听腻了。”而到了论证的关键部分,它又说得极少。
有时就像在读一篇差劲本科生写的论文:他们大概知道起点在哪,也知道要去哪,但真的不知道怎么过去。于是东拉西扯,到某个点直接塞一句 “因此”,然后祈祷正确。
问:听起来就是典型的 “糊弄式论证”—— 缺乏严谨,跳过复杂环节。
海勒:对,它特别擅长给出这种糊弄式的答案。
问:所以你并不 impressed(被打动)?
海勒:不,我不会这么说。有些时候我其实相当 impressed—— 比如,它能把一堆已知论证串起来,中间夹杂一些计算,而且做得相当正确。这方面它确实很厉害。
问:在你理想的世界里,AI 能为你做什么?
海勒:目前 LLM 的输出很难让人信任。它们表现得无比自信,但你要花很大力气才能确认答案到底对不对;我觉得这在智力上很折磨人。
再说一次,这就像面对一个研究生,你说不清他是真的强,还是只是很会胡说八道。理想的模型应该是可以信任的。
科尔达:AI 被吹得像同事或合作者,但我并不觉得是真的。我的人类同事有各自独特的视角,我尤其喜欢和他们辩论不同观点。而 AI 只有我让它有的观点,这一点意思都没有!
我越来越担心的一点是,AI 可能会无意中减慢科学进步。理论物理学家马克斯・普朗克有句名言常被引用:“科学是在一场场葬礼中进步的。” 我很清楚,我的观点可能大错特错。但如果我的观点被编码进 AI 系统并永远保留下去,会不会阻碍新科学思想的演进?
参考资料
https://actu.epfl.ch/news/prof-m-hairer-on-artificial-intelligence-and-mathe/
https://www.nytimes.com/2026/02/07/science/mathematics-ai-proof-hairer.html
https://arxiv.org/abs/2602.05192
https://1stproof.org
https://epoch.ai/frontiermath
https://arxiv.org/abs/2509.26076
https://arxiv.org/abs/2505.12575
小乐数学科普近期文章
·开放 · 友好 · 多元 · 普适 · 守拙·
让数学
更加
易学易练
易教易研
易赏易玩
易见易得
易传易及
欢迎评论、点赞、在看、在听
收藏、分享、转载、投稿
查看原始文章出处
点击zzllrr小乐
公众号主页
右上角
置顶加星★
数学科普不迷路!
热门跟贴