★置顶zzllrr小乐公众号《小乐数学科普》新鲜送到!
译者按:
本文属于关注AI时代一线数学家们的系列报道《AI人工智能时代的数学家们》之一,作者是塔玛拉・G・科尔达(Tamara G. Kolda),她是美国工业与应用数学学会(SIAM)会士,她的专业领域为数学算法与数据科学计算方法,尤其专注于张量分解和随机化算法。
本文最初作为特邀文章(原文标题:《AI人工智能时代的数学研究——未来AI人工智能能否成为真正的合作者?》)发表于Silicon Reckoner博客,并且再次发表在SIAM官网。作者感谢Michael Harris提供机会与读者分享此文。本文也可在作者的博客MathSci.ai上阅读。
图源:mathsci.ai
作者:Tamara G. Kolda(塔玛拉・G・科尔达)2026-2-21
译者:zzllrr小乐(数学科普公众号)2026-4-3
“首次证明”(First Proof,也即首轮验证) 实验的结果已经出炉。首次证明(First Proof)是一个由数学家团队发起的项目,参阅,负责人包括Mohammed Abouzaid(斯坦福)、Nikhil Srivastava(UC伯克利)、Rachel Ward(UT 奥斯汀)与Lauren Williams(哈佛),旨在测试人工智能系统能否独立解决研究级别的数学问题。项目提出了10 道原创问题,来自作者们在不同数学领域的真实研究,这些问题已有答案但尚未公开发表。(我本人也是问题贡献者之一,参阅第10题)这些都是专业级问题,通常需要至少具备专业知识的研究生才能解答。该项目旨在建立一种真实可信的评估方式,衡量 AI 进行真正数学研究的能力 (参阅:),并且计划未来用新题目重复这项实验。
那么,AI 系统在第一批问题上表现如何?各大 AI 公司与个人研究者都提交了他们的解题尝试,其中不少采用了AI 与人类协作的方式。我们自己测试了Gemini Deep Research与ChatGPT 5.2 Pro,它们在 10 道题中解出了2 道 (参阅)。我贡献的第 10 题正是这两道之一。积极的一面是,AI 找到了一种已发表的方法,而这种方法并未出现在我的原始解答中。但消极的一面是,AI 并未给出该方法的任何引用来源。我只是因为两份 AI 生成的答案高度相似,才怀疑它们调用了已知结论,最终不得不自己手动溯源。无论我们从这项实验中得出什么结论,有一点已经非常明确:现代 AI 的出现,将永远改变数学研究。
在深入展开之前,我想从数学角度解释一下什么是现代 AI 系统:它本质上是一组由训练数据学习得到权重的方程系统。数百年来我们一直在使用数学模型,只不过通常只包含少量参数。在我刚做研究时,我从事电路仿真模型,一般只有十几个参数。而今天的 AI 模型拥有数十亿甚至上万亿参数,大到足以存储人类知识的总和!关于 AI 是否靠 “记忆训练数据” 工作,目前存在大量争论。但无论如何,AI 系统归根结底是一个确定的数学过程:一组方程生成输出,而这种形式化也意味着它容易受到数学攻击。 https://arxiv.org/abs/2307.15043 尽管我尊重其他人可能持有不同观点,但我个人对 “AI 拥有意识或真正推理能力” 的说法不抱任何幻想;相反,我对 AI 系统在设计与训练上展现的创造力与突破感到震惊。
事实上,当我在自己的数学研究中不断尝试使用 AI 时,我越来越被它们的能力所打动。如果某个解法在 AI 的训练数据中可获取,或能通过网络搜索找到,那么 AI 很有可能解出这道题。令人印象深刻的是,即便解法使用了不同术语,或者需要从多个来源拼凑,AI 往往也能做到。在我看来,AI 做到这一点的可能性,与相关方法在文献中的普及程度成正比。但有一个问题 —— 而且是致命问题——AI 模型无法可靠地提供知识来源。而缺乏事实核查是一个真正的隐患。AI 可能会自信满满地引用不存在、不真实的结论,或者直接剽窃已有文献,正如我在自己那道题的解答中观察到的那样。状态好的时候,AI 能让人眼前一亮;状态差的时候,我见过它歪曲自己实际完成的工作,被指出错误时装作懊悔,然后再次重蹈覆辙。这一切都意味着,很难区分高质量结果与数学垃圾:那些乍一看合理、但深究细节就会崩塌的答案。问题在于,人们太容易不加验证地接受 AI 的输出了。
我对未来学术出版的担忧之一,是“人类–AI 拼凑垃圾”的现象日益增多 —— 人类未经仔细、耗时的验证,就把 AI 生成的劣质内容胡乱拼接成文。(“拼凑垃圾scrapple”类似肉碎混合制成的廉价食品,是粗制滥造spam的代名词。)作为SIAM(美国工业与应用数学学会)出版事务副主席,我处理过大量涉及作者诚信的案例,也亲眼看到了依赖 AI 走捷径带来的代价。编辑与审稿人需要花费更多精力来甄别低劣的学术成果。明显的情况包括伪造引用;不那么明显的则包括论证薄弱、引用缺失与逻辑混乱。我们已经在NeurIPS等会议上看到了 “人类–AI 拼凑垃圾” 带来的负面影响:虚构引用正在危及这个曾经备受赞誉的学术平台的公信力。
那么,数学的未来将会怎样?我们不妨假设,目前 AI 系统存在的所有问题(比如引用错误与虚构事实)都能被解决。到那时,数学家的角色会是什么?
首先也是最重要的一点:数学家的核心角色是判断力—— 决定该提出什么问题、该证明什么定理、该编写什么算法。这需要拥有经验的人来完成,这也是导师的核心工作:帮助初入研究的学者选择值得研究的问题。作为一名应用数学家,我的主要职责,是把利益相关方提出的模糊问题,转化为具体的数学问题。一旦问题被归约为数学形式,我常常会与才华横溢的合作者一起寻找答案。
回头来看,AI 能胜任这个角色吗?也许 AI 可以解出一个给定的数学问题,但它没有主动求解的意愿,没有产生创造性洞见的动力,对问题是否有意义没有判断,对正确的研究路径没有立场。
与之相反,我的合作者们都有自己的观点。他们能够和我辩论我们提出的问题是否恰当,启发我采用截然不同的方法,有时甚至彻底改变我的数学观念。
未来的数学家无疑会把 AI 系统当作强大的工具来使用 —— 就像当年他们使用计算机和互联网一样 —— 但数学家不会被 AI 取代。
我对数学研究未来的期望是:研究成果将由那些真正关心工作结果、对结果的正确性负有责任感、并愿意付出艰苦努力(包括仔细核查 AI 的输出)的人来完成。
致谢
我衷心感谢我的同事Mohammed Abouzaid(斯坦福)、Andrew Blumberg(哥伦比亚)、Ernest Davis(NYU纽大)、Gary Marcus(NYU, Emeritus)、Dan Spielman(耶鲁)、Nikhil Srivastava(UC伯克利)以及Lauren Williams(哈佛),感谢他们对本文的见解与反馈。
参考资料
https://www.mathsci.ai/post/future-of-math-in-age-of-ai/
https://1stproof.org
https://www.siam.org/publications/siam-news/articles/essay-the-future-of-math-research-in-the-age-of-ai/
https://www.nytimes.com/2026/02/07/science/mathematics-ai-proof-hairer.html
https://www.scientificamerican.com/article/first-proof-is-ais-toughest-math-test-yet-the-results-are-mixed/
https://www.theatlantic.com/technology/2026/01/ai-memorization-research/685552/
https://arxiv.org/abs/2307.15043
https://fortune.com/2026/01/21/neurips-ai-conferences-research-papers-hallucinations/
https://www.nytimes.com/2026/01/25/opinion/ai-human-judgment.html
小乐数学科普近期文章
·开放 · 友好 · 多元 · 普适 · 守拙·
让数学
更加
易学易练
易教易研
易赏易玩
易见易得
易传易及
欢迎评论、点赞、在看、在听
收藏、分享、转载、投稿
查看原始文章出处
点击zzllrr小乐
公众号主页
右上角
置顶★加星
数学科普不迷路!
热门跟贴