来源:市场资讯
(来源:新智元)
新智元报道
编辑:定慧 好困
【新智元导读】Google DeepMind最新AI智能体Aletheia在FirstProof挑战赛中,独立攻克了6道世界级数学难题,实现了从竞赛水平到PhD科研级的质变。人类数学研究的「手工时代」或许正步入倒计时。
刚刚,人类数学界最后的防线,宣告全面崩塌!
连吃瓜群众都惊掉下巴:AI不仅会做题,现在居然已经能独立搞定PhD级别的纯粹数学研究了。
就在这两天,谷歌DeepMind的最新AI研究智能体Aletheia,在数学界一场名为「FirstProof」的巅峰挑战赛中,一口气干掉了10道公认的世界级未解数学难题中的6道!
DeepMind的高管Thang Luong在X上难掩激动地发帖:
「对我而言,这甚至比去年历史性拿下IMO金牌的成就意义还要重大!」
这可不是什么普通的数学竞赛。要知道,这些题目连全球最顶尖的数学家都感到极度棘手。
结果,Aletheia不仅自主算出了答案,甚至连提出其中第7题猜想的数学家Jim Fowler本人,都亲自出面盖章确认:
「AI的解题过程,是完全正确的。」
就连当今世界最杰出的天才数学家陶哲轩,都在最新的访谈中表示:AI,已经成为了我的「初级合著者」。
Aletheia的「神之一手」:暴力推演
Aletheia到底有多厉害呢?
来看看谷歌DeepMind首席科学家兼研究主任,超级推理团队负责人Thang Luong怎么说:
「超级激动!我们的数学科研AI智能体 #Aletheia,刚刚全自主解出了10道出了名变态难的FirstProof挑战题里的6道,直接拿下了首届全场最佳!」
大家品品这句话的分量。
Luong直言不讳:
「在我看来,这甚至比咱们去年达到IMO(国际奥数)金牌水平的历史性时刻,含金量还要高得多!」
因为这些题,是连当今世界上最顶尖的几位数学大佬都感到极度头疼的「超级硬骨头」。
这次,DeepMind跑了两个基于Gemini 3 DeepThink打造的Aletheia版本(区别仅在于底层模型不同)。
经过多数专家的交叉「会诊」,它们联手干掉了10道题里的6道(分别是第2、5、7、8、9、10题)。
要知道,这套题的判卷评估环节简直是地狱难度。
因为这世界上能看懂其中这几道题的专家,都已经是凤毛麟角。
但也正因如此,DeepMind的研究过程严谨到了近乎偏执的地步:
整个解答过程纯靠机器自己跑,全程「零人工干预」,而且完完全全是在FirstProof规定的死线内提交的。
这是一个里程碑式的时刻。
不再是人类一步步喂算式,而是AI智能体已经学会了趴在一个极端复杂的科研难题上「死磕」很久,在几千条死胡同里撞南墙,最后跑回来向人类淡淡汇报一句:「我搞定了(或者搞砸了)。」
DeepMind甚至把Aletheia在这个过程中烧掉的算力(推理成本)做了完整的可视化——
其中最炸裂的,莫过于第7题(P7)的惊天翻盘。
这是一道好几年都没人能解开的非典型难题。
据该领域专家Tony Feng透露,在这次比赛里,除了Aletheia,根本没AI能接近正确答案。
刚开始跑的时候,连DeepMind团队自己都觉得Aletheia这次肯定没戏了,结果居然跑出了正确答案!
为了攻克P7,Aletheia投入了海量算力——是当初解开Erdős-1051问题时的整整16倍!
数学界权威Sang Hyun Kim在看完AI的解题步骤后,给出了极高评价:
「这是我有史以来第一次,看到AI完美无瑕地串联运用了好几个极其深奥的数学定理。这绝对是一个独一无二的稀有案例!」
关于DeepMind对FirstProof的解读和实验细节全放这了:
论文地址:https://arxiv.org/abs/2602.21201
不胡说八道,才是AI最硬核的底气
如果深挖DeepMind这篇论文,你会发现Aletheia之所以这么稳,根本原因在于它掌握了一项关键技能:「自我过滤」。
传统的AI大模型有个臭毛病,就是不懂装懂(幻觉)。
不管你问啥,它都会一本正经地给你编个答案。
但在科研级别的高端局,如果你给数学家扔一堆看起来极其合理但经不起推敲的废料,那还不如不给。
DeepMind是怎么解决这个问题的呢?
他们给Aletheia体内设计了两个「次级人格」:
一个是「生成者(Generator)」,专门负责大开脑洞,疯狂猜想解题路径;另一个是冷血无情的「验证者(Verifier)」,专门负责给「生成者」挑刺。
在解题的黑箱里,这两个子系统会疯狂互搏。
当遇到那4道解不出来的问题时,Aletheia没有选择强行胡编乱造蒙混过关,而是直接给人类发出:「No solution found(未找到解法)」,或者到了时限直接闭嘴。
不胡编乱造,绝不在没有把握的地方瞎耗人类专家的精力——这正是Aletheia最让顶尖学者放心的地方。
正如论文中所写:「为了提升准确率,我们宁愿牺牲它解答某些问题的能力。」
而在解题成本上,除了P7那道耗费16倍算力的「神题」,其他几道题解决下来,耗费的「脑力」也都远远超出了去年解决Erdős-1051难题的极值。
想看完整的交互日志和解题过程(对的错的,原汁原味全公开),直接戳这里:
GitHub地址:
https://github.com/google-deepmind/superhuman/tree/main/aletheia
Aletheia到底手撕了哪些「变态难题」?
先来看看特地提到的P7。
问题背景:代数拓扑/微分几何。判断包含二阶扭转元素的半单李群均匀格,能否作为某个万有覆盖在有理同调下无圈的紧致无边界流形的基本群。
答案:不可能。
AI神仙解法:
证明思路一:纯拓扑方法(Lefschetz数矛盾)
利用万有覆盖Q-无圈的条件,算出2阶元素γ的紧支持Lefschetz数必须非零;但γ是自由作用的(没有不动点),通过欧拉示性数的乘性又推出Lefschetz数必须为零。0 = ±1,矛盾。
证明思路二:几何方法(对称空间的刚性)
利用格的几何结构,构造万有覆盖到对称空间的等变映射,证明γ在两边的Lefschetz数必须相等。但在万有覆盖一侧为零(自由作用),在对称空间一侧非零(Cartan不动点定理保证有不动点)。再次矛盾。
好在哪?
证明一好在「少」。题目给了一堆条件,但全都没用。只靠最基础的拓扑工具就解决了问题,而且实际证明了一个更强的结论:任何含扭转的离散群都不行。链条极短:算Lefschetz数,一边非零一边为零,矛盾,结束。
证明二好在「深」。它把题目给的几何条件全部用上了,构造了万有覆盖到对称空间的映射,最终在对称空间上用Cartan不动点定理找到矛盾。这条路更长,但回答了更本质的问题。。
问题背景:数论/表示论。在非阿基米德局部域上的矩阵群表示中,证明存在一个万能的Whittaker函数,使得局部Rankin–Selberg积分对所有配对表示都非零。
答案:可以。 存在这样的「万能」W。
AI神仙解法:
先选一个特殊的Whittaker函数W,使积分域压缩到紧集上,复参数s完全消失,问题简化为证明一个有限泛函非零。然后用反证法:假设对所有V都为零,通过有限Fourier分析推出测试函数具有「平移不变性」,这会迫使表示π在一个比其导子更粗的子群下有不变向量,与导子的定义矛盾。
好在哪?
整个证明最关键的就是第一步选取Whittaker函数W。这一个选择同时做到了三件事:1)把积分域压缩到紧集上,2)消去了复参数s,3)把无穷维的解析问题变成有限维的代数问题。而且这个W不依赖于配对表示π——同一个选择对所有π都管用,这在表示论里非常稀有。
反证法部分的「level lowering」也很精彩:假设泛函恒为零,通过有限Fourier分析逐步推出测试函数在模p^{c-1}下不变,但π的导子恰好是p^c,这个层级上不可能有不变向量。矛盾恰好卡在导子的定义上,一步不多一步不少。
对于其他题目,感兴趣的读者可自行查阅论文和GitHub项目。
人类出题的速度,已经快跟不上了
为什么偏偏是数学,成了检验AI实力的终极擂台?
道理很简单——数学的答案非黑即白,对就是对、错就是错,没有任何让人类「手下留情」打人情分的空间。
但现在的问题是:出卷的速度,已经被答卷的速度按在地上摩擦了。
2024年11月,Epoch AI上线了FrontierMath评测基准,专门用来摸底最前沿AI的数学推理能力。
刚上线时最强AI连2%的题都做不出来,结果到了今天,GPT-5.2和Claude Opus 4.6已经能搞定基础题库40%以上的题目,连50道终极难度的第4级挑战题,正确率也突破了30%。
不过,FrontierMath再难,本质上还是「人类已有标准答案,看AI能不能也做出来」,说白了还是考试。
但FirstProof里的10道题,是11位顶尖数学家从自己真实科研中掏出来的、从未公开发表过的难题。
项目主页:https://1stproof.org/
而且这场挑战赛的结局充满戏剧性。
对比之下,足以见得这次Aletheia「零人工」干预做出6道题的含金量有多高。
数学圈对此五味杂陈:一部分人直呼逆天,另一部分人觉得10道还剩4道没解,离替代数学家还远。
但一个不可逆转的趋势已经摆在所有人面前——
我们需要更难的题库来测AI,而且动作必须快,因为现有的一切正在以肉眼可见的速度过期。
Epoch AI显然也意识到了这一点。
就在FirstProof开赛同期,他们放出了自己的大招——FrontierMath: Open Problems。
左右滑动查看
这个全新题库收录了16道专业数学家死磕过但至今全军覆没的真正未解之谜。
更绝的是,虽然没有标准答案,Epoch AI却给每道题写了自动评分程序来判断AI的解是否成立。
上线至今,没有任何AI解出哪怕一道——这个「零分」现状,反而恰恰证明了题库的价值所在。
FirstProof团队也没打算收手,已经官宣3月14日推出难度更变态的第二轮挑战。
陶哲轩:AI是我的「初级合著者」
那么,站在数学界绝对顶峰的人,到底怎么看这场风暴?
在最新访谈中,陶哲轩给出了一个极其精准的定位:AI现在是他的「初级合著者」。
他2023年曾预测到2026年AI能达到论文合著者水平,当时褒贬不一,现在看进度完全吻合甚至略有超前。
而比这个头衔更重要的,是陶哲轩描述的一种全新的数学研究范式。
他说,传统数学研究像是「个案研究」,一篇论文揪着一两个问题往死里磕,这是数学家几百年来的工作方式。但AI正在让数学家第一次有能力做「大样本普查」。
与此同时,数学研究中有大量极其繁琐的计算是人类极其讨厌做的,所以数学家们会绞尽脑汁想聪明办法绕过去。但AI不嫌烦,它乐意不知疲倦地把这些枯燥的推演全部跑完。
当AI被整合进人类的工作流,这些曾经让人望而却步的障碍就直接被跨过去了。
而在另一个维度上,AI还展现出一种独特的本事——它能系统性地扫描人类根本没精力去碰的问题长尾。
以埃尔德什留下的1000多个数学问题为例,AI能把它们从头到尾过一遍,从中挑出可突破的题目逐个击破。
人类不可能这么干,但AI可以,而且已经在这么干了。
陶哲轩甚至承认自己从AI的解题过程里学到了东西:
也许它用到了某篇1960年论文里我没见过的小技巧,它能做到那些人类专家看了一眼就懒得去试的事情。
下一个倒计时已经开始
回看这整场风暴,一条清晰的主线已经浮出水面:
从FrontierMath被快速刷穿,到FirstProof上Aletheia零人工干预拿下6题,再到陶哲轩亲口承认AI已是自己的「初级合著者」。
所有信号都在指向同一个事实:
AI正在以一种不可逆的姿态,嵌入人类数学研究的核心流程。
而最值得玩味的,是Epoch AI那个至今「零分」的Open Problems题库。
它的存在本身就是一个隐喻:
人类现在能拿来考AI的最后武器,是连自己都不知道答案的题目。
这道防线还能守多久?没人敢打包票。
但有一点几乎可以确定——
当3月14日FirstProof第二轮挑战赛开启的那一刻,今天这篇文章里的所有数字,可能就已经过时了。
参考资料:
https://x.com/rohanpaul_ai/status/2026559039241597070?s=20
https://www.theatlantic.com/technology/2026/02/ai-math-terrance-tao/686107/
热门跟贴