日前,谷歌DeepMind 与多所顶尖学术机构的研究者联合发布论文《Aletheia:自主攻克FirstProof数学难题挑战赛》(arXiv:2602.21201) 。

打开网易新闻 查看精彩图片

论文的核心是,评估名为 Aletheia 的数学研究代理系统在 FirstProof 这一公开挑战中的表现。

在没有人类干预的情况下,Aletheia成功完成多道研究级数学难题。

这不是简单的“算对了题”,而是达到了接近学术发表标准的证明水平。

这意味着 AI 开始真正触及“数学创造力”,这个长期被认为是人类专属的领域。

FirstProof 不是简单的算术或者基础证明题,而是由专业数学家设定的一组十个研究级难度的问题。

这些问题往往涉及抽象概念和严谨推理,传统上只有受过训练的数学家才能应对。组织方希望通过这个挑战评估当前 AI 在数学领域的真实能力边界。

打开网易新闻 查看精彩图片

Aletheia 也并不是一个普通的自动答题机器人,而是一个结合了生成式模型和验证机制的智能体,基于谷歌最新的大模型架构 Gemini 3 Deep Think。

它的设计目标不仅是输出答案,而是在 无人类干预的前提下 尽可能自动地提出数学证明。

也就是说,从理解题意、构思思路、生成证明草稿,到最终输出一段严谨 LaTeX 格式的证明文本,整个过程都是由智能体自主完成的。

Aletheia 由三个核心模块构成:

猜想生成:从数学文献中识别有价值的开放问题,并生成形式化命题。

自主证明搜索:结合符号推理、启发式搜索与自我修正,寻找形式化证明。

严谨验证:使用自动证明检验器与自我批判机制,过滤无效论证并确保正确性。

打开网易新闻 查看精彩图片

整个流程完全自动化,无需人类撰写提示、选择问题或审核中间步骤。Aletheia 自主判断哪些问题可解、哪些方向有价值、以及证明何时完成且正确。

论文作者为了评估其真实能力,在整个流程中严格排除了人为提示和干预,只保留最终专家对结果的判断与评价。

在 FirstProof 的十个问题中,Aletheia 成功给出了六个问题的可评估解答,被独立数学专家(有些来自论文作者之外的学术界)认为,满足出版前的“可修订发表”标准。

打开网易新闻 查看精彩图片

更重要的是,这种能力是在没有人工设计思路的情况下实现的,充分体现了 AI 在数学推理上从辅助工具向真正“研究伙伴”的转变。

值得注意的是,Aletheia 并不是在所有问题上都做到了完美。在那些极其复杂或高度依赖深厚数学直觉的问题上,它仍然无法给出有效输出。所以说,暂时它还不是完全合格的数学家。

但总的来说,这项工作标志着 AI 在数学研究领域取得了实质性的进展。

从 ChatGPT 或 Gemini 这类大语言模型能会话式讨论数学,到 Aletheia 能在没有人类引导的情况下解决复杂证明问题,是科研史上的一次重要里程碑。

虽然距离完全取代人类数学家还有很长的路要走,但这一成果无疑推动了人工智能在创意推理与科学发现方面的边界。

这不仅对数学界是重要突破,也预示着未来 AI 将在数学、物理、计算机科学,乃至整个基础科研领域,承担越来越重要的角色。

也就是说,AI第一次真正从“辅助工具”进化为独立科研主体,开创了“AI自主做科学研究”的全新范式。