数学界AlphaGo来了！攻破奥数难题登Nature，接近人类金牌水平|alphago|人工智能|奥数|推理|数学

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。

作者李水青

编辑心缘

智东西1月18日报道，1月17日，谷歌研发的AI数学模型AlphaGeometry登上国际顶刊Nature。AlphaGeometry能解决几何问题，解题水平接近人类奥林匹克金牌得主，有望成为AI迈向通用人工智能的一个重要里程碑。

在针对30道奥数几何题的基准测试中，AlphaGeometry在规定的奥数解题时间内成功解决了25道题。相比之下，此前最先进的机器系统仅解决了其中10道题，而人类金牌得主的平均解题数量为25.9道。

AlphaGeometry采用神经语言模型的预测能力与规则约束推演引擎相结合的方法，就像人类的慢思考+慢思考，两者协同找到问题解法。

谷歌还合成了包含1亿个独特的几何问题示例的数据集，支持AlphaGeometry在没有任何人类演示的情况下自行训练，也就是自己“刷题提分”。

“我对他们能够成功应用AI解决问题感到惊讶，这确实是一项令人印象深刻的成就。”数学领域的国际最高奖项之一菲尔兹奖金牌得主NGÔ BẢO CHÂU如此评价道。

他指出，研究人员往往首先尝试用AI解决IMO（国际数学奥林匹克竞赛）几何问题，这能理解。因为寻找解决方案的过程有点像下国际象棋，每一步中合理的走法数量都相当有限。

2023年12月15日，谷歌推出的的数学大模型FunSearch刚刚登上Nature，这一AI系统在“帽子集（Cap set）”等经典数学难题上超越了人类数学家。（《DeepMind大模型登Nature！AI首度攻破经典数学难题，赢过人类数学家》）

仅仅一个月后，AlphaGeometry成果再次登上Nature，同时谷歌将AlphaGeometry的代码和模型，与合成数据生成和训练中的其他工具和方法一起在GitHub上开源。

论文地址：https://www.nature.com/articles/s41586-023-06747-5

GitHub地址：https://github.com/google-deepmind/alphageometry

AlphaGeometry采用的是神经符号法，这种方法融合了神经语言模型和符号推演引擎，两者相辅相成，共同寻找复杂几何定理的证明。

就像我们常说的“快思考与慢思考”一样，其中一个系统负责快速、直觉性的思考，而另一个系统则负责更为深入、理性的决策。

语言模型擅长从数据中捕捉一般规律和关系，因此能够快速预测出可能有用的结构。但它们的缺点在于，往往不能提供严谨的推理或解释其决策的依据。

相比之下，符号推演引擎则基于形式逻辑，使用明确的规则来得出结论。它们的推理过程既理性又可解释，但可能在处理大型、复杂问题时显得“慢”且不够灵活。

AlphaGeometry的语言模型能为符号推演引擎指明方向，引导它寻找几何问题的可能解决方案。

奥林匹克几何问题通常基于图形，需要通过添加新的几何构造（如点、线或圆）来解决。而AlphaGeometry的语言模型能够从众多可能性中预测出哪些新构造的添加最有可能带来帮助。

这些预测为符号推演引擎提供了有力的线索，使其能够对图形进行更深入地推理，并逐步接近解决方案。

在谷歌根据2000年至2022年奥林匹克竞赛题目编制的30道奥林匹克几何问题基准测试集（IMO-AG-30）中，AlphaGeometry在比赛时间限制下解决了25道问题，这一成绩已接近人类金牌得主在这些相同问题上的平均得分。而此前最先进的方法，即“吴氏方法”，仅解决了10道题。

来看一个具体的例子：2015年国际数学奥林匹克的一道题目（如图左侧所示）和AlphaGeometry的精简版解决方案（如图右侧所示）。在解决方案中，蓝色元素表示添加的构造。AlphaGeometry的解决方案共包含了109个逻辑步骤。

▲AlphaGeometry关于奥数例题的解决方案

简单来说，AlphaGeometry的解题过程是这样的：首先，给定一个问题图形及其定理前提（如图左侧所示），AlphaGeometry会使用其符号推演引擎推导出与图形相关的新陈述（如图中间所示），直到找到解决方案或无法再推导出新陈述为止。

如果在这个过程中没有找到解决方案，那么AlphaGeometry的语言模型就会发挥作用，添加一种可能有用的几何构造（如图中的蓝色部分所示），从而为符号推演引擎开辟新的推理路径。这个过程会一直重复进行，直到找到解决方案为止（如图右侧所示）。在这个例子中，只需要添加一种构造就找到了解决方案。

▲AlphaGeometry的解题过程示意

几何依赖于对空间、距离、形状和相对位置的理解，是艺术、建筑、工程和许多其他领域的基础。

人类通过笔和纸学习几何，检查图表，并运用现有知识发现更复杂的几何属性和关系。

谷歌开发了一种合成数据生成方法，能大规模模拟这种知识构建过程，让AlphaGeometry能够从零开始训练，完全不依赖人类演示。

借助高度并行计算能力，系统首先生成了数十亿个随机几何图形，并详细推导出了每个图形中点与线之间的所有关系。

AlphaGeometry能找到每个图形中所有的证明路径，然后回溯找出为了得出这些证明需要添加哪些额外的结构。谷歌称之为“符号推演与回溯”。

▲AlphaGeometry生成的合成数据的视觉展示

这个庞大的数据池经过筛选，排除了相似的例子，最终形成了包含1亿个不同难度独特示例的训练数据集，其中900万个包含了新增的构造。

有了这么多关于构造如何产生证明的实例，AlphaGeometry的语言模型在遇到奥林匹克几何问题时，能对需要添加的新构造提出有见地的建议。

AlphaGeometry为每一道奥数题提供的解法都经过了计算机的严格检查和验证。

谷歌还拿它的表现与之前的AI方法以及人类在奥林匹克竞赛中的成绩做了对比。此外，谷歌也请来了数学教练、前奥林匹克金牌得主Evan Chen，为其评估AlphaGeometry的一系列解题方案。

Chen谈道：“AlphaGeometry的表现让人眼前一亮，它的答案既准确又清晰。”

“过去，一些基于证明的竞争性问题的AI解决方案往往是碰运气（有时候答案正确，但需要人工复查）。但AlphaGeometry没有这个问题：它的解决方案都是结构化的，可以被机器自动验证。同时，它的答案也很人性化，易于理解。你可以想象一个计算机程序通过复杂的坐标系来解决几何问题：一页又一页全是繁琐的代数计算。但AlphaGeometry不是这样的。它就像学生一样，运用角度和相似三角形等经典几何规则来解题。”

虽然每个奥林匹克竞赛都包含六个问题，其中只有两个通常涉及几何，这意味着AlphaGeometry只能应用到给定奥林匹克竞赛中三分之一的问题。

但即便如此，仅凭其在几何方面的能力，AlphaGeometry就成为了世界上第一个能够在2000年和2015年跨越IMO铜牌门槛的AI模型。

在几何领域，谷歌的系统已经达到了IMO金牌得主的水平。但谷歌并不满足于此，谷歌的目标是推动下一代AI系统的推理能力。

考虑到利用大规模合成数据从头开始训练AI系统的巨大潜力，这种方法可能会对未来AI系统在数学及其他领域的新知识发现产生深远影响。

AlphaGeometry是在Google DeepMind和Google Research的工作基础上开发的，它开创了AI数学推理的先河——从探索纯数学之美到使用语言模型解决数学和科学问题。

最近，谷歌还推出了FunSearch，这是首个使用大型语言模型在数学科学的开放问题中取得发现的项目。

谷歌研发的AI数学模型再登国际顶刊Nature，展示了AI在几何问题解决上的强大能力。图形是非常抽象且考验逻辑的，谷歌开创性地通过将神经语言模型和符号推演引擎结合，使得AI实现了远高于此前系统和匹敌人类奥数金牌得主的水平。

这一突破可能意味着AI迈向通用人工智能的重要里程碑，不仅为AI领域带来了新的突破，更可能成为数学和工程、艺术等领域常用的工作方法。谷歌DeepMind的研究只是一个开始，未来以AlphaGeometry为代表的AI方法将继续迭代，在更多领域释放自己的潜力。

来源：谷歌、Nature