规模化数学探索与发现|几何学|实验|数学|新论文|构造|算法

MATHEMATICAL EXPLORATION AND DISCOVERY AT SCALE

规模化数学探索与发现

https://arxiv.org/pdf/2511.02864

摘要

AlphaEvolve（见[224]）是一种通用进化式编码智能体，它将大语言模型的生成能力与自动化评估相结合，构成迭代式进化框架，可针对具有挑战性的科学与实际问题提出、测试并精炼算法解。本文将 AlphaEvolve 展示为一种自主发现新颖数学构造并推进对长期开放问题理解的工具。

为展现其广度，我们考察了涵盖数学分析、组合数学、几何学与数论的 67 个问题。该系统在多数情形下重新发现了已知最优解，并在若干问题上找到了改进解。某些情况下，AlphaEvolve 还能将有限输入值的结果推广为适用于所有输入值的通用公式。此外，我们能够将该方法与 Deep Think [149] 和 AlphaProof [148] 相结合，构建更广泛的框架：其中额外的证明辅助与推理系统可提供自动化证明生成及更深入的数学洞见。

这些结果表明，大语言模型引导的进化搜索能够自主发现与人类直觉互补的数学构造，有时可匹配甚至超越已知最优结果，凸显了数学家与人工智能系统之间产生全新交互方式的潜力。我们将 AlphaEvolve 呈现为一种强大的数学发现工具，能够探索广阔搜索空间以规模化求解复杂优化问题，且通常显著降低了对前期准备与计算时间的要求。

引言

数学发现的格局已被能够自主探索数学空间并生成新颖构造的计算工具从根本上改变 [56, 120, 242, 291]。AlphaEvolve（见 [224]）代表了这一演进中的重要一步，它表明：当大语言模型与进化计算及严格的自动化评估相结合时，能够大规模地发现显式数学构造，其性能可匹配甚至超越长期存在的数学问题的已知最优界。

AlphaEvolve 并非适用于所有类型数学问题的通用求解器；其主要设计目标是攻克那些关键目标在于构造满足优良定量性质（例如以较好数值常数满足特定不等式）的复杂数学对象的问题。在本后续论文中，我们报告了在广泛此类问题上测试 AlphaEvolve 性能的实验结果，主要集中于分析学、组合数学与几何学领域。在许多情形下，AlphaEvolve 提供的构造不仅具有数值性质，还可由人类数学家、Deep Think 等其他工具、甚至 AlphaEvolve 自身进行解释与推广。AlphaEvolve 并未能在所有情形下匹配或超越先前结果，且其部分单项改进很可能亦可通过人类专家采用更传统的计算或理论方法实现。然而，与这些方法不同，我们发现 AlphaEvolve 可轻松扩展以同时研究大批量问题类别，且无需针对每个新问题进行大量专家监督。这表明进化计算方法能够以互补于传统技术的方式系统探索数学对象空间，从而有助于回答关于计算搜索与数学存在性证明之间关系的问题。

我们还观察到，在许多情形下，除可扩展性外，为使 AlphaEvolve 输出与文献相当的结果，相较于传统数学研究方式，所需额外开销极小：平均而言，使用 AlphaEvolve 设置一个问题的常规准备时间仅需数小时。我们预计，在缺乏先验知识、信息或代码的情况下，等效的传统设置通常将耗费显著更长时间。这促使我们提出“规模化构造性数学”（constructive mathematics at scale）这一术语。

AlphaEvolve 有效性的关键数学洞见在于其能够同时在多个抽象层次上运作。该系统不仅能优化数学构造的具体参数，还能优化发现此类构造的算法策略。这种元层次进化代表了一种新型递归形式，其中优化过程本身成为优化对象。例如，AlphaEvolve 可能演化出使用启发式集合、SAT 求解器、无收敛保证的二阶方法或其组合的程序。这种分层方法在 AlphaEvolve 处理复杂数学问题（由用户提出）时尤为明显：系统常为优化过程的不同阶段发现专用搜索启发式。早期启发式擅长从随机或简单初始状态实现大幅改进，而后期启发式则聚焦于近优构型的精细调优。这种涌现的专门化映射了人类数学家所采用的直观方法。

1.1 与 [224] 的比较。白皮书 [224] 首次介绍了 AlphaEvolve 并强调了其广泛的通用适用性（包括数学领域）及部分结果细节。在本后续论文中，我们从广度、难度与重要性角度扩展了所考察数学问题的列表，并首次给出全部问题的完整细节。以下问题未按特定顺序排列。出于篇幅限制，我们不试图详尽梳理所列各问题的历史，而将读者引向各问题所提供的参考文献以深入探讨已知结果。

随本文一同发布的还有一个包含部分实验与问题扩展细节的在线问题仓库。尽管进化过程中的随机性可能使复现更具挑战，我们预期凭借所给信息与足够实验次数，结果可完全复现。

1.2 人工智能与数学发现。人工智能作为数学发现中的变革性力量的兴起，标志着我们应对某些最具挑战性数学问题方式的范式转变。近期突破 [87, 165, 97, 77, 296, 6, 271, 295] 已证明人工智能辅助数学家的能力。AlphaGeometry 在标准时限内解决了 30 道奥林匹克几何题中的 25 道 [287]。AlphaProof 与 AlphaGeometry 2 [148] 在 2024 年国际数学奥林匹克竞赛中取得银牌成绩，随后先进的 Gemini Deep Think 框架在 2025 年国际数学奥林匹克竞赛中斩获金牌 [149]。OpenAI 的模型亦取得金牌成绩，参见 [297]。超越竞赛表现，人工智能已开始做出真正的数学发现，例如 FunSearch [242] 发现了关于帽子集（cap set）问题的新解及更高效的装箱算法（另见 [100]）；PatternBoost [56] 推翻了一个长达 30 年的猜想（另见 [291]）；以及早期先驱如 Graffiti [119] 生成猜想。人工智能协助数学家的其他实例还包括 [70, 283, 302, 301]，涉及寻找数学命题的形式化与非形式化证明。

尽管 AlphaEvolve 更侧重于探索与发现，我们已能将其与其他系统进行流水线式集成，从而不仅实现探索，还能将发现结果与数学上严格的证明及其形式化相结合。

1.3 进化算法以寻找构造。AlphaEvolve 的核心是一种复杂的搜索算法。为理解其设计，从一个熟悉的概念入手会有所帮助：局部搜索。为求解诸如“寻找一个含 50 个顶点、不含三角形与四元环且边数最多的图”之类的问题，标准做法是从一个随机图出发，迭代地进行小幅修改（例如添加或删除一条边），以提升其得分（本例中为边数，但对任何三角形或四元环施加惩罚）。我们持续“爬山”直至无法进一步改进。

从 FunSearch [242]（见表 1 的直接对比）及其重新实现 [100] 继承的第一个关键思想是：不在图的空间中执行此类局部搜索，而是在生成图的 Python 程序空间中进行。我们从一个简单程序出发，然后利用大语言模型（LLM）生成大量相似但略有差异的程序（“变异”）。通过运行每个程序并评估其生成的图来对其进行评分。人们自然会疑惑这种方法为何有益：一次 LLM 调用通常远比添加一条边或评估一个图昂贵得多，因此我们探索的候选解数量往往比标准局部搜索方法少数千甚至数百万倍。

许多“优美”的数学对象（如前述问题的最优解 Hoffman-Singleton 图 [142]）可用简短、优雅的代码进行描述。此外，即使某个问题仅存在一个最优构造，也可能有多种不同而自然的程序生成它。相反，无数作为局部最优解的“丑陋”图可能并不对应任何简单程序。在程序空间中搜索可作为一种强大的简洁性与结构性先验，帮助我们避开混乱的局部极大值，导向优雅且往往最优的解。即使最优解本身无法通过简单程序描述，而最佳发现途径是启发式方法，我们发现 AlphaEvolve 在此类任务上同样表现出色。

然而，对于评分函数计算成本低廉的问题，传统方法纯粹的暴力计算优势仍难以克服。我们对此提出的解决方案如下：AlphaEvolve 不再进化直接生成构造的程序，而是进化用于搜索构造的程序。这便是我们所称的 AlphaEvolve“搜索模式”（search mode），也是我们在所有以寻找优良构造为目标、且不关注其可解释性与可推广性的问题上采用的标准模式。

AlphaEvolve 种群中的每个程序均为一种搜索启发式。它被赋予固定时间预算（例如 100 秒），任务是在该时限内找到尽可能优良的构造。该启发式的评分即为其找到的最佳对象的评分。这解决了速度差异问题：一次缓慢的 LLM 调用生成新搜索启发式后，可触发大规模廉价计算——该启发式可自主探索数百万候选构造。

我们强调，搜索无需每次都从零开始。新启发式将根据其改进迄今最佳构造的能力进行评估。因此，我们实际进化的是一个“改进器”（improver）函数种群。这形成了动态自适应的搜索过程：初期可能偏好执行广泛探索性搜索的启发式；随着逼近优良解，执行巧妙问题特定精调的启发式可能占据主导。最终结果通常是一系列专用启发式的序列，当串联使用时可产生前沿构造。其代价可能是搜索过程可解释性的潜在损失，但其所发现的最终对象仍是我们可研究的明确定义的数学实体。

这一补充机制对更困难的问题尤为有用——单一搜索函数可能无法独立发现优良解。

1.4 从示例泛化到公式：泛化模式。除在固定问题规模（例如 n = 11 的堆积问题）上表现优异的上述搜索模式外，我们还尝试了更具雄心的“泛化模式”（generalizer mode）。在此模式下，我们要求 AlphaEvolve 编写一个可对任意给定 n n 求解该问题的程序，并根据其在一系列 n n 值上的表现进行评估。期望是：通过观察自身为小规模 n n生成的（往往是最优的）解，AlphaEvolve 能够识别模式并将其泛化为适用于所有 n n 的构造。

该模式更具挑战性，但也产出了我们最激动人心的部分成果。例如，AlphaEvolve 为 Nikodym 问题（见问题 6.1）提出的构造启发了第三作者撰写的新论文 [281]。另一方面，使用搜索模式时，进化出的程序往往难以解释；但最终构造本身仍可被分析——在算术 Kakeya 问题（问题 6.30）中，这些构造亦启发了第三作者的另一篇论文 [282]。

1.5 构建多AI工具流水线。更引人注目的是，针对有限域 Kakeya 问题（参见问题 6.1），AlphaEvolve 发现了一个有趣的通用构造。当我们将该程序化解输入名为 Deep Think [149] 的智能体时，它成功推导出其正确性证明及规模的闭式公式。随后，该证明借助另一AI工具 AlphaProof [148] 在 Lean 证明辅助系统中完成了完全形式化。这一工作流——结合模式发现（AlphaEvolve）、符号化证明生成（Deep Think）与形式验证（AlphaProof）——为专用AI系统如何集成提供了具体范例。它预示了一种潜在的未来方法论：多种AI工具的组合可协助实现从经验观察到的模式（由模型提出）到形式化验证数学结果的全过程，全程自动化或半自动化。

1.6 局限性。我们亦需指出，尽管 AlphaEvolve 擅长处理可清晰表述为光滑评分函数优化、且适合“爬山法”的问题，但在其他情形下有时会陷入困境。特别是，我们遇到若干实例中 AlphaEvolve 未能达到最优或接近最优结果，下文将一并报告这些案例。总体而言，我们发现 AlphaEvolve 在大规模应用于广泛松散关联的问题组合时最为有效，例如各类堆积问题，或 Sendov 猜想及其变体。

第 6 节将详述通过该方法发现的新数学结果，以及所有 AlphaEvolve 未能找到先前已知最优构造的案例。我们希望本工作不仅能为这些具体问题提供新见解，亦能激励其他科学家探索如何将此类工具适配于各自研究领域。

AlphaEvolve 概述与使用方法

如 [224] 所介绍，AlphaEvolve 建立了一个将大语言模型创造力与自动化评估器相结合的框架。其中部分描述与用法已在该文献中呈现，为保证本文自洽性，我们在此予以讨论。AlphaEvolve 的核心是一个进化系统，该系统维护一个程序种群，每个程序编码了给定问题的潜在解。该种群通过模拟自然选择的迭代循环持续改进。

进化过程包含两个主要组件：

(1) 生成器（LLM）：该组件负责引入变异。它选取当前种群中表现较优的部分程序并对其进行“变异”，以生成新的候选解。该过程可在多个 CPU 上并行化。借助大语言模型，这些变异并非随机的字符翻转，而是基于父代程序逻辑与人类用户提供的专家建议、具有语法意识的智能代码修改。

(2) 评估器（通常由用户提供）：此即“适应度函数”。它是一段确定性代码，接收种群中的一个程序，运行该程序，并根据其表现赋予数值评分。对于数学构造问题，该评分可反映构造满足特定性质的程度（例如图的边数，或堆积的密度）。

过程始于若干简单初始程序。每一代中，部分高分程序被选中并输入大语言模型，以生成潜在更优的后代。这些后代随后被评估、打分，其中得分较高者将构成未来程序的基础。这种生成与选择的循环使种群随时间“进化”，趋向于产生质量日益提升的解的程序。需注意，由于每个评估器具有固定时间预算，评估器消耗的总 CPU 小时数与实验中大语言模型调用总次数成正比。关于更多细节及数学问题之外的应用，读者可参阅 [224]。Nagda 等人 [221] 应用 AlphaEvolve 为度量旅行商问题与 MAX-k-CUT 等问题建立了新的近似难度结果。AlphaEvolve 发布后，其他利用大语言模型进行科学发现的开源框架实现亦相继开发，例如 OpenEvolve [257]、ShinkaEvolve [190] 与 DeepEvolve [202]。

应用于数学领域时，该框架在寻找具有极值性质的构造方面尤为强大。如引言所述，我们主要采用其搜索模式：被进化的程序并非直接构造，其本身即是启发式搜索算法。评估器为这些进化出的启发式赋予固定时间预算，并根据其在该时限内能找到的最佳构造质量进行评分。该方法将大语言模型昂贵而富有创造力的能力导向高效搜索策略的设计，这些策略随后可被廉价且大规模地执行。这使 AlphaEvolve 能够有效导航广阔而复杂的数学景观，发现本文详述的各类新颖构造。

元分析与消融研究

为更深入理解 AlphaEvolve 的行为特性与敏感性，我们开展了一系列元分析与消融研究。这些实验旨在回答该方法的若干实践性问题：计算资源如何影响搜索效果？底层大语言模型扮演何种角色？典型成本为何？为保持一致性，许多实验以自相关不等式问题（问题 6.2）作为测试平台，因其提供了一个简洁且评估迅速的目标函数。

3.1 发现速度与评估成本的权衡。任何 AlphaEvolve 运行中的关键参数是所用并行计算量（例如 CPU 线程数）。直观而言，并行度越高，发现速度应越快。我们通过以不同线程数（从 2 到 20）运行问题 6.2 对此进行探究。

我们的发现（见图 1）虽存在一定噪声，但似乎符合这一预期权衡。增加并行线程数显著加快了发现时间：使用 20 个线程的运行始终比 2 个线程更快地超越前沿界。然而，这种速度提升伴随着更高的总成本。由于每个线程半独立运行并各自调用大语言模型生成新启发式，线程数翻倍大致使大语言模型查询速率翻倍。尽管线程间相互通信并基于彼此的最佳构造进行改进，但更快达成结果需要更大总量的大语言模型调用。最优策略取决于研究者优先级：若追求快速探索，高并行度效果显著；若旨在最小化直接成本，则较少线程长时间运行更为经济。

3.2 模型选择的作用：大型模型与廉价模型。AlphaEvolve 的性能从根本上依赖于用于生成代码变异的大语言模型。我们对比了高性能大语言模型与规模小得多、成本低廉的模型（输入 token 价格相差约 15 倍，输出 token 约 30 倍）的有效性。

我们观察到，能力更强的大语言模型倾向于产生更高质量的建议（见图 2），常以更少进化步数达成更优评分。然而，最有效策略并非总是独占使用最强模型。对于这一简单的自相关问题，最具成本效益的超越文献界策略是在多次运行中使用最廉价模型，其总大语言模型成本极低：仅数美元。但对于更困难的 Nikodym 集问题（见问题 6.1），廉价模型无法生成最精巧的构造。

我们还观察到，仅使用高端模型的实验有时表现不如偶尔混用廉价模型的运行。一种解释是：不同模型可能提出截然不同的方法；尽管较差模型通常建议质量较低，但它确实增加了多样性。这表明在进化过程中注入一定程度的随机性或“朴素创造力”可能存在潜在收益。我们推测，对于需要更深刻数学洞见的问题，更智能大语言模型的价值将更为凸显；但对于许多优化景观，来自廉价模型的多样性是一种强大且经济的工具。

结论

我们对 AlphaEvolve 的探索得出了若干关键洞见，总结如下。我们发现，验证器（verifier）的选择是显著影响系统性能与发现结果质量的关键组件。例如，优化器有时会倾向于更稳定（平凡）的解，而这正是我们希望避免的。设计巧妙的验证器以规避此类行为，是发现新结果的关键。

类似地，在某些情形下，采用连续型（而非离散型）损失函数被证明是引导进化搜索过程更有效的策略。例如，对于问题 6.54，我们本可将评分函数设计为任意给定构型中相接触圆柱的数量（若构型非法则为 − ∞ −∞）；但通过采用依赖于距离的连续评分函数，我们实现了更成功且更快速的优化过程。

实验过程中，我们还观察到一种“作弊现象”：系统会发现漏洞或利用问题设置中的瑕疵（例如通过离散版本近似全局约束如正性时产生的泄漏型验证器、对廉价模型的不可靠大语言模型查询等），而非寻找真正解。这凸显了精心设计鲁棒评估环境的必要性。

另一重要组件是提示中给予的建议及提示者的经验。我们发现，随着使用次数增加，我们越来越善于掌握如何向 AlphaEvolve 提供有效提示。例如，采用搜索模式提示相较于直接寻找构造，前者产生了更高效的程序与更优结果。此外，当使用者是所尝试问题的领域专家时，AlphaEvolve 的表现始终显著优于非专家使用者：我们发现，提示中给予 AlphaEvolve 的建议对最终构造质量具有显著影响。在提示中提供富有洞见的专家建议几乎总能带来显著更优的结果——事实上，AlphaEvolve 总是试图在保留原始建议精髓的前提下，最大限度地榨取该建议的价值。我们强调，总体而言，最佳结果往往源于人类专业知识与 AlphaEvolve 计算能力的结合。

一个促进发现广泛适用算法的有趣发现是：当系统被提供更受约束的输入集或特征集时，泛化能力反而提升。“数据量大”并不必然意味着泛化性能更优。当我们寻求能跨广泛参数范围泛化的可解释程序时，我们通过仅向 AlphaEvolve 展示小规模 n n 值下的先前最优解来限制其可访问数据量（参见问题 6.29、6.65、6.1）。这种“少即是多”的方法似乎有助于更基础性思想的涌现。

展望未来，提升系统自主性的重要一步将是使 AlphaEvolve 能够自主选择超参数，动态调整其搜索策略。

当系统在同一实验中针对相关问题或问题实例族进行训练时，结果亦显著改善。例如，在探索几何问题时，同时处理不同点数 n n 与维度 d d 的构型极为有效。对特定 ( n , d ) 对表现良好的搜索启发式，很可能为其他情形提供坚实基础，引导系统趋向更具普适性的原理。

我们发现，AlphaEvolve 擅长发现那些本已处于当前数学能力范围内、但因寻找适用于特定问题的标准思想恰当组合所需时间与精力过大而尚未被发现的构造。另一方面，对于需要真正新颖、深刻洞见才能取得进展的问题，AlphaEvolve 可能并非合适工具。

未来，我们设想类似 AlphaEvolve 的工具可用于系统评估大批量数学界或猜想的难度。这可能导致一种新型分类方法，使研究者能够半自动地标记某些不等式为"AlphaEvolve-难解"，表明其对基于 AlphaEvolve 方法的抵抗性；反之，其他问题则可被标记为适合通过理论与计算机辅助技术进一步攻关，从而更有效地引导未来研究方向。

未来工作

AlphaEvolve 中的数学进展代表了迈向自动化数学发现的重要一步，尽管仍有许多广阔的研究方向有待探索。鉴于人机交互的特性，我们设想未来可进一步将计算机辅助证明整合至 AlphaEvolve 的输出中，从而实现 AlphaEvolve 首先发现候选解，继而自动生成例如 Lean 代码形式的计算机辅助证明以验证该解，全程自动化。本工作中，我们已通过一个从发现到形式化的完整流水线示例证明，此类情形在罕见情况下已然可行；该流水线结合人类专业知识后产生了更深入的洞见与更强的结果。本文仅代表这一尚在进行中的长期目标的第一步，我们期望在此方向上进一步探索。本文所划定的边界纯粹受限于人类时间与论文篇幅，而非我们的计算能力。具体而言，对于部分问题，我们相信（正在进行及未来的）进一步探索可能带来更丰富、更优的结果。

AlphaEvolve 测试的数学问题

在我们的实验中，我们从数学文献中选取了 67 个问题（包括已解决与未解决的），其中大多数可重新表述为对某个数值量（可能依赖于一个或多个参数，少数情况下为多维而非标量值）获取上界和/或下界。这些数值量中的许多可表达为某个评分函数在某集合（可能是有限集、有限维或无限维）上的上确界或下确界。

尽管上下界均具研究价值，但在许多情形下仅其中一类界适合采用 AlphaEvolve 方法处理，因其本质是用于发现有趣数学构造的工具——即尝试优化评分函数的实例，而非证明对所有可能实例均成立的界。当评分函数的定义域为无限维（例如函数空间）时，在应用 AlphaEvolve 前需额外施加限制或投影至有限维空间（例如通过离散化或正则化）。

在许多情形下，AlphaEvolve 能够匹配（或近乎匹配）现有界（其中部分已知或被猜想为紧界），且常能提供极值构造的可解释性描述；在若干情形下甚至超越了前沿结果。在其他情形下，AlphaEvolve 甚至未能达到文献中的已知界，但我们仍致力于在此记录实验的正反两方面结果，以更准确地呈现 AlphaEvolve 作为工具的优势与局限。我们的目标是分享所有尝试过的问题结果——包括仅短暂尝试的问题——以诚实地呈现哪些方法有效、哪些无效。

在 AlphaEvolve 超越前沿结果的情形中，很可能通过进一步工作——例如采用提示与设置更优的 AlphaEvolve 版本、由理论考量或传统数值方法引导的定制化方法，或二者的混合策略——可带来进一步改进；这在 [224] 中先前公布的若干 AlphaEvolve 结果中已然发生。我们希望此处报告的结果能通过多种方法激发这些问题的进一步进展。