置顶zzllrr小乐公众号(主页右上角)数学科普不迷路!

FrontierMath简介:对AI人工智能在数学家尚未解决的研究问题上进行基准测试。

本研究工作由施密特科学基金会(Schmidt Sciences)资助。

打开网易新闻 查看精彩图片

作者:epoch.ai(跨学科非营利研究机构,base美国旧金山)2026-1-28

译者:zzllrr小乐(数学科普公众号)2026-1-29

AI人工智能的数学能力发展迅速且成果显著。2024年年中时,高中数学题对人工智能系统来说仍是一项挑战 https://epoch.ai/benchmarks/math-level-5 。到2025年底,人工智能系统已经能够攻克那些专为顶尖人类专家设计的超高难度题目 https://epoch.ai/frontiermath/about 。在撰写本文时,人工智能系统似乎很快就能解决人类从未破解的数学难题。

事实上,这一趋势已经初现端倪。例如,人工智能系统已经解决了数道此前悬而未决的埃尔德什(Erdős)问题 https://github.com/teorth/erdosproblems/wiki/AI-contributions-to-Erd%C5%91s-problems 。但这些成果的意义很难界定。这些问题在数学领域是否具有重要意义?此前人类为解决这些问题付出了多少努力?这些成果能否体现人工智能能力的新突破?

今天,我们发布了全新基准测试的试点版本——前沿数学(FrontierMath)开放性问题 https://epoch.ai/frontiermath/open-problems 。我们希望通过这个基准测试,为相关问题的解答提供思路。该基准测试的题目均为专业数学家努力攻关却未能解决的前沿数学开放性问题。为了实现大规模评估,入选的题目都满足一个条件,即相关的解决方案可以通过编程方式进行验证。

据我们目前所知,在本基准测试发布之时,这些问题还没有被人类或AI人工智能系统破解。如果有人工智能系统能够解开其中任意一道题,都将是人类知识边界的一次重大突破。此外,我们还能衡量这一突破的重要程度:参与题目的数学家已经对这些问题的重要性进行了评级,其意义从“具有一定趣味性的成果”到“重大突破”不等。

本次试点版本共包含14道题目,具体内容如下:

1. 针对每道题的重要性与难度撰写的说明文档

2. 可用于测试人工智能系统的精准提示词——你也可以亲自尝试!

3. 人工智能系统求解这些问题的初步尝试结果

打开网易新闻 查看精彩图片

https://epoch.ai/data/open_problems_data.zip

在未来几个月里,我们还会不断扩充题目数量,同时也在积极委托数学家提供新的题目。如果你有兴趣参与题目贡献,可以查看我们的问题提交表单。 https://docs.google.com/forms/d/e/1FAIpQLSckGHMY4ofgKfvf39Ue8fDZAbXJqN9pTcf5oLP3f3y-chE0Bg/viewform

关于验证程序,也就是用于评估候选解决方案的程序,我们将通过付费模式开放使用权限。我们采用这种模式,是为了筹集资金以进一步扩充基准测试的题目库。题目设计需要投入大量人力,而且每破解一道题,基准测试中的题目数量就会减少一道。因此,我们希望有意使用验证程序的机构能与我们合作,为题目库的扩充提供资金支持。我们承诺将平等开放验证程序的使用权限,不会向任何实体授予独家使用权。如有需求,可发送邮件咨询。

一、例题展示

(顺序与上表有异,每题均可查看详情)

1、组合数学——具有一定趣味性的成果

设B为含n个顶点的三角书图(triangular book graph)。对于给定的n,构造一个图,以此证明拉姆齐数R(B₋₁, B) > 4n-2。

找到R(Bₙ₋₁, Bₙ)的通用构造方法,将对计算图论学者具有重要意义。这一构造方法或将有助于证明其他拉姆齐数R(Bₘ, Bₙ)的取值范围,甚至可能适用于推导其他通用拉姆齐数。

上界R(Bₙ₋₁, Bₙ) ≤4n-1 于1978 年建立,最近的研究表明,对于无穷族n以及所有n≤21 ,该上界都是紧的。鉴于这些结果,对于所有n,上界很可能都是紧的。

本问题的目标是证明这一点,即找到一个算法,给定n,生成一个见证R(B ₙ ₋₁ , B ₙ ) > 4n-2的图。

威廉·J·韦斯利(William J. Wesley)

加州大学圣地亚哥分校 塞韦尔客座助理教授

https://epoch.ai/frontiermath/open-problems/ramsey-book-graphs

https://epoch.ai/files/open-problems/ramsey-book-graphs.pdf

2、代数几何——坚实成果

在特征为3的代数闭域上,构造一族显式的正规射影KLT(Kawamata log terminal,雄二郎对数终端)德·佩佐(del Pezzo)曲面X,要求这类曲面的皮卡(Picard)数为1,且具有任意多个(例如7个以上)奇点。

在特征为3的情况下完成这一构造,将揭示一种新的小特征现象,同时也将对理解正特征下法诺簇(Fano varieties)和极小模型纲领(MMP)的整体研究进程产生重要影响。

Del Pezzo 曲面是代数簇双有理分类中的基础构建模块。对于具有“温和”(KLT)奇点的 Del Pezzo 曲面,这些奇点的性质已经相当清楚——除了一个空白。

粗略地说:

  • 在特征为零的情况下,可能的奇点受到高度限制,并且已完全分类。

  • 在特征 2 中,可以有任意多个奇点。

  • 在特征 >3 中,至多可以有四个奇点。

  • 但就特征 3 而言,所有已知的构造至多只有 7 个奇点,而且尚不清楚这是否是最可能的奇点数量。

出题人认为特征 3 也可能存在任意多个奇点。本题的目标是通过构造来证明这一点。出题人给人工智能系统提供了几种通用形式,并认为构造很可能符合其中一种形式。

保罗·卡西尼(Paolo Cascini)

伦敦大学学院 数学教授

https://epoch.ai/frontiermath/open-problems/klt-del-pezzo-surface

https://epoch.ai/files/open-problems/klt-del-pezzo-surface.pdf

3、数论——重大突破级成果

寻找一个系数在整数环内的23次多项式,使其在有理数域上的分裂域的伽罗瓦群为马蒂厄群(Mathieu groupM₂₃

反伽罗瓦问题是数论领域最基础的开放性问题之一,核心是构造具有指定对称性的多项式。上述问题是该难题中目前尚未解决的最小维度情形,其独特之处在于,马蒂厄(Mathieu)群M₂₃是最后一个尚未找到对应多项式构造方法的散在单群(sporadic simple groups)。

换言之,逆(反)伽罗瓦问题询问每个有限群是否都是有理数扩张的伽罗瓦群。在任何特定情况下,这都等于找到一个具有规定对称性的多项式。该问题的目标是找到一个伽罗瓦群为马蒂厄群M₂₃的多项式。这是一个特别有趣的例子,因为它是最后一个已知此类多项式的散在单群。虽然不能保证一定存在这样的多项式,但数学家通常期望它存在。

丹尼尔·利特(Daniel Litt)

多伦多大学 数学助理教授

https://epoch.ai/frontiermath/open-problems/inverse-galois

4、拓扑学——突破性成果

设计一个算法,该算法以一个纽结作为输入,能够判定该纽结的解结数是否等于1。

这一问题是低维拓扑学的核心问题之一,它探讨的是将一个纽结简化为平凡纽结的难易程度。该问题的解决将成为纽结理论领域的一项重大成果。

纽结的解结数(unknotting number)是一个经典的不变量。它被定义为将纽结的图转化为解结后的图所需的最小交叉变换次数。本问题旨在设计一种算法,用于判断一个图是否描绘了一个解结数为 1 的纽结。

这个问题是低维拓扑学中的一个基本问题,如果能得到解决,将是一项重大成果。该问题在复杂度方面处于一个有趣的节点:虽然存在多项式时间算法可以判断一个纽结的解结数是否为零,但判断一个纽结的解结数这一一般性问题是 NP 难的——甚至目前尚不清楚其是否可判定。问题提出者乐观地认为,解结数等于 1 的情况至少是可判定的,而且对于中等规模的图来说,计算量也是可以承受的。

我们并未尝试进行完整的理论验证,而是在一个隐藏的、已知解结次数的纽结挑战集上测试所提出的算法。虽然我们希望在这个挑战集上的完美表现能够表明概念上的突破,但人工智能系统也可能拼凑出许多临时方法并取得成功。如果出现这种情况,我们可以通过生成更具挑战性的示例来解决这个问题。

乔尔·哈斯(Joel Hass)

加州大学戴维斯分校 数学系教授

https://epoch.ai/frontiermath/open-problems/unknotting-number

https://epoch.ai/files/open-problems/unknotting-number.pdf

5、数论——突破性成果

将 Apéry(阿佩里) 对ζ(3)无理性的证明应用于其他常数。

1979 年,阿佩里证明了 ζ(3) 是无理数。该证明的核心在于利用一个特殊的递推关系,如下所示。当以两种不同的方式初始化时,该递推关系可以得到一对级数,这两个级数可以配置为“快速”收敛于 ζ(3) 。这种快速收敛足以证明 ζ(3) 是无理数。

n³uₙ = (34n³ - 51n² + 27n - 5) uₙ₋₁ - (n-1)³uₙ₋₂

本问题的目的是找到类似的递推关系和初始值,以便证明其他“著名”常数的无理性。

https://epoch.ai/frontiermath/open-problems/apery-irrationality

6、组合数学——中等有趣的成果

超图上的拉姆齐式问题:构造尽可能大的超图,使其不具有某种易于检查但难以发现的性质。

这个问题是关于改进序列H(n)的值的下界,该序列出现在研究如下定义的无穷级数集合的同时收敛性时。如果存在某个D⊆V和 P⊆H ,使得|D|=n 且 D中的每个元素都恰好包含在P的一个元素中,则称超图(V, H) 包含大小为 n的划分。 H(n)是最大的 k∈ℕ ,使得存在一个超图(V, H) ,其中|V| =k 没有孤立顶点,并且不包含大小大于n 的划分。人们认为,目前已知的H(n)的最佳下界即使在渐近意义上也是次优的,并且可以通过寻找新的超图构造来改进它们。本问题的目标就是找到这样一种构造。

威尔·布莱恩(Will Brian)

北卡罗来纳大学夏洛特分校数学助理教授

https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs

https://epoch.ai/files/open-problems/ramsey-hypergraphs.pdf

7、数论——坚实成果

算术挂谷猜想:通过构造特定组合对象改进已知上界。

集合ℝᵈ中的 Kakeya(挂谷)集是一个有界集合,它在每个方向上都包含一条单位线段。这样的集合可以具有零测度,但 Kakeya 猜想认为它们总是具有 (Minkowski闵可夫斯基 和 Hausdorff豪斯多夫) 维数d。对于 d≥4 ,该猜想仍未解决。

一个相关的猜想是算术 Kakeya 猜想,它可以表述为:实数α具有性质AK(·) 。显然,性质AK(2) 成立。算术 Kakeya 猜想是性质AK(1)成立,并且已知性质AK(1) 蕴含 Kakeya挂谷猜想。目前最先进的结果是性质 AK(γ ),其中γ ≈1.675是多项式x³-4x+2 的最大根。

由于 Katz 和陶哲轩的工作,我们可以通过构造某些有限的组合对象,证明AK(α) 对于特定的α 值成立。这种方法是目前最先进的结果的基础。本问题的目标是在此基础上进行改进,即找到一个α,能够证明对于α < γ,AK(α)成立的组合对象。已知该方法存在局限性:它不适用于 α < 3/2 。因此,本问题无法证明完整的 Kakeya 挂谷猜想。

托马斯·F·布鲁姆(Thomas Bloom)

曼彻斯特大学皇家学会研究员

https://epoch.ai/frontiermath/open-problems/arithmetic-kakeya

https://epoch.ai/files/open-problems/arithmetic-kakeya.pdf

参阅

8、组合数学——坚实成果

布尔函数的次数与敏感度:改进次数 (degree) 优于敏感度 (sensitivity) 的上界指数。

给定一个布尔函数f ,已知f 的灵敏度,记为s(f) ,至少是其次数(记为deg(f))的平方根,并且这个界限是紧的。

上限不太明确。已知s(f) ≤deg²(f),最近的研究,通过一个小于1的常数(≈0.83)将其改进 。此外,还有 s(f) = deg^{log(6) / log(3)}(f) 的显式构造。这里的指数约为1.63 。

本问题的目标是找到一种新的构造方法,以改进这个界限。

https://epoch.ai/frontiermath/open-problems/degree-sensitivity-boolean

https://epoch.ai/files/open-problems/degree-sensitivity-boolean.pdf

9、代数几何——坚实成果

代数的显式形变:找出从曲线代数到单项式代数的显式形变。

对阿廷代数形变(deformation)的研究是点的希尔伯特概型(Hilbert scheme)Hilbᵏ(ℂⁿ) 的几何的核心。曲线分量CHilb₀ᵏ(ℂⁿ)扮演着特殊的角色:它参数化了在ℂⁿ内部局部同构于Spec(k[t]/tᵏ) 的子概型。

已知每个这样的理想都是相同维数的曲线理想的形变,但证明本质上是非构造性的。这类构造在各种应用中都很有用。本问题旨在为特定的单项式代数提供一个显式的形变。作者期望,解决此问题将指向构造此类形变的一般策略,而这才是本问题的真正目标。

格尔盖利·贝尔齐(Gergely Berczi)

奥胡斯大学副教授

https://epoch.ai/frontiermath/open-problems/explicit-deformations

https://epoch.ai/files/open-problems/explicit-deformations.pdf

10、组合数学——坚实成果

大型斯坦纳系:构造一个 (n,q,r)-斯坦纳系,其中 n>q>r>5, r<10, 且 n<200。

斯坦纳系(Steiner system)是高度对称的组合对象,在实验设计和纠错码领域有着广泛的应用。自 19 世纪中期以来,人们一直在积极研究斯坦纳系。

正式定义很简单:给定一个大小为 n 的集合S ,一个 (n,q,r)-Steiner 系是 S 的 大小为q的子集的集合,使得S的每个大小为r的子集都恰好包含在一个大小为q的子集中。

或许令人惊讶的是,尽管 2014 年证明的定理表明存在许多包含r>5 的斯坦纳系实例,但目前尚未发现此类实例。虽然不能保证存在包含 n<200 且5

库纳尔·马尔瓦哈(Kunal Marwaha)

芝加哥大学量子计算专业的博士研究生

https://epoch.ai/frontiermath/open-problems/large-steiner-systems

https://epoch.ai/files/open-problems/large-steiner-systems.pdf

11、数论——突破性成果

素数分解(质因数分解):改进 GNFS(通用数域筛法)指数中的常数因子。

目前最著名的经典大整数因式分解算法是通用数域筛法(GNFS)。它的时间复杂度是待分解数字位数的指数级增长。虽然已知存在多项式时间量子算法可以用于整数因式分解,但尚不清楚是否存在多项式时间经典算法。然而,GNFS 算法很可能存在显著的改进空间。

本问题的目标是找到这样的改进。我们通过在计算资源有限(例如,在笔记本电脑上运行)的情况下,对挑战整数进行测试,以数值方式验证解决方案。挑战的选择旨在确保成功的唯一途径是找到至少与 GNFS 运行时指数常数因子显著改进相当的改进方案。

这将是计算数论领域的一项重大突破。

https://epoch.ai/frontiermath/open-problems/prime-factorization

12、数论——坚实成果

2-进绝对伽罗瓦群:给出 2-进数域的绝对伽罗瓦群作为profinite群(投射有限群)的展示。

域K的绝对伽罗瓦群是所有有限伽罗瓦群Gal(E/K) 的投射极限。它包含了所有有限扩张的信息,研究有理域ℚ的伽罗瓦群是代数数论中的一个核心问题。研究这个群的一种方法是研究 p-adic(p进)域 ℚₚ 的类似伽罗瓦群。在这种情况下,对于 p>2 ,存在Gal(⁻ℚₚ⁻ / ℚₚ) 的显式表示。对p=2 ,我们有ℚ₂的某些扩张的绝对伽罗瓦群的描述,但对于ℚ₂本身却没有。找到这样的描述将填补我们对伽罗瓦群显式理解的空白,并且对于给定伽罗瓦群的 p-adic 域的计数将具有重要意义。

戴维·罗(David Roe)

MIT 首席研究科学家

https://epoch.ai/frontiermath/open-problems/q2-absolute-galois

https://epoch.ai/files/open-problems/q2-absolute-galois.pdf

13、组合数学——重大进展

拉伸的 LR(Littlewood-Richardson) 系数:找出划分(即分拆),其拉伸 LR 系数表示为多项式时,具有负系数。

Littlewood-Richardson (LR,利特尔伍德-理查德森) 系数是代数组合学中的核心量,出现在几个相互关联的领域中。它们由划分λ,μ,ν 索引,记为 c_{λμ}^ν。拉伸 LR 系数是底层划分的整数缩放的 LR 系数,记为 c_{tλ, tμ}^{tν}。

已知拉伸 LR 系数是关于t 的多项式。有人猜想该多项式的系数为正,但出题人预期此猜想不成立。本题旨在找到一个反例。

https://epoch.ai/frontiermath/open-problems/stretched-lr-coefficients

https://epoch.ai/files/open-problems/stretched-lr-coefficients.pdf

14、拓扑/几何——重大进展

辛球堆积:找出辛球 (symplectic balls) 到单个目标球的显式嵌入,占据目标球除 ϵ 外的所有体积。

在四维空间中,已知当k≥10 时,可以用半径相同的 k 个辛球完全填充一个辛球。这里的“完全填充”指的是,对于任意小的ϵ>0 ,可以找到一个辛同构(symplectomorphism),使得这些球的像占据目标球除ϵ以外的所有体积。然而,这个证明并不明确。找到这些嵌入的显式构造仍然是一个重要的开放性问题。

凯勒·西格尔(Kyler Siegel)

南加州大学数学系助理教授

https://epoch.ai/frontiermath/open-problems/symplectic-ball-packing

https://epoch.ai/files/open-problems/symplectic-ball-packing.pdf

二、题目特点:兼具数学意义、多样性与高难度

本基准测试的题目均由专业数学家提供。他们基于自己的研究方向,筛选出那些自己也渴望得到答案的问题。同时,这些数学家还会对题解的学术价值进行评级,等级从“分支领域内具有一定趣味性的成果”到“突破性成果”不等。我们的目标是让不同等级的题目在测试集中保持均衡分布。

我们的核心目标是筛选出那些本身对数学家具有重要意义的问题。我们不会为了刻意增加AI人工智能的解题难度而设计题目。与那些为测试量身定制的题目不同,这些题目都是数学研究领域的核心问题【注1】。我们希望知道人工智能系统是否能够解决这些问题,如果可以,那自然是一项重大突破。

需要强调的是,至少对于人类而言,这些题目难度极高。提供题目的数学家会根据尝试过解题的人数对题目进行评级,尝试解题的数学家数量范围从2-4人到50-100人不等。

此外,数学家还会预估人类解答这些题目的时间。具体来说,就是假设最有能力解决该问题的数学家全职投入研究,要达到50%的解题概率所需的时间。预估结果从1-4周到3-10年不等。 【注2】也就是说,人类解答这些题目的门槛非常高。

这些题目覆盖了多个数学分支领域。本次试点测试集的题目偏向组合数学和数论,原因是我们在这两个领域找到了更多适合自动验证的问题。在扩充题目库的过程中,我们将致力于保持题目所属领域的多样性。

三、前沿数学(FrontierMath)开放性问题测试集构成

按解题学术价值等级(解决方案的显著性、名气值)、预估解题时间、尝试解题的数学家数量、所属数学领域来看分布:

打开网易新闻 查看精彩图片

四、解决方案可实现自动验证

评估AI人工智能针对未解决数学问题给出的解决方案,是一项重大的后勤挑战。数学研究成果通常以自然语言论文的形式呈现。即便对于人类来说,评估这类论文也需要投入大量精力,且容易出现错误。虽然人工智能系统在评估自然语言数学内容方面已经取得了一定进展,但对于高水平的数学研究成果,我们还无法完全信赖其评估的准确性。【注3】

我们的解决思路是,筛选出这类问题:即便目前尚未找到答案,但候选解决方案可以通过在普通计算机上运行的简易程序进行验证。这类可验证的问题的存在并非显而易见,但我们确实找到了不少。

例如,部分题目要求构造一个具有特定性质的具体数学对象。其中一道题目就要求找到一个满足特定条件的多项式。【注4】验证一个给定的多项式是否符合要求的过程很快,但想要找到这样的多项式,却超出了包括高度优化的大规模搜索在内的所有已知方法的能力范围。这道题的研究价值在于,要构造出目标对象,似乎必须借助创新性的概念方法。

在另一些情况下,题目要求构造一个适用于所有正整数的通用方法。我们无法对所有正整数的情况进行验证,但可以要求解题者提供一个算法。该算法以任意整数为输入,输出对应情况下的构造方案。我们可以在一个测试整数集上验证该算法的有效性。这个测试集包含一些目前尚无构造方案的整数,且数值足够大,足以让暴力搜索方法难以奏效。如果算法在测试集上表现良好,就有充分的理由相信该算法是一个通用解决方案。

这种方法也存在局限性,它限制了我们选题的范围。我们的理想状态是从所有未解决的数学问题中随机抽样,但自动验证的要求不可避免地带来了选题偏差。基准测试中的题目往往具有较强的具象性,可能不需要涉及“理论构建”这类较抽象的数学研究工作。即便如此,令我们惊喜的是,数学家们能够轻松提供大量既符合自动验证条件,又具有重要数学意义的多样化题目。【注5】

五、部分基准测试题目可能无解

本基准测试存在一个固有风险,即部分题目可能并不存在符合题述要求的解。这种情况主要分为两种:一是目标数学对象根本不存在;二是目标数学对象确实存在,但其规模超出了验证程序的处理能力,无法被验证程序判定为有效解。

我们认为,这类情况并不会影响对基准测试整体结果的解读。成功解题显然具有重要意义。而在某一难度等级下未能解开所有题目,同样具有研究价值。随着题目库规模扩大到超越当前试点版本,这一结果的参考意义将更加显著。因此,我们鼓励这样解读测试结果:“我们已经观察到多个人工智能解决具有一定趣味性的数学开放性问题的案例,但尚未出现能够实现重大突破的案例。”

尽管存在上述风险,我们仍尽力确保入选的题目大概率存在解。对于部分题目,我们有启发性的理由相信符合要求的解是存在的。对于所有题目,我们至少没有发现任何能够证明其无解的证据。【注6】

我们设定的目标是,提供题目的数学家对题目的可解性评估概率至少达到80%。【注7】但实际情况是,数学家在给出50%-80%的概率评估时,往往会强调其判断存在高度不确定性。

六、已解决的题目将被移出基准测试

一旦某道题目被破解,无论是被人类还是AI人工智能,相关成果都会被公开发表。【注8】这样一来,后续的人工智能系统在面对这道题时,只需检索已有文献就能找到答案。因此,我们会将已解决的题目移出基准测试。

这种“先解先得”的模式虽然并不常见,但我们认为,这并不会削弱前沿数学开放性问题基准测试的整体价值。该基准测试的目的并非给出一个评分,用于比较不同模型解决开放性问题的能力。它的核心价值在于,判断AI人工智能系统是否具备解决特定难度和重要性级别的数学问题的能力。

七、该基准测试有助于追踪AI的“研究品位”

该基准测试最直接的目标,是探究人工智能是否能够解决未解决的数学问题。同时,我们认为它还有助于追踪一些较难量化的能力,例如“研究判断力”,也就是AI人工智能系统在选择研究方向、识别关键规律等方面的能力。

这类能力对于理论数学研究似乎至关重要。在理论数学领域,找到正确的研究思路往往是最困难的环节。如果人工智能系统能够解决那些人类倾注大量心血仍未攻克的数学难题,那就意味着它可能正在逐步形成超越人类的通用研究判断力。

当然,这并非必然结果。或许和国际象棋或围棋一样,数学的形式化本质恰好让它成为人工智能系统相对容易突破的领域。也有可能人工智能系统会以一种我们认为不够优雅的方式解决这些问题。【注9】即便如此,我们仍很高兴能将这一基准测试纳入工具库,用于追踪这些难以量化的人工智能能力。

八、期待各方积极尝试用AI求解这些问题

我们的核心目标是摸清AI人工智能数学能力的边界。但目前,我们尚未找到激发人工智能在基准测试中展现最佳性能的最优方法。

到目前为止,我们仅尝试了一种简单方法:在网页应用中直接向GPT-5.2 Pro和Gemini 3 Deep Think模型输入提示词。【注10】相关测试结果可在各题目的详情页面查看。在这种测试模式下,这些模型通常能够解决一些“热身题”。这些题目是已有答案的开放性问题变体。这表明模型能够理解题目要求,并且熟悉相关主题领域。同时,这也有助于测试验证程序的有效性。

但当面对真正的开放性问题时,这些模型的表现就不尽如人意了。有时,它们执着于使用优化算法,而非可能更有效的概念性方法。还有些时候,它们会识别出题目是开放性问题,然后直接放弃求解。

要解决这些问题,显然需要模型具备更强的“思考”能力。目前的AI人工智能模型已经能够进行规划、执行、修正和迭代等操作。但要攻克这些难题,它们可能需要更多的时间和计算资源。如何为模型创造这样的条件,本身就是一个开放性的研究问题。【注11】

我们正在开发一个框架,以支持人工智能系统对这些问题进行更深入的求解尝试。同时,我们也期待其他机构和研究者积极参与。如有任何疑问,可发送邮件至math@epoch.ai联系我们。

附录:关于未来AI人工智能解题成果的注意事项

该基准测试本质上是对一系列数学问题的研究价值进行预先登记。即便如此,如果这些问题最终以某些特定方式被解决,我们就需要给出一些相应的说明。在此,我们也对这些注意事项进行预先登记,以避免后续出现“随意调整评判标准”的争议。【注12】

1. 人机协作

人类与AI人工智能系统之间已经出现了富有成效的数学协作。一种典型的协作模式是,人工智能系统负责生成示例,人类研究者则基于这些示例归纳出完整的解决方案。事实上,借助计算机搜索有用示例的方法,早在基于大语言模型的人工智能系统出现之前就已经存在。对于这类协作产生的解题成果,我们需要评估人机双方的分工情况。人工智能系统在概念性工作中承担的职责越多,就越能体现其能力的进步。

2. 已有研究成果的借鉴

AI人工智能系统的数学知识广度可能已经超过了顶尖人类数学家。有可能某个已有的研究成果已经为解决某道题奠定了大部分基础,只是尝试解题的数学家此前并未关注到这一成果。对于那些知名度较高的问题,这种情况发生的概率较低。但无论如何,如果人工智能的解决方案严重依赖已有研究成果,其体现的能力进步幅度就会大打折扣。当然,如果人工智能系统能够以创新性的方式应用已有成果,那就无需附加任何说明——因为这正是数学研究的常见模式。

3. 传统计算资源的运用

如果AI人工智能系统提出一种经过优化的并行搜索算法,而某家AI人工智能公司投入相当于一台超级计算机运行一个月的计算资源来执行该搜索,那么即便问题被解决,其背后所体现的数学洞察力也可能低于预期。虽然我们在选题时,已经尽量排除了仅靠暴力搜索就能解决的问题,但我们无法对此做出绝对保证。毕竟,大多数数学问题都未曾得到过如此大规模的工业级计算资源的支持。

4. 验证程序的设计缺陷

验证程序可能会判定某个AI人工智能解决方案有效,但该方案实际上并未达成提供题目的数学家期望验证程序识别的概念性突破。在简单情况下,这类缺陷只是程序漏洞。而在更复杂的情况下,可能是因为题解的验证难度超出了数学家最初的预期。对于这类情况,我们会进行公开报告,并在可能的情况下修复验证程序。

5. 样本偏差

我们必须正视自动验证要求带来的样本偏差问题。抛开上述所有注意事项不谈,在该基准测试中取得进展,本质上就等同于解决了具有重要意义的数学开放性问题。但也有可能,AI人工智能系统在解决这类适合自动验证的、具有重要意义的数学开放性问题方面,具有独特的优势。如果事实果真如此,那么该基准测试中取得的进展,可能无法很好地推广到数学的其他领域。

1. 也就是说,该基准测试具有较高的结构效度。

2. 数学家们普遍强调,这些预估解题时间很可能并不准确,甚至可能毫无参考价值。但我们认为,预估时间的巨大跨度至少能为我们提供一些信息。

3. 有关人工智能系统评估自然语言数学证明的研究,可参考相关文献。

4. 即寻找一个伽罗瓦群为马蒂厄群M₂₃的多项式。数学家们曾尝试构造这样的多项式,但均未成功,但他们仍然相信这样的多项式是存在的。

5. 另一种可行的方法是采用完全形式化的方案,最有可能的是要求人工智能系统在Lean语言中实现解决方案。我们最终没有选择这种方法,原因有三,且都与Lean平台仍在发展阶段这一现状有关。

首先,许多数学分支的理论基础尚未在Lean中完成形式化。

其次,即便题目的描述可以形式化,解题所需的部分概念也可能无法在Lean中实现。

第三,与其他编程范式相比,Lean的实际应用检验还不够充分。特别是,该语言中可能还存在不少难以察觉的漏洞,而人工智能模型有可能会利用这些漏洞。目前,我们更倾向于使用简单的专用验证程序。尽管从长远来看,Lean或其他形式化系统可能会成为更实用、更具可扩展性的解决方案。

6. 我们明确排除了这类问题:要求寻找某个猜想的反例,而数学家们普遍认为该猜想是正确的。例如,找到一个无法表示为两个素数之和的偶数,就可以推翻哥德巴赫猜想。至少在反例数值不是特别巨大的情况下,验证这样的反例是很容易的。但如果数学家们对哥德巴赫猜想的判断是正确的,那么这样的反例就不存在。人工智能系统找不到这样的反例,并不能说明任何问题。

7. 这其中也考虑了为实现自动验证而对解题方案规模施加的限制。例如,不仅要证明某类数学对象存在,还要证明存在一个规模足够小、能够被验证程序处理的此类对象。

8. 事实上,任何机构购买验证程序的使用权限时,都需要遵守一个条件:如果通过验证程序取得了解题成果,必须通知我们(Epoch)和提供该题目的数学家。解题成果的发表权归该机构、数学家与我们(Epoch)共同所有。需要说明的是,提供题目的数学家在其研究工作中,仍然可以自由地研究自己贡献的题目,不受任何限制。

9. 当然,这并不会否定这些解决方案的有效性。毕竟,“美即是真,真即是美”,不是吗?

10. 在网页应用中直接输入简单提示词,往往就能激发模型的最佳性能。例如Gemini 2.5 Deep Think和GPT-5.2 Pro模型就属于这种情况。

11. 在AlphaEvolve项目中,研究人员使用了一个有趣的提示词,让模型“相信自己”。说不定这种方法真的有效呢!

12. 借用道格拉斯·亚当斯的话来说:我们就爱调整评判标准,就爱听它被打破时发出的呼啸声。

参考资料

https://epoch.ai/frontiermath/open-problems/about

小乐数学科普近期文章

·开放 · 友好 · 多元 · 普适 · 守拙·

打开网易新闻 查看精彩图片

让数学

更加

易学易练

易教易研

易赏易玩

易见易得

易传易及

欢迎评论、点赞、在看、在听

收藏、分享、转载、投稿

查看原始文章出处

点击zzllrr小乐

公众号主页

右上角

置顶加星

数学科普不迷路!