当你听说某个AI模型在数学考试中得了满分时,可能会觉得人工智能的数学能力已经超越人类了。然而真实情况远比这复杂。最近这项来自腾讯和中国人民大学的研究揭示了一个令人深思的现象:当我们用真正的前沿数学研究来测试这些AI时,即便是最先进的模型也会暴露出巨大的能力短板。

打开网易新闻 查看精彩图片

研究团队开发了一个名为EternalMATH的测试系统,它的特别之处在于能够自动从最新发表的数学论文中提取问题。这就好比给AI出题的老师永远站在数学研究的最前沿,随时根据人类最新的数学发现来更新考卷。实验结果显示,在这个"永恒更新"的数学测试中,表现最好的GPT-5.2模型准确率也只有49.4%,而大多数模型的得分甚至低于40%。这与它们在传统数学竞赛中接近满分的表现形成了鲜明对比。

打开网易新闻 查看精彩图片

为什么传统的AI数学测试已经不够用了

当前用来评估AI数学能力的测试大多来自数学竞赛题库或者教科书习题。以GSM8K和MATH这两个广泛使用的测试集为例,它们主要包含中小学到高中竞赛级别的数学问题。随着AI模型能力的快速提升,这些测试的区分度已经大幅下降。目前顶尖的AI模型在这些测试上的得分已经接近完美,这意味着我们很难再通过这些测试来判断不同模型之间的真实能力差异。

更麻烦的是,这些公开的测试题目很可能已经被纳入了AI训练数据。由于这些题目来源于公开的竞赛和教材,AI在训练过程中可能已经"见过"类似的题目和解法,因此高分并不一定代表真正的数学推理能力,而可能只是记忆和模式匹配的结果。这种现象被称为"数据污染",它让我们难以判断AI是真的理解了数学,还是只是记住了答案。

为了解决这个问题,近期出现了一些由专家精心设计的高难度测试,比如FrontierMath和"人类最后的考试"。这些测试确实提高了难度,但它们面临着另一个根本性挑战:制作成本极高且更新缓慢。以"人类最后的考试"为例,它动员了近1000名来自全球500多所机构的专家学者,设立了50万美元的奖金池来激励参与。这样的规模虽然保证了质量,但也意味着测试很难频繁更新。更关键的是,一旦这些专家设计的题目公开发表,它们同样会面临被纳入未来AI训练数据的风险,从而失去测试的有效性。

另外一个值得注意的问题是,专家设计的难题往往是为了考倒AI而特意构造的抽象谜题。虽然这些题目确实很难,但它们与真实数学研究中遇到的问题还是有本质区别的。真实的数学研究问题往往源于具体的数学结构和理论框架,而不是孤立的智力游戏。因此,如果我们想要真正评估AI处理前沿数学研究的能力,就需要一种能够直接从真实数学研究中提取问题的方法。

EternalMath如何从数学论文中自动生成测试题

研究团队提出了一个全自动的四阶段生成流程,这个流程的核心思想是将最新发表的数学论文中的定理直接转化为可执行、可验证的测试题。整个过程不需要大规模的人工出题,而是依靠精心设计的计算机程序来完成。

打开网易新闻 查看精彩图片

第一阶段是论文筛选。系统会从数学领域的顶级期刊和arXiv预印本库中选择最近一到两年发表的论文。这个时间窗口的选择很关键,因为它确保了这些数学结果几乎不可能出现在现有AI模型的训练数据中。论文的来源也经过精心挑选,只包括那些经过严格同行评审的权威期刊,比如《数学年刊》《创新数学》等顶级刊物,以及经过初步审核的arXiv论文。

筛选标准还有一个重要维度,那就是"可计算性"。并非所有的数学定理都适合转化为测试题。研究团队专门寻找那些具有"构造性"或"定量性"的结果,也就是说,给定输入条件A和限制条件B,能够通过某个明确的过程计算出结果C。这类定理的特点是具有清晰的输入输出关系,可以被转化为程序来执行。值得强调的是,这个标准并不会把测试局限在传统的计算数学领域,因为现代数学研究中,从泛函分析的明确界定,到代数几何中的拓扑不变量计算,构造性结果遍布整个数学图景。

研究团队总共整理了约400篇符合标准的论文,覆盖了数学的24个主要分支。其中偏微分方程占比最高,达到11.9%,其次是组合数学(9.8%)、群论(7.0%)、代数几何(6.3%)等。这种广泛的覆盖确保了测试不会偏向某个特定领域,而是全面考察AI在各个数学分支上的推理能力。

打开网易新闻 查看精彩图片

第二阶段是多智能体协作生成。这里的"多智能体"指的是四个专门设计的AI代理程序,每个程序负责一个特定的任务。这种分工合作的设计是经过深思熟虑的,因为把整个生成过程交给单一的AI往往会导致质量不稳定。通过将复杂任务分解为几个清晰定义的子任务,每个AI代理可以在严格约束下专注完成自己的工作,从而提高整体可靠性。

第一个代理是分类代理,它的工作是给每篇论文打上数学分类标签。这些标签遵循数学学科分类标准MSC2020,可以为每篇论文分配最多三个主题代码。通过这种分类,系统能够系统地组织论文,并且支持按领域定制测试。比如,如果我们想专门测试AI在代数几何方面的能力,就可以只从相关分类的论文中生成题目。

第二个代理是模板生成代理。它从论文中识别出适合转化的数学陈述,比如定理或命题,然后将其转化为参数化的"元模板"。这个模板以结构化的JSON格式记录了所有必要信息:参数的取值范围、生成约束条件、问题陈述、解题步骤、验证规则等。关键是这个模板是参数化的,意味着通过改变输入参数,可以从一个模板生成多个不同的具体题目。

研究团队特意限制每篇论文最多生成两到三个模板。虽然一篇论文通常包含多个可用的定理,但这种限制是为了保证质量而非追求数量。在初步筛选过程中,系统会评估每个候选模板的质量指标,只保留那些最有价值的模板。经过这个过程,团队最终获得了891个高质量的独特模板。

第三个代理是代码转换代理。它将元模板转化为可执行的Python脚本。这些脚本通常使用符号计算库和数值计算库,能够根据给定的参数自动计算精确解,并且内置了源自原始数学陈述的一致性检查。这一步骤的关键在于,它确保了每个生成的题目都有一个可以通过程序验证的确定性答案。

第四个代理是执行和验证代理。它运行生成的脚本,并应用多阶段验证流程,包括运行时检查、解的完整性验证、约束条件一致性测试等。只有通过所有验证阶段的题目才会被保留。这个设计确保了系统生成的题目不仅在数学上是正确的,而且可以被可靠地自动评分。

第三阶段是自动执行和验证。这个阶段的作用是确保每个生成的问题都有唯一确定的正确答案,并且这个答案可以通过程序自动计算和验证。通过使用符号计算库,系统能够进行精确的数学运算,避免数值误差带来的问题。整个过程完全自动化,不需要人工干预,这是实现大规模生成的关键。

第四阶段是验证和质量保证。虽然前面的阶段都是自动化的,但研究团队仍然设计了多层次的质量检查机制。首先是问题有效性审查,确保生成的问题陈述清晰、数学上合理,并且有唯一的明确解。如果一个问题可能有多种解释,或者依赖于未明说的假设,或者问题本身设置不当,就会在这个阶段被排除。

接下来是原创性检查。系统会评估每个问题的新颖性,确保它不是对现有公开题目的简单重复。由于所有问题都源于最近的研究成果,并且经过了结构转换和参数化实例化,这些题目本质上都是原创的,而不是对竞赛题或教科书习题的改写。通过与公开数学语料库进行比对,系统会过滤掉那些高度相似或容易匹配的实例,进一步降低数据污染的风险。

然后是难度筛选。研究团队使用了一组前沿AI模型,包括GPT-5.1-high、Gemini-3-pro、DeepSeek-v3.2等,来测试候选题目。如果某个题目被所有模型在多次尝试中都答对了,说明它对当前AI来说太简单,可能只需要浅层启发式方法就能解决,因此会被排除。剩下的问题根据正确解答的模型数量被分为三个层次:困难级(0到1个模型答对)、中等级(2到3个模型答对)和简单级(4个或更多模型答对)。需要强调的是,这里的"简单"只是相对而言,即便是简单级的问题,仍然属于研究级别的数学。

最后是人工验证。虽然整个流程不依赖大规模人工评审,但团队仍然对所有1255个候选题目进行了最终的人工检查,确保一致性、合理性和答案唯一性。约2%的样本因为正确性问题被移除,还有一些因为难度不足被排除。为了验证系统的可靠性,团队邀请数学博士对随机抽取的100个题目进行盲审,结果显示准确率达到98%。经过这个严格的筛选过程,最终形成了包含782个问题的精选数据集,其中51.66%(404个)被归类为困难级。

打开网易新闻 查看精彩图片

用一个具体例子看整个流程如何运作

为了让读者更直观地理解这个系统是如何工作的,研究团队提供了一个完整的案例。这个案例从一篇2025年发表在《代数学杂志》上的论文开始,论文编号为Journal of Algebra 687 (2026) 477-491。

论文中有一个定理(定理1.6b)描述了对称群上Cayley图的能量计算。对称群S_n是所有n个元素排列组成的群,而Cayley图是用来可视化群结构的一种图。这个定理给出了当n是素数时,特定Cayley图能量的精确公式:E(∆) = 2^(n-1) × (n-1)!。这里的"能量"是图论中的一个概念,定义为图的邻接矩阵所有特征值绝对值的和。

元模板生成代理读取这个定理后,创建了一个参数化模板。模板定义了一个参数n,要求n是一个素数,范围在5到400之间。问题陈述被转化为:"考虑一个图∆,其顶点集是对称群S_n(即集合{1,2,...,n}上所有排列的群)。对于图中的任意两个顶点(排列)u和v,如果存在一个n-循环a使得v = a ◦ u,则在u和v之间画一条边。给定n是素数,计算图∆的能量。"

代码转换代理将这个模板转化为Python脚本。脚本首先从素数列表中随机选择一个值作为n,然后应用公式计算能量。关键的计算代码非常简洁:result = (2**(n-1)) * math.factorial(n-1)。脚本还包含了验证逻辑,确保选择的n确实是素数,计算过程没有错误,并且结果是正数。

执行代理运行这个脚本,生成具体的问题实例。假设随机选择的素数是181,那么生成的具体题目就是:"考虑一个图∆,其顶点集是对称群S_181...计算图∆的能量。"答案是2^180 × 180!,这是一个有几百位数字的天文数字。

这个例子清楚地展示了系统的强大之处:从一个深奥的代数定理出发,通过自动化流程生成了一个既有数学深度又可以客观验证的测试题。而且,通过改变参数n的值,同一个模板可以生成无数个不同的题目,每个都同样有效且原创。

顶尖AI模型在EternalMath上的表现揭示了什么

研究团队用EternalMath测试了12个当前最先进的大语言模型,包括OpenAI的GPT-5系列、Google的Gemini-3-pro、DeepSeek的v3.2系列、阿里的Qwen3-max、字节跳动的Doubao-seed等。测试时,模型被允许使用它们支持的最大上下文长度和输出长度,确保不会因为技术限制而影响表现。

整体结果令人深思。表现最好的GPT-5.2-xhigh模型的准确率是49.4%,这意味着即便是最强大的AI,在面对研究级数学问题时,也有一半以上会答错。而大多数其他模型的准确率都低于40%,有的甚至只有15%左右。这与它们在传统数学测试上接近满分的表现形成了鲜明对比。比如在AIME 2025(美国数学邀请赛)上,GPT-5.2、Gemini-3-pro和DeepSeek-v3.2-thinking的准确率都在90%以上,甚至接近或达到100%。

打开网易新闻 查看精彩图片

更有意思的是不同难度级别上的表现差异。在简单级问题上,多个模型都表现出色。Qwen3-max达到了94.8%,与GPT-5.1-high持平,甚至超过了Gemini-3-pro的88.8%。然而随着难度提升,差距开始显现。在中等难度问题上,GPT-5.1-high以76.3%的准确率明显领先,而Qwen3-max下降到49.6%。到了困难级问题,差距进一步拉大。Gemini-3-pro在这个级别上准确率为7.7%,GPT-5.1-high是6.9%,而Qwen3-max仅为2.7%。

这个结果表明,虽然开源模型在基础数学推理上已经相当出色,但在需要深度推理的高难度数学问题上,与闭源的商业模型仍有明显差距。值得注意的是,EternalMath的设计有意将重心放在挑战性推理上,困难级问题占了总数的51.7%以上。即便在这样严苛的设置下,最好的模型准确率也只有不到8%,这充分说明研究级数学推理仍然是AI面临的重大挑战。

研究团队深入分析了100个失败案例,发现了AI在处理研究级数学时的几种典型错误模式。最常见的是"知识鸿沟",也就是说模型缺乏处理专门前沿定理所需的专业知识,往往会退回到本科水平的启发式方法。当遇到超出训练数据分布的专门研究定理时,模型经常会制造"逻辑幻觉",编造听起来合理但实际不存在的数学性质来弥补推理缺口。

打开网易新闻 查看精彩图片

另一个常见问题是"过早停止"。对于需要高逻辑深度的问题,模型可能正确处理了初步的简单步骤,但在遇到核心技术瓶颈时,就用模糊的定性陈述敷衍过去,而不是真正解决问题。还有"冗余循环",模型反复重新表述等价的陈述,看起来在推理,实际上没有在逻辑深度上取得任何进展。

在处理特殊情况方面,模型也表现出明显的不足。"边界忽视"现象很普遍,模型可能正确识别了一般趋势,但没有考虑到奇异点、退化情况或特殊案例,而这些情况可能会推翻一般假设。随着推理链条变长,计算精度问题和内部不一致性也开始显现,表明高保真度的符号运算仍然是AI的基本瓶颈。

研究团队还发现,模型的失败往往不是孤立的,而是呈现出级联崩溃的模式。最常见的是"知识到幻觉链":当遇到知识鸿沟时,模型为了维持推理的表面连贯性,会制造直觉性的引理,从而触发逻辑幻觉。还有"复杂性诱导的消耗":在需要高逻辑深度的问题上,模型经过多次失败的结构转换尝试后,通常会耗尽推理资源,从而过早终止,用模糊的定性总结代替严格的推导。

这个系统相比专家出题有什么优势

EternalMath最显著的优势在于它的可扩展性和可持续性。传统的专家出题方式有着根本性的规模限制。以"人类最后的考试"为例,虽然动员了近千名专家,但最终产生的题目数量仍然是有限的。而且这种规模的组织协调本身就需要巨大的投入,包括50万美元的奖金池,以及大量的项目管理工作。更关键的是,一旦题目公开,它们就会面临被纳入未来AI训练数据的风险,使得测试失效。

相比之下,EternalMath的自动化流程使其能够持续从新发表的数学论文中提取问题。每年全球发表约30万篇数学研究论文,这为系统提供了几乎取之不尽的原材料。研究团队的多智能体流程在将识别出的定量核心转化为可验证问题方面,达到了约95%的成功率。即使采用保守的筛选标准,这个方法论也能够支持百万级别的题目生成,这比专家出题的规模高出几个数量级。

成本结构也完全不同。EternalMath的主要成本来自大语言模型API的调用,而这个成本是可以精确控制和预测的。按照当前Gemini-3-pro-preview的定价,生成并验证一个最终问题实例的总API成本估计不到10美元。而且这些API调用主要发生在模板级别,可以在从同一模板生成的多个实例化问题之间分摊,进一步降低了每个实例的有效成本。

人工投入被限制在轻量级的抽样审核上。审核人员在自动验证之后,对一小部分实例评估语义清晰度、数学合理性和答案唯一性。不需要人工出题或推导解答,每个验证问题所需的平均人工时间微乎其微。这与专家出题模式形成了鲜明对比,后者的每个问题都需要专家从构思到验证的完整投入。

质量保证方面,EternalMath采用了多层验证机制。与依赖启发式生成的方法不同,这个框架将每个任务锚定在经过同行评审的定理上。流程首先为每个参数化实例推导出确定性的Python求解脚本,问题只有在其解通过闭环执行检查后才被纳入测试集,确保生成的推理路径基于可代码验证的逻辑,而不是模型的幻觉。

为了评估这个自动化过程的可靠性,团队让学科专家对随机抽取的100个任务进行盲审。结果显示,自动化解答与专家基准在逻辑一致性和正确性方面的符合率达到98%。此外,专家给出的研究相关性平均评分为4.7分(满分5分),确认了流程在保持高验证标准的同时,也保留了原始文献的专业复杂性。

另一个重要优势是时效性。专家出题通常需要几个月甚至更长时间来组织、创作和审核。而EternalMath可以在数学论文发表后的几周内就将其转化为测试题。这意味着测试集可以持续保持在人类数学发现的最前沿,始终领先于AI模型的训练数据截止日期。这种动态更新能力是静态专家出题模式所不具备的。

灵活性也是一大优势。系统的框架支持按数学分支进行定制。如果研究人员想要专门测试AI在某个特定领域的能力,比如偏微分方程或代数几何,可以直接限制从相关分类的论文中生成题目。这种领域特定的定制在专家出题模式下通常需要专门组织相应领域的专家团队,成本和复杂度都会大幅增加。

这个研究对AI发展意味着什么

EternalMath揭示的核心事实是:尽管当前AI在标准化数学测试上表现出色,但在处理真实研究级数学时仍有巨大的能力差距。这个差距不仅仅是难度的差别,更重要的是性质的差别。研究级数学需要的不是熟练应用已知方法,而是在面对新的数学结构时,能够进行深度推理、识别关键模式、并严格验证推理链条的能力。

从测试方法学的角度,这项研究提供了一个重要的范式转变:从静态数据集管理转向动态生成方法论。传统的测试集一旦发布就开始老化,而EternalMath提供了一个可以与人类知识发现同步进化的评估框架。这种"永恒"的特性不仅是名字的来源,更代表了一种新的思路:评估工具本身应该是动态的、可更新的系统,而不是一次性的产品。

对于AI研究社区,EternalMath提供了一个更加真实和严格的评估标准。当我们看到某个模型在GSM8K或MATH上达到95%以上的准确率时,很容易产生AI数学能力已经接近人类的错觉。然而EternalMath的结果清楚地表明,我们距离真正的研究级数学推理还有相当长的路要走。这种清醒的认识对于设定合理的研究目标和评估真实进展至关重要。

从应用角度看,这个研究也提示了一个关键问题:我们应该如何定义AI的"数学能力"?如果AI只是擅长解决已知类型的问题,那它本质上还是一个高级的模式匹配器。真正的数学能力应该包括处理新颖问题、在陌生领域进行推理、以及验证复杂论证的能力。EternalMath正是在测试这些更深层次的能力。

研究团队也坦诚地指出了系统的局限性。自动化构建流程主要针对具有构造性或定量形式的定理,这可能会低估那些缺乏直接可执行验证的抽象数学领域。不过,随着现代数学越来越多的领域产生明确的、有效的陈述,这个覆盖范围预计会不断扩大。另外,流程依赖大语言模型进行定理提取和代码生成,这引入了一定的误解前沿研究最细微逻辑差别的风险。虽然这主要影响将专业术语转化为形式逻辑的过程,团队通过多阶段验证来缓解这个问题,但它仍然是自动化解析复杂文献时的固有因素。

难度分级是根据当前模型表现而非内在数学复杂度定义的,这意味着随着推理能力的进化,需要定期重新校准。这既是一个限制,也是系统设计的一个特点:测试的难度会随着AI能力的提升而动态调整,确保它始终保持挑战性。

归根结底,这项研究传达的信息是:数学推理的前沿仍然远未饱和,我们需要评估方法论能够与人类数学发现同步进化。EternalMath不仅仅是一个测试集,更是一个持续追踪AI在最高水平数学推理上进展的框架。它提醒我们,在为AI在标准测试上的高分欢呼之前,应该先问问:这些模型能否真正理解和推进人类知识的前沿?答案目前来看,显然还是否定的。不过正是这种清醒的认识,才能引导我们朝着真正强大的AI数学推理能力前进。

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1: EternalMath与传统数学测试集如MATH、GSM8K相比有什么本质区别?

A: EternalMath的本质区别在于它直接从最新发表的数学研究论文中自动生成问题,而不是使用竞赛题或教科书习题。传统测试集是静态的,一旦发布就可能被纳入AI训练数据,而EternalMath可以持续从新论文中提取问题,始终保持在AI训练数据截止日期之后。更重要的是,EternalMath的问题来自真实的数学研究,而非为了考试而设计的人工谜题。实验显示,顶尖AI模型在传统测试上准确率接近100%,但在EternalMath上只有不到50%,说明研究级数学推理仍是巨大挑战。

Q2: 为什么AI模型在EternalMath上的表现这么差?

A: 研究团队对100个失败案例的深入分析揭示了几种典型错误模式。最主要的是"知识鸿沟",模型缺乏处理专门前沿定理的知识,会退回到本科水平的方法或编造不存在的数学性质。其次是"过早停止",模型处理了简单步骤后,在核心难点上用模糊陈述敷衍过去。还有"边界忽视",模型忽略特殊情况和奇异点。随着推理链变长,计算精度问题和内部不一致性也开始显现。这些失败往往呈现级联模式,比如知识鸿沟触发逻辑幻觉,或复杂性导致推理资源耗尽。总的来说,AI在记忆和模式匹配上很强,但在需要深度推理、处理新颖结构和验证复杂论证时仍有本质性的局限。

Q3: EternalMath生成一个问题的成本是多少?与专家出题相比有什么优势?

A: 使用当前Gemini-3-pro-preview的定价,生成并验证一个最终问题的总API成本估计不到10美元。而且这些成本主要在模板级别产生,可以在从同一模板生成的多个实例间分摊。人工投入仅限于轻量级的抽样审核,每个问题所需的平均人工时间微乎其微。相比之下,"人类最后的考试"动员了近千名专家,设立了50万美元奖金池,人工成本极高且更新缓慢。EternalMath的自动化流程每年可以从约30万篇数学论文中提取问题,理论上能达到百万级规模,比专家出题高出几个数量级。更重要的是,系统可以在论文发表后几周内生成问题,持续保持在AI训练数据之前,实现真正的动态更新。