打开网易新闻 查看精彩图片

每年,参加国际数学奥林匹克竞赛(IMO)的各国代表团都会带来一本收录了本国最优秀、最具原创性题目的小册子。这些小册子在各代表团之间传阅后便悄然消失。多年来,从未有人系统地收集、整理这些资料并公开发布——无论是对于测试数学推理极限的AI研究人员,还是对于世界各地大多只能依靠自学备赛的学生来说,这都是一大缺憾。

如今,麻省理工学院计算机科学与人工智能实验室(CSAIL)、阿卜杜拉国王科技大学(KAUST)以及HUMAIN公司的研究人员,共同完成了这项工作。

MathNet是迄今为止规模最大的高质量证明类数学题库,收录了来自47个国家、覆盖17种语言、涵盖143项竞赛的逾3万道由专家撰写的题目与解答,规模是同类数据集中次大者的五倍。相关研究成果将于本月底在巴西举办的国际学习表征会议(ICLR)上正式发表。

MathNet的独特之处不仅在于其规模,更在于其广度。以往的奥林匹克级数据集几乎清一色来源于美国和中国的竞赛题目。而MathNet横跨六大洲数十个国家,涵盖17种语言,包含文字与图像两类题目及解答,并收录了长达四十年的竞赛数学内容。其目标是呈现全球数学界在数学视角与解题传统上的完整多样性,而非只聚焦于最具知名度的少数来源。

"每个国家都会带来一本收录其最新颖、最具创意题目的小册子,"麻省理工学院博士生、该论文第一作者沙登·阿尔沙马里说,"各代表团相互交换,但从没有人费心去收集、整理并上传到网上。"

构建MathNet是一项艰巨的工程,研究团队追踪收集了1595册PDF文献,总页数超过25000页,涵盖数字文件与数十年前的扫描件,语言多达十余种。其中相当大一部分资料来源于一个意想不到的地方:IMO社区的长期成员、论文共同作者纳维德·萨法伊自2006年起便开始亲手收集和扫描这些小册子,其个人档案构成了该数据集的重要基础。

数据来源与规模同样重要。现有大多数数学数据集从"解题艺术"(AoPS)等社区论坛抓取题目,而MathNet则专门从官方国家竞赛小册子中取材。这些小册子中的解答均由专家撰写并经过同行评审,篇幅往往长达数页,作者会详细阐述同一题目的多种解法。这种深度为AI模型学习数学推理提供了远比社区来源的简短非正式解答丰富得多的训练信号。同时,该数据集对学生同样具有切实价值:任何备战IMO或国家级竞赛的学生,现在都能通过一个集中平台,获取来自世界各地优秀传统的高质量题目与完整解答。

"我记得很多学生完全靠个人努力备赛,所在国家没有人专门训练他们参加这类竞赛,"曾以学生身份参加IMO的阿尔沙马里说,"我们希望这个平台能给他们提供一个集中的学习资源,让他们获得高质量的题目和解题方法。"

研究团队与IMO社区有着深厚渊源。共同作者苏丹·阿尔巴拉卡提目前担任IMO理事会成员,研究人员也正积极推动将该数据集直接与IMO基金会共享。为验证数据集的质量,团队召集了来自亚美尼亚、俄罗斯、乌克兰、越南、波兰等国的逾30名人工评审员,协同核验了数千道题目的解答。

"MathNet数据库有潜力成为学生和竞赛领队的优质资源,无论是寻找新题练习,还是查找难题解答,"瑞士IMO副领队塔尼什·帕蒂尔说,"尽管其他奥林匹克题目档案库已经存在(尤其是AoPS上的竞赛题目合集),但这些资源缺乏统一的格式规范、经过验证的解答以及重要的题目元数据。观察这一数据集如何推动推理模型性能提升,以及是否能够可靠地回答创作新竞赛题目时的一个关键问题——如何判断一道题目是否真正具有原创性——也将是一件十分有趣的事。"

MathNet同时作为评估AI表现的严格基准,其测试结果揭示了一幅比近期关于AI数学能力的媒体报道更为复杂的图景。前沿模型取得了非凡进展:据报道,部分模型已在IMO上达到金牌水平,在标准基准测试中也能解答大多数人类束手无策的难题。然而MathNet的测试表明,这种进步并不均衡。即便是表现最好的GPT-5,在MathNet包含6400道题目的主基准测试中平均得分也仅约为69.3%,意味着近三分之一的奥林匹克级题目仍无法解答。而当题目涉及图表时,所有模型的表现均大幅下滑,视觉推理能力的不足成为即便是最强大模型的共同短板。

多个开源模型在蒙古语题目上得分为零,进一步暴露出当前AI系统尽管整体能力不弱,却在语言覆盖方面存在明显盲区。

"GPT系列模型在英语和其他语言上表现相当,"阿尔沙马里说,"但许多开源模型在蒙古语等小语种上完全失效。"

MathNet数据集的多样性设计,也旨在应对AI模型学习数学方式的一个更深层局限。当训练数据过度集中于英语和中文题目时,模型吸收的只是数学文化的一个狭窄切片。一道罗马尼亚组合数学题或巴西数论题,可能从截然不同的角度切入同一核心概念。研究人员认为,接触这种多样性,能让人类和AI系统都成为更出色的数学思考者。

除解题能力外,MathNet还引入了一项检索基准测试,考察模型能否识别两道题目是否共享相同的底层数学结构。这一能力对AI研发和数学竞赛界本身都具有重要意义。历史上,IMO正式考题中曾出现过近似重复的题目,这是因为跨越不同符号体系、语言和表达形式识别数学等价性,即便对专家评审委员会而言也是一大难题。研究人员测试了八个当前最先进的嵌入模型,发现即便是性能最强的模型,在首次尝试时正确匹配的成功率也仅约为5%,且模型频繁将结构无关的题目评定为比真正等价题目更相似。

该数据集还包含一项检索增强生成基准测试,考察在模型解答新题之前,先提供一道结构相近的题目能否提升模型表现。结果显示确实有效,但前提是检索到的题目具有真正的相关性。DeepSeek-V3.2-Speciale在高质量检索匹配条件下,性能提升幅度最高达12个百分点;而在约22%的情况下,无关的检索内容反而导致性能下降。

阿尔沙马里与萨法伊、HUMAIN AI工程师阿布拉尔·扎纳尔、KAUST学院院长苏丹·阿尔巴拉卡提,以及麻省理工学院CSAIL同事——硕士生凯文·温、微软首席工程经理马克·汉密尔顿,以及弗里曼教授和托拉尔巴教授——共同完成了这篇论文。该研究部分获得施瓦茨曼计算学院奖学金和美国国家科学基金会资助。MathNet数据集已在mathnet.csail.mit.edu公开提供。

Q&A

Q1:MathNet数据集和其他数学竞赛题库相比有哪些优势?

A:MathNet是目前规模最大的奥林匹克级数学题库,收录超过3万道题目,覆盖47个国家、17种语言和143项竞赛,是同类数据集次大者的五倍。与AoPS等社区来源的数据集不同,MathNet的题目和解答全部来自官方国家竞赛小册子,经专家撰写和同行评审,解答详尽、格式规范,并包含重要的题目元数据,质量更有保障。

Q2:当前主流AI模型在MathNet基准测试上的表现如何?

A:即便是表现最好的GPT-5,在MathNet的6400道主基准题目中平均得分也仅约为69.3%,近三分之一的题目无法解答。当题目涉及图表时,所有模型表现均大幅下滑,视觉推理是普遍短板。多个开源模型在蒙古语等小语种题目上得分为零,说明AI模型在语言覆盖方面仍存在明显不足。

Q3:MathNet对备赛数学竞赛的学生有什么帮助?

A:MathNet为全球备战IMO或国家级数学竞赛的学生提供了一个集中、可检索的高质量题库,收录来自世界各地不同竞赛传统的题目与完整解答。过去这些官方竞赛小册子从未被系统整理并公开,学生很难获取。现在任何人都可以通过mathnet.csail.mit.edu免费访问,极大降低了自学备赛的门槛。