打开网易新闻 查看精彩图片

奥赛级科学推理,一定要从更大的通用模型开始吗?

最近上海人工智能实验室一份技术报告给出了一个不同答案:不调用外部工具、不执行代码、不接入专用符号求解器,一个 30B-A3B 规模的推理模型,也可以通过统一后训练和推理时扩展,在 IMO、USAMO、IPhO 等高难数学与物理奥赛评测中达到强劲水平。

研究团队选择从已有 30B-A3B 推理主干出发,先用约 33.8 万条高质量轨迹进行反向困惑度课程监督微调,再通过 200 步两阶段强化学习提升解题能力与完整证明质量,最后在推理阶段采用多轮「生成 - 验证 - 修正」循环。模型不调用外部工具、不执行代码、不依赖专用符号求解器,却能够在困难奥赛题上持续开展 10 万词元以上的自然语言推理。

在比赛式评测中,模型经过推理阶段扩展后,在 IMO 2025 和 USAMO 2026 中均取得 35 分,达到对应金牌级水平;在 IPhO 2024/2025 等物理奥赛任务上也达到金牌水平。在 USAMO 2026 第三题(人类选手平均分仅 0.01 分,无人过 5 分)上更是取得满分。

更重要的是,这并非来自参数惊人的「巨无霸」模型,而是一个小而精的 30B-A3B 选手。

报告还显示,在 USAMO 2026 的推理扩展轨迹中,初始解答生成的中位长度约为 10.6 万 token,自我修正阶段中位长度约为 8.3 万 token

这表明,奥赛级科学推理的关键不只是模型规模本身,而在于能否让模型把更长的推理预算稳定转化为证明搜索、自我验证和论证修复能力。

打开网易新闻 查看精彩图片

  • 论文链接:https://arxiv.org/abs/2605.13301
  • 开源链接:https://github.com/Simplified-Reasoning/SU-01

一般尺寸模型,也能做奥赛级证明?

奥林匹克竞赛题一直是检验模型长程推理能力的硬场景。这类题目和常规数学问答不同, 一个正确结论远远不够,模型还必须在很长的解题链路中持续管理假设、中间结论和边界情形,最终给出能够经受严格评分的完整证明或推导。隐藏的论证缺口、未覆盖的分类讨论、未经证明的关键引理,都可能让整题失分。

因此,在过去相当长一段时间里,人们很自然地把奥赛级推理和一个条件绑定在一起:更大的通用模型底座。这份报告想回答的正是这一问题:

奥赛级推理任务,是否必须依赖更大、更强的通用模型?

研究团队的选择相当克制:不引入外部工具,不执行代码,不依赖符号求解器。模型从构思、证明、检查到修正,全部在自然语言中完成。

这样一来,结果更直接地指向模型自身的能力:一个 30B-A3B 规模的模型,仅靠自然语言推理,能否承担奥赛级证明?

先教会模型严谨推理,再让它学会自我修正

团队提出的简洁统一方案可以概括为三个环节:监督微调塑造行为,强化学习提升解题能力,推理阶段扩展放大证明搜索。

打开网易新闻 查看精彩图片

图 1:方法框架,整体流程以 30B-A3B 推理主干为基础,通过监督微调、两阶段强化学习和推理阶段扩展,将模型塑造成能够进行证明搜索、自我验证和多轮修正的自然语言推理系统。

第一步是反向困惑度课程监督微调。研究团队从数学、科学、代码和指令跟随等来源构建长链路推理数据,并加入自验证、自修正样本,使模型学习如何组织证明、检查假设、定位漏洞并修复论证。训练过程中,样本按照初始模型困惑度从高到低排序:模型先接触与当前策略差异更大的证明轨迹,再逐步巩固更熟悉的样本。

换言之,SFT 阶段的目标并不是依靠海量数据直接堆高模型能力,而是更稳定地重塑模型的推理行为,使其形成严谨、可检查、可修正的长程推理模式。

第二步是两阶段强化学习。第一阶段使用可验证题目和可靠的结果奖励,高效提升模型的直接求解能力;第二阶段则进一步从「答案是否正确」转向「证明是否完整可靠」,引入证明质量奖励模型、自修正任务和经验回放机制。

其中,自修正任务让模型在看到自身不完整或存在漏洞的解答后,学习如何重新检查推理链条并生成更完整和严谨的修正版证明;经验回放机制则用于保留训练过程中少量但高价值的成功证明轨迹,避免这些在高难问题上偶然发现的有效解法被很快遗忘。

第三步在推理阶段扩展。面对奥赛难题,模型并不只生成一次答案,而是进入「生成候选解答 - 检查完整证明 - 定位问题 - 修正解答」的循环。这里扩展的不是外部工具链,而是模型自身的自然语言验证与修正计算。

10 万 token 级奥赛推理,不只是把答案写长

打开网易新闻 查看精彩图片

图 2:IMO-Bench 所含 ProofBench 结果。 SU-01 在直接生成时取得 57.6%,经推理阶段扩展提升至 70.2%,显著超越同尺寸模型,并 Gemini 3.1 Pro Thinking 等强闭源模型。

报告结果显示,SU-01 在证明级评测中已经展现出强长程推理能力。在 IMO-ProofBench 上,SU-01 直接生成取得 57.6%,已是同尺寸模型中的最强结果;经推理阶段扩展后,整体得分进一步提升至 70.2%,显著超越同尺寸模型,并接近 Gemini 3.1 Pro Thinking 的 72.6%。

这说明,一般尺寸模型不仅可以追求最终答案正确,也可以通过统一训练与推理组织提升完整证明质量。

报告还进一步指出,SU-01 的能力并不局限于竞赛题。在更接近科研问题形态的 FrontierScience-Research 评测中,SU-01 取得同尺寸模型中的最佳成绩,说明这套训练方案不仅适用于奥赛基准,也具备向研究型科学问题泛化的潜力。

打开网易新闻 查看精彩图片

图 2:USAMO 2026 推理阶段扩展流程中不同动作的生成长度分布。

推理阶段扩展进一步放大了模型的证明搜索和自我修正能力。通过「生成候选解答 - 检查完整证明 - 定位问题 - 修正解答」的多轮循环,模型能够把不完整或不稳定的尝试转化为严谨连贯的完整解答。

报告中的推理扩展分析显示,在 USAMO 2026 的推理扩展轨迹中,初始解答生成的中位长度约 10.6 万词元,修正阶段的中位长度约 8.3 万词元。

换言之,模型在 30B-A3B 规模下仍能持续开展 10 万词元量级的有效推理,并将长程计算用于证明构造、漏洞定位和论证修复。

数学与物理奥赛金牌水平推理

在奥林匹克官方竞赛题上,SU-01 在数学奥赛和物理奥赛任务上均展现出金牌水平推理能力。

数学奥赛方面,模型在单次直接生成时已经具备较强解题能力:IMO 2025 取得 21 分,在 P2 获得满分,在 P4、P5 上接近满分;USAMO 2026 取得 15 分,在 P1、P4 获得满分。经推理阶段扩展后,模型在 IMO 2025 和 USAMO 2026 均取得 35 分,达到对应金牌级水平。

打开网易新闻 查看精彩图片

表 1:数学奥林匹克竞赛评测结果。评测涵盖 IMO 2025 和 USAMO 2026 两项赛事;其中,IMO 2025 的金 / 银 / 铜牌线为 35/28/19 分,USAMO 2026 的金 / 银 / 铜牌线为 25/18/11 分。

尤其在最近的美国数学奥林匹克 USAMO 2026 上,SU-01 取得 35 分,远超该赛事 25 分的金牌线,并达到人类选手最高分水平。

根据 340 名人类选手的得分统计,USAMO 2026 平均分为 8.59 分,中位数仅为 6 分,Top 12 分数线为 26 分、Top 24 分数线为 23 分,整场最高分为 35 分;从分题统计看,P2、P3、P6 难度尤其突出,其中 P3 平均分仅 0.01 分、无人达到 5 分以上,而 SU-01 在该题取得满分成绩。

打开网易新闻 查看精彩图片

图 4 :USAMO 2026 人类选手得分统计与分题难度分布。该赛事共有 340 名选手参赛,平均分为 8.59 分,中位数为 6 分,Top 12 和 Top 24 分数线分别为 26 分和 23 分,最高分为 35 分。分题统计显示,P2、P3、P6 难度突出,其中 P3 平均分仅 0.01 分,且无人达到 5 分以上。(来源https://web.evanchen.cc/exams/posted-usamo-statistics.pdf)

这说明 SU-01 的 35 分并非主要来自常规题的得分,而是在高难证明题上取得关键突破,整体表现达到了顶尖人类选手水平。

一个特别突出的例子是 USAMO 2026 P3:模型没有沿用标准的综合几何路线,而是优雅地使用复数方法,将单位圆、等边三角形旋转、弦关系和切线条件统一到同一个代数框架中。这将一个奥赛选手通常会通过角追踪和辅助构造处理的几何配置,转化为一种结构化的解析表述。

IMO 2025 P2 则展示了另一种互补能力,模型将一个涉及两相交圆、垂心和切线判定的几何问题,化约为坐标与距离计算。

其他有趣的案例还包括 USAMO P4 中的进位状态动态规划,以及 USAMO P6 中结合欧拉函数、同余、Vieta jumping 和 Fibonacci 结构的数论证明。

物理奥赛方面,模型在 IPhO 2024/2025 直接生成已超过金牌线,推理阶段扩展后进一步提升。

打开网易新闻 查看精彩图片

表 2:物理奥林匹克竞赛评测结果。评测涵盖 IPhO 2024 和 IPhO 2025 两项赛事;其中,IPhO 2024 金牌线为 20.8 分,IPhO 2025 金牌线为 19.7 分。表中 x /y 分别表示模型在直接生成和推理阶段扩展设置下的得分。

更高效的科学推理系统路线

这项工作的价值不止于奥赛分数,而在于验证了一条更高效的科学推理系统路线:以已有推理模型为起点,通过严谨推理行为塑造、证明级奖励设计和推理时「生成 - 验证 - 修正」闭环,将有限规模模型的计算预算转化为可评分、可验证的证明能力。

面向未来,这一路线有望从数学与物理奥赛扩展到更广泛的科学问题求解,成为构建高效、可靠、可验证科学智能系统的通用方法。