上海人工智能实验室(上海AI实验室)联合团队近日公布了一项面向奥赛级科学推理的新成果:他们提出一套通专融合训练方案,并基于30B-A3B架构构建出科学推理模型SU-01。在完全不调用外部工具、不执行代码、不依赖专用符号求解器的纯自然语言推理条件下,这一模型在数学和物理双学科奥赛评测中均达到金牌水平。
IMO-Bench所含ProofBench结果。SU-01在直接生成时取得57.6%,经推理阶段扩展提升至70.2%,显著超越同尺寸模型,并接近Gemini 3.1 Pro Thinking等强闭源模型
在第66届国际数学奥林匹克(IMO 2025)和2026年美国数学奥林匹克(USAMO 2026)中,SU-01均取得35分,超过金牌线。其中,USAMO 2026第三题拿到满分,而该题所有人类选手的平均分仅为0.01分,最高分不到5分。在2024年和2025年国际物理奥林匹克(IPhO)评测中,模型得分同样超越金牌线。
这一表现背后,是上海AI实验室“通专融合”理念的直接验证:奥赛级科学推理不一定需要超大规模模型,也不必为数学、物理等学科分别搭建繁琐的专用系统。通过统一的训练目标、奖励设计以及“生成—验证—修正”推理机制,一般尺寸的模型也可以在数学证明、物理推导等高难度任务中形成可复用的专家级推理能力。
研究团队将这一过程设计为“先塑造行为,再扩展能力”的后训练闭环,分三步递进实现——
第一步是行为塑造。利用约33.8万条高质量解题轨迹进行反向困惑度课程监督微调,让通用模型学会如何组织证明、检查假设和修复漏洞,把“严谨证明”的行为范式植入模型。
第二步是能力强化。经过200步两阶段强化学习:第一阶段提升直接求解能力,第二阶段引入证明级奖励模型,使模型不仅“答对”,更学会给出完整、可检验的推理过程。
第三步是推理扩展。面对奥赛级难题时,模型启动多轮“生成—验证—修正”循环,将训练阶段学到的自验证与自修正行为延伸至长程证明搜索中。
评测结果直观反映了这套方法的有效性。在证明质量基准ProofBench上,SU-01直接生成得分为57.6%,经推理扩展后提升至70.2%,显著优于同尺寸模型,并接近Gemini-3.1-Pro等前沿模型的表现。
更值得关注的是其长程推理能力:在USAMO 2026的解题过程中,模型单次生成证明的中位长度达到10.6万个词元,修正阶段也长达8.3万个词元。这意味着一个30B量级的通用模型,能够持续进行超过十万词元量级的有效推理,把计算资源集中用于构建逻辑、定位漏洞和完善论证。
USAMO 2026推理阶段扩展流程中不同动作的生成长度分布
在与人类选手的直接对比中,SU-01同样经受住了“地狱难度”的考验。USAMO 2026人类选手平均分8.59分,中位数仅6分;第三题平均分更是低至0.01分,无一人超过5分。SU-01正是在这道题上拿到满分,说明它的推理能力并非靠简单题目拉高分数,而是真正具备攻克超高难度证明题的实力。
除数学奥赛外,研究团队还将AMO-Bench、FrontierScience等基准纳入评测范围。结果显示,同一套证明搜索、验证和修正机制可以直接迁移到物理建模以及更广泛的科学推理任务上,展现出跨学科复用价值。这恰恰是通专融合相较于垂直领域定制系统的核心优势。
据悉,这一工作也延续了上海AI实验室2024年提出的通专融合技术架构SAGE(智者)。SAGE包含基础模型、融合协同与探索进化三个层次,其中融合协同层负责动态协调直觉式“快思考”与逻辑性“慢思考”,通过精确奖励和智能体自进化,决定何时泛化、何时专精。SU-01的表现,正是这种思路在奥赛级科学推理上的落地。
SU-01训练与推理流程,以一般尺寸30B-A3B推理主干为基础,依次经过监督微调、两阶段强化学习和推理阶段扩展,使模型形成证明搜索、自我验证和多轮修正能力
研究团队认为,科学发现是对智能的终极考验,也是验证通专融合的舞台。当AI能够像科学家一样进行严谨、长程且可自我验证的思考时,就向“AGI for Science”的目标更近了一步。
【上海AI实验室科研进展】
AI出手,石墨“增厚”三倍!我国科研团队“造”出200微米高质量单晶石墨
“书生”跨界造胶:高纯度、高一致、高效率,这种芯片核心材料能稳定量产了
原标题:《裸考奥赛也能夺金?人类集体“交白卷”的数学题,被一个中等尺寸AI做对了》
栏目编辑:王蕾 题图来源:海螺AI 图片来源:上海AI实验室
来源:作者:新民晚报 郜阳
热门跟贴