这项由卡内基梅隆大学与Lambda公司联合完成的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.11805,有兴趣深入了解的读者可以通过这个编号查询完整论文。
**研究概要**
物理题一直是让大多数人头疼的"拦路虎"。当我们还在为高考物理苦苦挣扎时,国际物理奥林匹克竞赛(IPhO)的题目已经难到了连许多大学教授都要认真思考的程度。那么,如果让一台AI去做这些题,结果会怎样?
更有意思的问题在于:这台AI是怎么"学会"解物理题的?靠课本?靠题库?不——这支来自卡内基梅隆大学的团队选择了一条完全不同的路:让AI在一个虚拟的物理世界里反复"玩耍",通过观察物体怎么运动、怎么碰撞、怎么摆动,自己悟出物理规律。
这个方法有个正式的名字,叫做Sim2Reason(从模拟到推理)。它的核心思路是:先用电脑程序搭建各种物理场景,比如滑轮系统、弹簧碰撞、行星轨道等,让这些虚拟场景自动"运转"并记录数据,然后从这些数据中提炼出大量物理问答题,最后用这些题来强化训练AI。
结果令人意外。训练之后,AI在国际物理奥林匹克竞赛的力学题目上,成绩提升了5到10个百分点,而且完全没有看过任何真实的物理竞赛题目。这项研究的意义远不止于让AI多做对几道题——它证明了一件事:虚拟世界可以是现实世界最好的老师。
**一、数据的饥荒:为什么AI学物理这么难**
回到2016年前后,AlphaGo横空出世,击败围棋世界冠军的消息震惊了全球。那时候,人们开始相信AI能学会一切。然而,围棋有一个特别之处:它的棋谱数量是天文数字,而且每一步棋的胜负可以被精确验证。
大型语言模型的崛起,遵循了类似的逻辑。DeepSeek、GPT等模型之所以能在数学推理上表现出色,是因为互联网上堆积着海量的数学题目和解题过程——从小学算术到竞赛数学,各种难度的题目应有尽有,而且每道题都有明确的对错之分,可以自动检验。
物理学就没有这么幸运了。互联网上确实有物理题,但数量远远比不上数学题。更要命的是,物理题往往需要结合图表、实验装置,很难直接用纯文字来描述和验证。研究团队发现,DeepSeek-R1训练用的80万道题目里,涉及理工科(STEM)内容的比例连1%都不到。这就像一个想成为厨师的人,却几乎只读了菜谱评论,从没有真正下过厨房。
物理学家们知道,真正理解物理不只是背公式,而是要"感受"力学系统的运动规律。当你反复观察一个弹簧-质量系统的振动,你会在脑子里形成一种直觉:弹簧越硬,振动越快;质量越大,振动越慢。这种直觉很难从文字描述中获得,但在反复观察真实(或虚拟)的物理场景之后,自然而然就会建立起来。
正是这种洞察,促使研究团队转向了物理模拟器。
**二、物理引擎:那个忠实执行牛顿定律的虚拟世界**
物理引擎是一种能在电脑里忠实模拟物理规律的程序。游戏玩家对它并不陌生——你在游戏里扔出一颗手雷,它会按照抛物线飞行;汽车碰撞时,车身会依照力学原理变形。背后驱动这些效果的,就是物理引擎。
研究团队选用的是MuJoCo,这是一个在机器人研究领域广泛使用的物理模拟引擎。MuJoCo的强大之处在于,它不只是"看起来像"物理现实,而是通过数值积分严格求解运动方程,每一时刻的速度、加速度、能量、动量都可以精确计算。
然而,直接把物理引擎的输出结果喂给AI,并不能让AI学会解物理题。这里有一个根本矛盾:物理引擎输出的是连续的时间序列数据——比如某个质量块在0.001秒、0.002秒、0.003秒……时的坐标——而解物理题需要的是离散的符号推理,比如"设x为初速度,根据牛顿第二定律,加速度a等于..."。这两种"语言"之间,存在着一道鸿沟。
更早之前,有研究者尝试过让AI直接写代码来调用物理引擎,用模拟结果来辅助解题。但研究团队在早期实验中发现,这条路走不通:AI经常写出无法运行的代码,或者对物理场景的建模存在根本性错误。而且,这种方法需要大量人工设计,很难自动扩展。
Sim2Reason的思路与此截然不同。它不是让AI去"使用"物理引擎,而是让物理引擎充当一个自动出题员和批改员,源源不断地生产有价值的物理训练题。
**三、自动出题机:一套精心设计的"问题工厂"**
Sim2Reason的数据生产流水线分成四个环节,整体上就像一条组装流水线:先搭场景、再运行模拟、然后提炼题目、最后质检筛选。
搭场景这一步,是整个系统最精妙的设计之一。研究团队发明了一套专门的"场景描述语言"(Domain-Specific Language,简称DSL),有点像乐高积木的说明书。这套语言定义了一系列基本"零件",比如质量块、滑轮、弹簧、斜面、绳子,以及它们之间合法的连接方式。然后,程序随机地把这些零件组合成各种各样的物理系统。
举个例子,系统可能会生成这样一个场景:一个30度斜面上放着一个2千克的滑块,通过绳子绕过滑轮,连接着一个悬挂在空中的1千克重物,重物旁边还有一根弹簧连着墙壁。这个场景完全是随机拼出来的,但它在物理上是合理的,可以被正确地模拟。
DSL的关键设计理念是:只在"物理上有意义"的维度上随机化。比如,改变滑块的质量会显著影响整个系统的运动,这是有意义的随机化。而改变绳子的颜色或者斜面的纹理,对物理行为没有任何影响,因此不在随机化范围之内。这样,每一个随机生成的场景都蕴含着真实的物理内容,而不是徒有其表的花样翻新。
场景搭好之后,MuJoCo引擎接管,运行模拟并记录每一时刻所有物体的位置、速度、加速度、动量、能量、绳子张力等几十种物理量。接下来,系统从这些数据中自动生成三种类型的问题。
第一类是"数值问题":给定场景描述,询问某个具体时刻的某个物理量,比如"5.44秒后第二个质量块的速度是多少?"答案直接从模拟数据中读取,百分之百准确。第二类是"反推问题":把场景中的某个参数隐去,根据已知结果反推,比如"如果3秒后速度为5米每秒,那么质量块的质量是多少?"这类问题考察的是逆向推理能力。第三类是"符号问题":把所有具体数字替换成字母,要求给出解析式,比如"质量块A在时间t后的速度是多少(用m、k、t等字母表示)?"这类问题考察的是符号代数推导能力。
场景和问题的自然语言描述,由预先设计好的模板字符串自动拼接生成,整个过程不需要任何人工介入。
**四、质检关卡:去掉那些"走捷径"就能解出的题目**
有了大量自动生成的题目,还不够。研究团队发现,有相当一部分题目存在一个隐患:答题者可以忽略掉场景中的某些部分,把复杂的多体系统简化成一个简单的单体系统,得到的答案却跟完整分析完全一致。
打个比方,假设有一道题描述了一个由两个滑块和一个弹簧组成的系统,问整个系统的加速度。如果两个滑块始终以相同加速度运动(比如它们被刚性连接),那么你可以把它们看成一个整体,完全忽略弹簧和内部结构,同样算出正确答案。这类题目对于训练AI来说没什么价值——AI可能因为走了捷径而获得奖励,但并没有真正理解多体相互作用。
为了筛掉这类题目,研究团队设计了一套"消融实验"。对于每一道生成的题目,系统会自动构造多个"删减版"场景:删掉场景中的某一个实体,或者把某个关节替换成刚性连接,重新运行模拟。如果删减版场景得出的答案和原版一模一样,那这道题就被判定为"走捷径可解",直接扔掉。
这个质检环节大约淘汰了15%的题目。虽然比例不高,但研究结果显示,这个步骤对最终训练效果至关重要——去掉质检的版本,AI在真实竞赛题上的提升幅度几乎只有完整版的一半。
**五、强化学习:不教答案,只给分数,逼AI自己想**
有了经过质检的题目库,接下来是训练AI的环节。研究团队选择的方法是强化学习(Reinforcement Learning),而不是更传统的监督学习(给模型看正确的解题过程,让它模仿)。
这两种方法的区别,可以用教孩子走迷宫来类比。监督学习的方式是:给孩子看一份完整的路线图,让他记住并复现。强化学习的方式是:把孩子扔进迷宫,每次他走出来就给块糖,走错了就不给。孩子在反复尝试中,自己摸索出了走迷宫的规律,甚至可能发现了路线图上没有标注的捷径。
在Sim2Reason的训练中,AI每次面对一道题,会生成一组候选答案。只有当最终数值答案落在模拟器正确答案的5%误差范围之内,才会获得正向奖励;否则奖励为零。这个5%的容差是有意设计的,因为物理模拟器本身有数值近似误差,严格要求精确匹配会产生噪音。
研究团队还采用了一种叫做"动态采样"的技巧。如果某道题对AI来说太简单(每次都答对)或者太难(每次都答错),那它对训练几乎没有帮助——就像让一个数学博士做一加一,或者让小学生做微积分,都是在浪费时间。动态采样机制会自动过滤掉这两类极端情况,只保留AI"有时能做对、有时做错"的题目,把训练资源集中在最有价值的难度区间。
研究团队用这个方法分别训练了参数量从30亿到320亿的多个Qwen模型(阿里巴巴开发的开源大语言模型系列)。整个训练过程只跑了200步,每步处理32道题,总共不到6400道独特题目——这个规模,比互联网上普通的数学题库小了好几个数量级。
**六、实验结果:合成数据的训练,真实竞赛的提升**
训练完成后,研究团队用多个真实的物理和数学考试来检验模型。
在国际物理奥林匹克竞赛(IPhO)的力学题上,不同规模的模型均取得了实质性提升。其中,30亿参数的Qwen2.5-3B模型提升幅度最为显眼,从原来的5.68%跳升至13.15%,涨幅超过7个百分点;320亿参数的Qwen2.5-32B从19.8%升至25.2%,提升5.4个百分点;300亿参数的Qwen3-30B从35.6%升至40.0%,提升4.4个百分点。这些数字看起来也许不算惊天动地,但别忘了,这只是用合成模拟数据训练出来的结果,AI完全没有见过任何真实的竞赛题目。
在另一个专门考察力学知识的JEEBench(印度工程联合入学考试)题目上,32B模型的提升幅度更加惊人:从34.38%飙升至52.28%,净增17.9个百分点。这个成绩之所以提升如此之大,是因为JEEBench的力学题目类型与模拟器能生成的场景高度吻合,训练数据的"命中率"格外高。
此外,模型在纯数学基准测试上同样有所提升——AIME 2025(美国数学邀请赛)提升1.67个百分点,MATH 500提升4.4个百分点。这个发现颇为有趣:训练物理推理能力,顺带强化了数学计算能力。研究团队认为,这是因为物理推理本身包含大量数学运算,物理训练让模型的多步骤定量推理能力全面提升。
**七、与真实数据的比较:合成数据赢了**
一个自然而然的问题是:这些合成的模拟器数据,比得上从真实竞赛题目或教科书中整理的数据吗?
研究团队找来了几个代表性的对比基准。Prime P1是一个在物理推理上很有竞争力的开源模型,它在训练时使用了超过5000道精心整理的真实物理竞赛题目和教科书例题。与此相比,Sim2Reason只用了合成模拟数据。结果,Sim2Reason(基于Qwen3-30B)在IPhO上达到了40.0%,超过了Prime P1 30B的38.6%。
另一个对比是DAPO-17K,这是一个包含1.7万道数学题的高质量强化学习训练集,专门为培养数学推理能力而设计。研究团队用同样的3B模型,分别在只用DAPO-17K、只用合成模拟数据、以及混合使用两者三种情况下进行训练。结果显示,单用合成模拟数据(13.15%)显著优于单用DAPO-17K(9.98%),而混合使用的效果(10.35%)介于两者之间,说明两类数据有一定互补性,但物理专项的模拟数据才是提升IPhO成绩的主要驱动力。
**八、监督学习 vs 强化学习:为什么"模仿答案"不如"自己摸索"**
研究团队还对比了两种截然不同的训练策略。
第一种是监督学习(SFT):用GPT-4、o3、o4-mini等强大的AI生成20万道题的解题过程,然后让待训练的模型去模仿这些解题步骤。第二种是强化学习:只告诉模型最终答案对不对,让它自己探索解题策略。
结果出人意料。监督学习在训练集上有所提升,但在IPhO等真实测试集上却下降了3.9个百分点。研究团队认为,这是一种"灾难性遗忘"现象:模型为了模仿特定的解题风格,改变了原有的推理模式,损失了更广泛的推理能力。强化学习则恰恰相反,它让模型在保持原有能力的基础上,额外获得了物理推理技能,在训练集和真实测试集上都取得了稳定提升。
**九、举一反三:AI学到的不只是课本上的题型**
Sim2Reason系统当前的模拟器覆盖了经典力学的大部分内容,但显然无法涵盖所有物理题类型。一个关键问题是:AI学到的究竟是针对特定模拟场景的"记忆",还是更深层的物理推理能力?
研究团队用一道真实的JEE Advanced 2017题目来检验这一点。这道题涉及一枚火箭在太阳-地球双引力系统中的逃逸速度,需要同时处理来自太阳和地球的引力势能,并将两者用"能量叠加"而非"速度叠加"的方式合并。这个场景在研究团队的模拟器中并没有直接对应的实体。
训练前的基础模型犯了一个典型错误:它试图把太阳和地球的逃逸速度直接相加,得到一个错误答案。训练后的模型则正确地认识到,引力势能才是应该相加的量,两个逃逸速度应以"平方和开根"的方式合并,最终得出了正确答案42千米每秒。
研究团队对多个类似案例的分析显示,训练后的模型在以下几个维度均有明显改善:数学计算的准确性(比如不再犯数量级错误)、物理概念的正确映射(比如能正确区分速度的矢量叠加和标量叠加)以及解题策略的合理性(比如主动进行单位转换,用更简便的方式代入数值)。这些改善跨越了训练集的具体场景类型,具有一定的通用性。
**十、模拟器作为考场:自动化的物理能力测评**
Sim2Reason的另一个意外收获,是它可以充当评估AI物理能力的自动化考场。
评估AI在物理竞赛题上的表现,通常面临一个困境:真实竞赛题的数量有限,题目本身还会随着时间积累而被各种模型"记住",导致评估结果失真。Sim2Reason可以随时生成全新的、从未出现过的物理题,天然避免了这个问题。
更重要的是,研究团队发现,模型在合成模拟题上的得分,与它在真实IPhO竞赛题上的得分之间,存在显著的正相关关系(斯皮尔曼相关系数达到0.79)。换句话说,如果一个模型在模拟题上表现优秀,它在真实竞赛题上的表现也会更好。这意味着,可以用模拟题的得分作为一个快速、低成本的代理指标,来预测模型在真实物理题上的能力。
**十一、拓展性:能不能用同样的方法处理更多场景?**
研究团队还考察了这套流水线的可扩展性。当前系统的DSL覆盖了大约15种物理实体类型(滑轮、斜面、弹簧系统、碰撞、旋转体、火箭、电磁场中的带电粒子等),但真实的物理竞赛题远不止这些类型。
为了测试能否低成本地扩展DSL,研究团队选取了三道当前系统无法直接模拟的竞赛题目,分别来自F=MA、USAPhO和JEE Advanced,然后让AI(大语言模型)尝试为这些题目设计新的DSL实体。实验结果显示,当AI直接尝试生成MuJoCo的底层XML代码时,三道题中只有一道成功(成功率33%);但当AI在DSL框架内设计新实体(本质上是设计更高层次的"积木块")时,三道题全部成功(成功率100%)。
这说明DSL的抽象层次起到了关键作用:它把"如何在模拟器中正确配置关节、约束和接触"这类繁琐的底层工程问题,转化为"这个实体有哪些物理参数、可以如何与其他实体连接"这类更符合物理直觉的高层描述。AI理解后者远比前者容易,因此扩展成功率大幅提高。
此外,研究团队还测试了DSL的跨模拟器可移植性:他们让AI把部分MuJoCo实体"翻译"到NVIDIA Omniverse(另一个物理引擎),结果所有测试的实体均成功迁移。这意味着,未来即便要切换底层模拟引擎,也不需要从头重建整个数据生产体系。
说到底,Sim2Reason这项研究讲的是一个"无中生有"的故事。研究团队没有收集物理题库,没有雇佣物理专家标注数据,没有从竞赛官网爬取历年真题——他们只是在一个虚拟世界里,让物理规律自己"说话",然后把这些"话"转化成AI的学习材料。
这背后隐含着一个更深远的洞见:知识不一定来自人类写下的文字,有些知识本来就编码在自然规律之中,只需要合适的工具去提取和转化。物理模拟器就是这样一种工具,它把连续的自然规律压缩成了离散的、可验证的训练信号。
当然,这个方法目前还有明显局限。它的覆盖范围主要集中在经典力学,电磁学、热力学、量子力学等领域的支持还相当有限。模拟器本身有数值精度问题,某些复杂接触和摩擦行为的模拟并不完全可靠。此外,一些需要高度定性推理或图表分析的物理题,目前的框架也难以直接处理。
但这个方向本身的潜力,远不止于物理学。化学分子动力学、流体力学、生物力学……凡是能被精确建模的物理过程,都可能成为AI推理训练的数据来源。你可能会想,如果有一天,AI可以通过在虚拟化学实验室里做实验来学习化学,通过在虚拟城市里模拟交通来学习经济学,这将打开怎样的可能性?
有兴趣深入了解这项研究的读者,可以通过论文编号arXiv:2604.11805查询完整论文,项目代码和演示视频也可通过sim2reason.github.io获取。
Q&A
Q1:Sim2Reason用物理模拟器训练AI,这和传统的用题库训练有什么本质区别?
A:传统方法依赖人类写下的题目和答案,数量有限,而且物理题尤其稀缺。Sim2Reason直接从物理引擎里"自动生产"题目——程序随机搭建虚拟物理场景,引擎模拟运行后自动记录答案,全程不需要人工介入。本质区别在于,数据来源从"人类曾经写下的知识"扩展到了"物理规律本身",理论上可以无限量生成。
Q2:IPhO国际物理奥林匹克竞赛那么难,AI用模拟器训练真的有用吗?
A:有用,但提升幅度有限。研究显示,用Sim2Reason训练后,不同规模的模型在IPhO力学题上提升了4到7个百分点。考虑到训练数据完全来自合成场景,没有见过任何真实竞赛题,这个提升说明AI确实学到了可迁移的物理推理能力,而不是单纯记忆题型。
Q3:强化学习训练AI解物理题,为什么比让AI模仿正确解题步骤效果更好?
A:模仿正确解题步骤(监督学习)会让AI过度调整自身的推理风格,导致在其他类型题目上的表现反而下降,这叫做"灾难性遗忘"。强化学习只告诉AI答案对不对,让它自己摸索解法,这样AI在学会物理推理的同时,不会破坏原有的通用推理能力,实验数据证实了这一点。
热门跟贴