卡内基梅隆大学:物理模拟器训练实现大模型国际物理奥赛成绩刷新|力学|卡内基梅隆大学|国际物理|实验|数学|物理引擎|物理模拟器

这项由卡内基梅隆大学与Lambda公司联合完成的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.11805，有兴趣深入了解的读者可以通过这个编号查询完整论文。

**研究概要**

物理题一直是让大多数人头疼的"拦路虎"。当我们还在为高考物理苦苦挣扎时，国际物理奥林匹克竞赛（IPhO）的题目已经难到了连许多大学教授都要认真思考的程度。那么，如果让一台AI去做这些题，结果会怎样？

更有意思的问题在于：这台AI是怎么"学会"解物理题的？靠课本？靠题库？不——这支来自卡内基梅隆大学的团队选择了一条完全不同的路：让AI在一个虚拟的物理世界里反复"玩耍"，通过观察物体怎么运动、怎么碰撞、怎么摆动，自己悟出物理规律。

这个方法有个正式的名字，叫做Sim2Reason（从模拟到推理）。它的核心思路是：先用电脑程序搭建各种物理场景，比如滑轮系统、弹簧碰撞、行星轨道等，让这些虚拟场景自动"运转"并记录数据，然后从这些数据中提炼出大量物理问答题，最后用这些题来强化训练AI。

结果令人意外。训练之后，AI在国际物理奥林匹克竞赛的力学题目上，成绩提升了5到10个百分点，而且完全没有看过任何真实的物理竞赛题目。这项研究的意义远不止于让AI多做对几道题——它证明了一件事：虚拟世界可以是现实世界最好的老师。

**一、数据的饥荒：为什么AI学物理这么难**

回到2016年前后，AlphaGo横空出世，击败围棋世界冠军的消息震惊了全球。那时候，人们开始相信AI能学会一切。然而，围棋有一个特别之处：它的棋谱数量是天文数字，而且每一步棋的胜负可以被精确验证。

大型语言模型的崛起，遵循了类似的逻辑。DeepSeek、GPT等模型之所以能在数学推理上表现出色，是因为互联网上堆积着海量的数学题目和解题过程——从小学算术到竞赛数学，各种难度的题目应有尽有，而且每道题都有明确的对错之分，可以自动检验。

物理学就没有这么幸运了。互联网上确实有物理题，但数量远远比不上数学题。更要命的是，物理题往往需要结合图表、实验装置，很难直接用纯文字来描述和验证。研究团队发现，DeepSeek-R1训练用的80万道题目里，涉及理工科（STEM）内容的比例连1%都不到。这就像一个想成为厨师的人，却几乎只读了菜谱评论，从没有真正下过厨房。

物理学家们知道，真正理解物理不只是背公式，而是要"感受"力学系统的运动规律。当你反复观察一个弹簧-质量系统的振动，你会在脑子里形成一种直觉：弹簧越硬，振动越快；质量越大，振动越慢。这种直觉很难从文字描述中获得，但在反复观察真实（或虚拟）的物理场景之后，自然而然就会建立起来。

正是这种洞察，促使研究团队转向了物理模拟器。

**二、物理引擎：那个忠实执行牛顿定律的虚拟世界**

物理引擎是一种能在电脑里忠实模拟物理规律的程序。游戏玩家对它并不陌生——你在游戏里扔出一颗手雷，它会按照抛物线飞行；汽车碰撞时，车身会依照力学原理变形。背后驱动这些效果的，就是物理引擎。

研究团队选用的是MuJoCo，这是一个在机器人研究领域广泛使用的物理模拟引擎。MuJoCo的强大之处在于，它不只是"看起来像"物理现实，而是通过数值积分严格求解运动方程，每一时刻的速度、加速度、能量、动量都可以精确计算。

然而，直接把物理引擎的输出结果喂给AI，并不能让AI学会解物理题。这里有一个根本矛盾：物理引擎输出的是连续的时间序列数据——比如某个质量块在0.001秒、0.002秒、0.003秒……时的坐标——而解物理题需要的是离散的符号推理，比如"设x为初速度，根据牛顿第二定律，加速度a等于..."。这两种"语言"之间，存在着一道鸿沟。

更早之前，有研究者尝试过让AI直接写代码来调用物理引擎，用模拟结果来辅助解题。但研究团队在早期实验中发现，这条路走不通：AI经常写出无法运行的代码，或者对物理场景的建模存在根本性错误。而且，这种方法需要大量人工设计，很难自动扩展。

Sim2Reason的思路与此截然不同。它不是让AI去"使用"物理引擎，而是让物理引擎充当一个自动出题员和批改员，源源不断地生产有价值的物理训练题。

**三、自动出题机：一套精心设计的"问题工厂"**

Sim2Reason的数据生产流水线分成四个环节，整体上就像一条组装流水线：先搭场景、再运行模拟、然后提炼题目、最后质检筛选。

搭场景这一步，是整个系统最精妙的设计之一。研究团队发明了一套专门的"场景描述语言"（Domain-Specific Language，简称DSL），有点像乐高积木的说明书。这套语言定义了一系列基本"零件"，比如质量块、滑轮、弹簧、斜面、绳子，以及它们之间合法的连接方式。然后，程序随机地把这些零件组合成各种各样的物理系统。

举个例子，系统可能会生成这样一个场景：一个30度斜面上放着一个2千克的滑块，通过绳子绕过滑轮，连接着一个悬挂在空中的1千克重物，重物旁边还有一根弹簧连着墙壁。这个场景完全是随机拼出来的，但它在物理上是合理的，可以被正确地模拟。

DSL的关键设计理念是：只在"物理上有意义"的维度上随机化。比如，改变滑块的质量会显著影响整个系统的运动，这是有意义的随机化。而改变绳子的颜色或者斜面的纹理，对物理行为没有任何影响，因此不在随机化范围之内。这样，每一个随机生成的场景都蕴含着真实的物理内容，而不是徒有其表的花样翻新。

场景搭好之后，MuJoCo引擎接管，运行模拟并记录每一时刻所有物体的位置、速度、加速度、动量、能量、绳子张力等几十种物理量。接下来，系统从这些数据中自动生成三种类型的问题。

第一类是"数值问题"：给定场景描述，询问某个具体时刻的某个物理量，比如"5.44秒后第二个质量块的速度是多少？"答案直接从模拟数据中读取，百分之百准确。第二类是"反推问题"：把场景中的某个参数隐去，根据已知结果反推，比如"如果3秒后速度为5米每秒，那么质量块的质量是多少？"这类问题考察的是逆向推理能力。第三类是"符号问题"：把所有具体数字替换成字母，要求给出解析式，比如"质量块A在时间t后的速度是多少（用m、k、t等字母表示）？"这类问题考察的是符号代数推导能力。

场景和问题的自然语言描述，由预先设计好的模板字符串自动拼接生成，整个过程不需要任何人工介入。

**四、质检关卡：去掉那些"走捷径"就能解出的题目**

有了大量自动生成的题目，还不够。研究团队发现，有相当一部分题目存在一个隐患：答题者可以忽略掉场景中的某些部分，把复杂的多体系统简化成一个简单的单体系统，得到的答案却跟完整分析完全一致。

打个比方，假设有一道题描述了一个由两个滑块和一个弹簧组成的系统，问整个系统的加速度。如果两个滑块始终以相同加速度运动（比如它们被刚性连接），那么你可以把它们看成一个整体，完全忽略弹簧和内部结构，同样算出正确答案。这类题目对于训练AI来说没什么价值——AI可能因为走了捷径而获得奖励，但并没有真正理解多体相互作用。

为了筛掉这类题目，研究团队设计了一套"消融实验"。对于每一道生成的题目，系统会自动构造多个"删减版"场景：删掉场景中的某一个实体，或者把某个关节替换成刚性连接，重新运行模拟。如果删减版场景得出的答案和原版一模一样，那这道题就被判定为"走捷径可解"，直接扔掉。

这个质检环节大约淘汰了15%的题目。虽然比例不高，但研究结果显示，这个步骤对最终训练效果至关重要——去掉质检的版本，AI在真实竞赛题上的提升幅度几乎只有完整版的一半。

**五、强化学习：不教答案，只给分数，逼AI自己想**

有了经过质检的题目库，接下来是训练AI的环节。研究团队选择的方法是强化学习（Reinforcement Learning），而不是更传统的监督学习（给模型看正确的解题过程，让它模仿）。

这两种方法的区别，可以用教孩子走迷宫来类比。监督学习的方式是：给孩子看一份完整的路线图，让他记住并复现。强化学习的方式是：把孩子扔进迷宫，每次他走出来就给块糖，走错了就不给。孩子在反复尝试中，自己摸索出了走迷宫的规律，甚至可能发现了路线图上没有标注的捷径。

在Sim2Reason的训练中，AI每次面对一道题，会生成一组候选答案。只有当最终数值答案落在模拟器正确答案的5%误差范围之内，才会获得正向奖励；否则奖励为零。这个5%的容差是有意设计的，因为物理模拟器本身有数值近似误差，严格要求精确匹配会产生噪音。

研究团队还采用了一种叫做"动态采样"的技巧。如果某道题对AI来说太简单（每次都答对）或者太难（每次都答错），那它对训练几乎没有帮助——就像让一个数学博士做一加一，或者让小学生做微积分，都是在浪费时间。动态采样机制会自动过滤掉这两类极端情况，只保留AI"有时能做对、有时做错"的题目，把训练资源集中在最有价值的难度区间。

研究团队用这个方法分别训练了参数量从30亿到320亿的多个Qwen模型（阿里巴巴开发的开源大语言模型系列）。整个训练过程只跑了200步，每步处理32道题，总共不到6400道独特题目——这个规模，比互联网上普通的数学题库小了好几个数量级。

**六、实验结果：合成数据的训练，真实竞赛的提升**

训练完成后，研究团队用多个真实的物理和数学考试来检验模型。

在国际物理奥林匹克竞赛（IPhO）的力学题上，不同规模的模型均取得了实质性提升。其中，30亿参数的Qwen2.5-3B模型提升幅度最为显眼，从原来的5.68%跳升至13.15%，涨幅超过7个百分点；320亿参数的Qwen2.5-32B从19.8%升至25.2%，提升5.4个百分点；300亿参数的Qwen3-30B从35.6%升至40.0%，提升4.4个百分点。这些数字看起来也许不算惊天动地，但别忘了，这只是用合成模拟数据训练出来的结果，AI完全没有见过任何真实的竞赛题目。

在另一个专门考察力学知识的JEEBench（印度工程联合入学考试）题目上，32B模型的提升幅度更加惊人：从34.38%飙升至52.28%，净增17.9个百分点。这个成绩之所以提升如此之大，是因为JEEBench的力学题目类型与模拟器能生成的场景高度吻合，训练数据的"命中率"格外高。

此外，模型在纯数学基准测试上同样有所提升——AIME 2025（美国数学邀请赛）提升1.67个百分点，MATH 500提升4.4个百分点。这个发现颇为有趣：训练物理推理能力，顺带强化了数学计算能力。研究团队认为，这是因为物理推理本身包含大量数学运算，物理训练让模型的多步骤定量推理能力全面提升。

**七、与真实数据的比较：合成数据赢了**

一个自然而然的问题是：这些合成的模拟器数据，比得上从真实竞赛题目或教科书中整理的数据吗？

研究团队找来了几个代表性的对比基准。Prime P1是一个在物理推理上很有竞争力的开源模型，它在训练时使用了超过5000道精心整理的真实物理竞赛题目和教科书例题。与此相比，Sim2Reason只用了合成模拟数据。结果，Sim2Reason（基于Qwen3-30B）在IPhO上达到了40.0%，超过了Prime P1 30B的38.6%。

另一个对比是DAPO-17K，这是一个包含1.7万道数学题的高质量强化学习训练集，专门为培养数学推理能力而设计。研究团队用同样的3B模型，分别在只用DAPO-17K、只用合成模拟数据、以及混合使用两者三种情况下进行训练。结果显示，单用合成模拟数据（13.15%）显著优于单用DAPO-17K（9.98%），而混合使用的效果（10.35%）介于两者之间，说明两类数据有一定互补性，但物理专项的模拟数据才是提升IPhO成绩的主要驱动力。

**八、监督学习 vs 强化学习：为什么"模仿答案"不如"自己摸索"**

研究团队还对比了两种截然不同的训练策略。

第一种是监督学习（SFT）：用GPT-4、o3、o4-mini等强大的AI生成20万道题的解题过程，然后让待训练的模型去模仿这些解题步骤。第二种是强化学习：只告诉模型最终答案对不对，让它自己探索解题策略。

结果出人意料。监督学习在训练集上有所提升，但在IPhO等真实测试集上却下降了3.9个百分点。研究团队认为，这是一种"灾难性遗忘"现象：模型为了模仿特定的解题风格，改变了原有的推理模式，损失了更广泛的推理能力。强化学习则恰恰相反，它让模型在保持原有能力的基础上，额外获得了物理推理技能，在训练集和真实测试集上都取得了稳定提升。

**九、举一反三：AI学到的不只是课本上的题型**

Sim2Reason系统当前的模拟器覆盖了经典力学的大部分内容，但显然无法涵盖所有物理题类型。一个关键问题是：AI学到的究竟是针对特定模拟场景的"记忆"，还是更深层的物理推理能力？

研究团队用一道真实的JEE Advanced 2017题目来检验这一点。这道题涉及一枚火箭在太阳-地球双引力系统中的逃逸速度，需要同时处理来自太阳和地球的引力势能，并将两者用"能量叠加"而非"速度叠加"的方式合并。这个场景在研究团队的模拟器中并没有直接对应的实体。

训练前的基础模型犯了一个典型错误：它试图把太阳和地球的逃逸速度直接相加，得到一个错误答案。训练后的模型则正确地认识到，引力势能才是应该相加的量，两个逃逸速度应以"平方和开根"的方式合并，最终得出了正确答案42千米每秒。

研究团队对多个类似案例的分析显示，训练后的模型在以下几个维度均有明显改善：数学计算的准确性（比如不再犯数量级错误）、物理概念的正确映射（比如能正确区分速度的矢量叠加和标量叠加）以及解题策略的合理性（比如主动进行单位转换，用更简便的方式代入数值）。这些改善跨越了训练集的具体场景类型，具有一定的通用性。

**十、模拟器作为考场：自动化的物理能力测评**

Sim2Reason的另一个意外收获，是它可以充当评估AI物理能力的自动化考场。

评估AI在物理竞赛题上的表现，通常面临一个困境：真实竞赛题的数量有限，题目本身还会随着时间积累而被各种模型"记住"，导致评估结果失真。Sim2Reason可以随时生成全新的、从未出现过的物理题，天然避免了这个问题。

更重要的是，研究团队发现，模型在合成模拟题上的得分，与它在真实IPhO竞赛题上的得分之间，存在显著的正相关关系（斯皮尔曼相关系数达到0.79）。换句话说，如果一个模型在模拟题上表现优秀，它在真实竞赛题上的表现也会更好。这意味着，可以用模拟题的得分作为一个快速、低成本的代理指标，来预测模型在真实物理题上的能力。

**十一、拓展性：能不能用同样的方法处理更多场景？**

研究团队还考察了这套流水线的可扩展性。当前系统的DSL覆盖了大约15种物理实体类型（滑轮、斜面、弹簧系统、碰撞、旋转体、火箭、电磁场中的带电粒子等），但真实的物理竞赛题远不止这些类型。

为了测试能否低成本地扩展DSL，研究团队选取了三道当前系统无法直接模拟的竞赛题目，分别来自F=MA、USAPhO和JEE Advanced，然后让AI（大语言模型）尝试为这些题目设计新的DSL实体。实验结果显示，当AI直接尝试生成MuJoCo的底层XML代码时，三道题中只有一道成功（成功率33%）；但当AI在DSL框架内设计新实体（本质上是设计更高层次的"积木块"）时，三道题全部成功（成功率100%）。

这说明DSL的抽象层次起到了关键作用：它把"如何在模拟器中正确配置关节、约束和接触"这类繁琐的底层工程问题，转化为"这个实体有哪些物理参数、可以如何与其他实体连接"这类更符合物理直觉的高层描述。AI理解后者远比前者容易，因此扩展成功率大幅提高。

此外，研究团队还测试了DSL的跨模拟器可移植性：他们让AI把部分MuJoCo实体"翻译"到NVIDIA Omniverse（另一个物理引擎），结果所有测试的实体均成功迁移。这意味着，未来即便要切换底层模拟引擎，也不需要从头重建整个数据生产体系。

说到底，Sim2Reason这项研究讲的是一个"无中生有"的故事。研究团队没有收集物理题库，没有雇佣物理专家标注数据，没有从竞赛官网爬取历年真题——他们只是在一个虚拟世界里，让物理规律自己"说话"，然后把这些"话"转化成AI的学习材料。

这背后隐含着一个更深远的洞见：知识不一定来自人类写下的文字，有些知识本来就编码在自然规律之中，只需要合适的工具去提取和转化。物理模拟器就是这样一种工具，它把连续的自然规律压缩成了离散的、可验证的训练信号。

当然，这个方法目前还有明显局限。它的覆盖范围主要集中在经典力学，电磁学、热力学、量子力学等领域的支持还相当有限。模拟器本身有数值精度问题，某些复杂接触和摩擦行为的模拟并不完全可靠。此外，一些需要高度定性推理或图表分析的物理题，目前的框架也难以直接处理。

但这个方向本身的潜力，远不止于物理学。化学分子动力学、流体力学、生物力学……凡是能被精确建模的物理过程，都可能成为AI推理训练的数据来源。你可能会想，如果有一天，AI可以通过在虚拟化学实验室里做实验来学习化学，通过在虚拟城市里模拟交通来学习经济学，这将打开怎样的可能性？

有兴趣深入了解这项研究的读者，可以通过论文编号arXiv:2604.11805查询完整论文，项目代码和演示视频也可通过sim2reason.github.io获取。

Q&A

Q1：Sim2Reason用物理模拟器训练AI，这和传统的用题库训练有什么本质区别？

A：传统方法依赖人类写下的题目和答案，数量有限，而且物理题尤其稀缺。Sim2Reason直接从物理引擎里"自动生产"题目——程序随机搭建虚拟物理场景，引擎模拟运行后自动记录答案，全程不需要人工介入。本质区别在于，数据来源从"人类曾经写下的知识"扩展到了"物理规律本身"，理论上可以无限量生成。

Q2：IPhO国际物理奥林匹克竞赛那么难，AI用模拟器训练真的有用吗？

A：有用，但提升幅度有限。研究显示，用Sim2Reason训练后，不同规模的模型在IPhO力学题上提升了4到7个百分点。考虑到训练数据完全来自合成场景，没有见过任何真实竞赛题，这个提升说明AI确实学到了可迁移的物理推理能力，而不是单纯记忆题型。