当世界模型不可信：如何让RL在想象里训练，但不被想象骗？|rl|实验|机器人|轨迹

清华大学、中国科学院自动化研究所和北京中关村学院联合提出WoVR（World Models as Reliable Simulators for Post-Training VLA Policies with RL）：一种基于可靠世界模型的VLA 强化学习后训练框架，核心聚焦一个痛点：世界模型的闭环自回归执行会产生“幻觉”，如何让强化学习在着这种不完美的世界中实现有效训练？

论文题目： World Models as Reliable Simulators for Post-Training VLA Policies with RL 论文链接： https://arxiv.org/abs/2602.13977 代码链接： https://github.com/RLinf /RLinf HuggingFace： https://huggingface.co/collections/RLinf/wovr

一、研究背景

2026 年具身智能的一个主流共识是：强化学习（RL）正在成为进一步提升智能的关键路径。但当 RL 真正落到机器人上，研究者普遍卡在两条路线：

路线 A：在仿真器里学。

仿真便宜、可并行、可规模化，这是 RL 最舒服的土壤；但现实代价是仿真到现实非常难迁移——为了对齐真实世界，往往需要复杂的建模、调参、域随机化与反复迭代，投入大量时间与工程成本，但是最终结果仍然差强人意。

路线 B：在真实世界里学。

直接与真实机器人交互最“对”，但会立刻碰到工程与数据效率的天花板：

试错成本高（安全、磨损、重置、人力）、数据效率低、训练速度慢，导致进展往往缓慢且难以规模化。

随着世界模型的发展，随着世界模型的快速发展，第三条路线逐渐形成 —— 用学习到的世界模型当模拟器，在“想象里”做强化学习——既想保留仿真器的规模化，又想更贴近现实世界的动力学和分布。

然而，这条路线还存在不可忽视的问题，阻碍了其实际应用：

世界模型的闭环自回归执行会产生“幻觉”——画面看起来像成功，甚至给出成功奖励，但现实执行是失败。一旦把这种“幻觉轨迹”喂给强化学习，优化信号会被系统性污染：策略学到的不是完成任务，而是学会利用模型漏洞。如图1所示。

因此，我们提出 WoVR：不再假设世界模型是忠实模拟器，而是把问题当成“可靠性”问题来解——研究强化学习应该如何与不完美的想象动态交互。WoVR 从三个相互关联的层面同时约束“幻觉”：

（1）模拟器层：把世界模型做得更稳、更可控

（2）交互层：不一定从起点想象——关键帧初始化 KIR

（3）对齐层：策略在变，模拟器也要跟上——PACE 共进化

图2：WoVR 的整体框架图二、核心方法 2.1 把模拟器做得更稳、更可控：基于 Wan 的动作可控世界模型

我们基于先进的 Wan2.2-TI2V-5B作为网络的主干，将动作嵌入通过两个通道进行注入：与扩散时间步相加后通过AdaLN-Zero调制；将原始的文本嵌入替换为动作嵌入通过交叉注意力注入。

为了抑制累计误差，模型的自回归生成使用首帧锚定的上下文，即context由固定的序列首帧和上一个chunk生成的最后4帧组成，因为自注意力机制在去噪时会更多关注第一帧。此外在训练时我们向context的后4帧注入噪声提升鲁棒性。

2.2再在策略优化时主动避开幻觉：关键帧初始

长时自回归生成的累计误差会导致世界模型的生成产生物理上不正确的转变影响RL质量。在VLA交互中，许多决定性的交互往往发生在夹爪与物体接触的关键帧附近，能否准确模拟这一段的交互对于世界模型最终的生成质量至关重要，为此，我们引入 Keyframe-Initialized Rollouts (KIR)：直接从任务关键帧附近初始化再开始执行“想象”，缩短有效误差深度，让学习更关注“关键接触段”，而不是被长前缀的漂移带偏。

RL方法上，采用GRPO更新策略，对于成功的轨迹，我们会掩码成功之后的步骤并用有效长度对每条轨迹归一化。这种方法补充了KIR，因为其往往用更少的有效步骤完成任务，使用这种方法可以增加KIR轨迹每步的贡献，进而让梯度由短且关键的任务段主导，而非长且容易偏移的延续段主导。

2.3 最后解决策略–模型分布错配：提出 PACE ，让模拟器跟得上策略演化

虽然策略优化完全在学习到的世界模型中进行，但策略分布会在训练过程中不断演变，随着策略偏移用于训练初始世界模型的数据分布，这种分布不匹配会降低想象rollout的可靠性。为此，我们引入PACE(Policy-Aligned Co-Evolution)，PACE 采用低频率、阶段式的共进化：首先用基础VLA收集的轨迹训练初始世界模型 WMBase，在WMBase中完成第一阶段策略优化后，我们根据更新后的策略收集额外rollout进一步优化世界模型得到WMEvo。这种低频率的优化只需要再次收集一次数据，不需要持续的人类监督，降低操作开销；同时在不牺牲训练稳定性的前提下保持了模拟器的可靠性。

我们在RLinf上构建WoVR，以实现高效的训练和推理。

三、实验验证 3.1 世界模型的性能指标

我们的世界模型在rollout 128/256/512帧的情形下性能超过EVAC，Cosmos-Predict2和WMPO中所采用的OpenSora

我们在 libero suite 上进行实验。在每类套件上，我们限制世界模型和仿真器的交互轨迹数量，以此来模拟真实世界中轨迹昂贵的情况。 WoVR 和 WMPO 作为基于世界模型的方法，使用的轨迹都只用来训练世界模型，再在世界模型中训练策略，而 GRPO 则是通过和环境进行交互来优化性能。在相同的轨迹条数限制下，WoVR在4个套件上均实现超过WMPO和GRPO。

真机上，我们基于 Franka 开展了两个经典的 pick and place 的任务，在引入少量轨迹，无需在线交互只在世界模型中训练策略的情况下， WoVR实现了策略性能提升。

在消融实验中，我们验证了首帧锚定的上下文机制和训练时的噪声帧机制的必要性。

六、策略优化机制消融实验

我们验证了KIR（关键帧初始化）机制和PACE（世界模型和策略协同进化）机制对于策略性能的提升效果

世界模型用于 RL 的关键，不仅仅是把视频生成做得更像，而是把“幻觉如何影响优化信号”这件事控制住。WoVR 给出了从模拟器、交互协议到对齐机制的系统解法。

llustration generated by AI.

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。