港中深-跨维智能提出EVA框架，强化学习让视频世界模型“动”起来|eva框架|新论文|机器人|港中深|跨维智能

机器之心发布

近期，利用视频生成模型为机器人构建 “世界模型”，已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令，这类模型能够先 “想象” 出未来的视觉轨迹，再由逆动力学模型（IDM）将生成画面解码为机器人动作，从而形成 “先预测、后执行” 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力，这一路线正在受到学术界和工业界的广泛关注。

然而，这一看似理想的范式背后，却隐藏着一个关键瓶颈：生成的视频未必对应真实可执行的动作序列，即所谓的 “可执行性鸿沟”（Executability Gap）

针对这一问题，香港中文大学（深圳）与跨维智能的研究团队提出了一种全新的强化学习后训练框架 ——Executable Video Alignment (EVA)。该框架创新性地将逆动力学模型转化为奖励模型，通过强化学习直接优化视频生成过程，使生成结果不仅 “看起来真实”，更 “动起来可行”

这也表明，真正服务于机器人的世界模型不能只停留在二维视觉预测层面，而应进一步融入对世界物理的建模；本工作正是跨维智能此前提出的GS-World及其开源工具EmbodiChain所提出的核心思想的一个具体算法创新

论文标题：EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards
论文链接：https://arxiv.org/abs/2603.17808
项目页: https://eva-project-page.github.io/
代码链接：https://github.com/RobbinW/EVA

痛点：中看不中用的 “可执行性鸿沟”

近年来，视频生成模型在机器人任务规划中展现出很强的潜力。相比直接从图像和语言映射到动作序列，这类方法先生成未来视觉过程，再从中恢复动作，天然具备更强的中间表征能力，也让 “规划” 变得更加直观。

然而，现有视频模型主要优化的是像素分布或感知一致性，它们擅长生成 “视觉上真实” 的内容，却并不真正理解机器人本体结构、关节约束和运动学规律

由此带来一种典型现象：生成的视频在细节上却可能存在机械臂局部形变、关节连接模糊、运动突然跳变等不符合运动学规律的问题。经过逆动力学模型翻译成动作信号之后，这些偏差会被迅速放大，最终演化为抖动、越界甚至完全不可执行的控制指令。

破局之道：EVA 框架

围绕这个问题，研究团队提出了Executable Video Alignment（EVA）

EVA 的核心思想很直接：既然机器人最终需要的是可执行的动作序列，那么视频生成模型的训练目标就不应只由视觉质量决定，而应该进一步引入来自动作空间的约束

具体而言，EVA 首先训练一个逆动力学模型（Inverse Dynamics Model, IDM），让它能够根据视频中的局部时序变化恢复出机器人动作；随后，再将这个 IDM 扩展作为 “奖励模型”，用于评估视频生成结果对应的动作序列是否平滑、合理、符合机器人本体约束。

换句话说，EVA 让视频世界模型在监督微调阶段首先回答：

这段视频看起来真实吗？
是否符合任务语义？

而在强化学习阶段进一步回答：

这段视频如果被翻译成动作，机器人到底能不能执行？
它对应的动作轨迹是否平滑？
是否违反速度、加速度等本体约束？
是否会产生突兀跳变或不稳定控制？

基于这一思路，研究团队在奖励设计中显式引入了多种机器人执行层面的约束，包括动作速度变化、加速度平滑性以及更高阶的jerk正则项，同时对超过机器人本体限制的异常动作进行惩罚。通过强化学习后训练，模型会逐渐倾向于生成那些不仅视觉自然，而且对应动作更稳定、更符合物理规律的未来轨迹。从本质上看，EVA 并不是简单地 “修补视频中的瑕疵”，而是在将视频生成分布主动拉回到机器人可行运动流形之上。

实验表现：从仿真到真实的提升

为了验证 EVA 的有效性，研究团队在仿真和真实机器人平台上进行了系统实验。

视觉规划质量飞跃：在视觉质量评估中，经过 RL 对齐的 EVA 模型在 “运动学合理性”（Kinematic plausibility）上相比未对齐的基线模型大幅提升了 20.9%。在更严格的整体标准下，模型的 Perfect Execution 达到了 83.8%。这说明 EVA 优化的不只是 “画面是否自然”，而是在减少机械臂形变、关节歧义和时序跳变等对执行极其重要的结构性伪影。

仿真任务成功率提高：研究团队在当前具身操作领域具有代表性的 RoboTwin 2.0 基准上进行了仿真实验评测。之所以选择 RoboTwin，一方面是因为它面向双臂操作任务，任务类型丰富、场景随机性强，能够更真实地反映机器人在复杂环境中的操作能力；另一方面，RoboTwin 已逐渐成为检验 VLA 方法与具身世界模型方法泛化能力和真实执行潜力的重要公开基准，因此在这一平台上的结果具有较强的说服力。

在实验中，研究团队对21 个双臂任务进行了系统评测。评测方式并不是只比较生成视频 “看起来好不好”，而是将生成视频进一步交给逆动力学模型（IDM）解码为动作序列，再真正送入控制系统执行，并统计每个任务 20 次试验中的成功次数。换句话说，这一指标考察的是：视频世界模型生成的未来，究竟能不能被机器人真正做出来。从结果来看，EVA（with RL）将平均成功率进一步提升到 52.6%，不仅明显超过未对齐版本，也整体优于多种代表性 VLA 方法和机器人基础模型基线。例如，在 ClickBell 任务上，EVA（with RL）达到 20/20；在 PressStapler 上达到 20/20；在 TurnSwitch 上达到 13/20，相比未对齐版本的 8/20 有明显提升。

真实世界部署更稳定：为了进一步验证方法在真实场景中的落地价值，研究团队还在真实双臂机器人平台上进行了部署测试。结果表明，EVA 的优势并不只停留在仿真环境中，而是稳定延伸到了真实机器人部署阶段。对于 Seen tasks，经过可执行性对齐后的 EVA（with RL）达到 64.0%，明显高于 ACT、π₀、Vidar 和 GE-Act 等代表性基线方法。尤其在 StackBowl、Place2Basket 和 Place2Tray 等任务上，EVA（with RL）都取得了更优表现。更值得关注的是，在5 个全新的 OOD 任务上，EVA 的优势更加明显。相比于基线方法，EVA（with RL）将平均成功率提升至60.0%，显示出更强的新任务适应能力和跨场景泛化能力。

如果把这三组结果放在一起解读，EVA 的贡献就会更清晰：

它并不是单纯把视频 “变好看” 了，也不是只在某个局部指标上做了优化；它展示的是一条更完整的提升链条 ——

从视觉规划质量改善，到仿真执行成功率提升，再到真实机器人部署更稳定。

这条链条背后对应的，其实正是 EVA 的核心判断：对于具身世界模型来说，真正决定落地价值的，不只是 “能不能生成未来”，而是 “生成出来的未来，能不能被机器人可靠地执行”。而 EVA 通过逆动力学奖励，把这一点第一次系统性地变成了训练目标。

拓展潜力：零样本生成赋能数据合成

除了提升视频世界模型的执行可靠性，EVA 还展现出一个极具潜力的延伸方向：面向具身智能的数据合成与增强

众所周知，具身智能系统的发展长期受制于高质量机器人数据的稀缺。真实机器人采集不仅成本高、周期长，而且对人力示教和平台条件高度依赖。EVA 所弥合的 “可执行性鸿沟”，则为构建全合成具身数据流水线打开了新的可能。

研究团队展示了一种零样本（Zero-Shot）的数据生成方案：首先利用先进的文本到图像基础模型生成多样化的初始场景观测，再将这些图像输入经过对齐后的 EVA 视频世界模型，从而自动生成具备合理物理约束的动态视频轨迹。相比以往仅追求视觉多样性的合成方式，这一流程更进一步保证了生成结果在动作层面的可用性。

这意味着，未来或许可以在不依赖人工遥操作的前提下，持续合成更丰富、更可信、更接近真实执行分布的具身数据，为机器人学习提供新的规模化路径。

结语：从 “会生成” 到 “会执行”，EVA 补上关键一步

这项工作的一个重要意义在于，它提醒整个领域重新思考视频世界模型的评价标准。

过去，许多研究更关注生成结果是否清晰、连贯、符合语义，但对于机器人而言，这些指标远远不够。因为机器人并不是在 “观看” 世界模型生成的画面，而是在 “执行” 这些画面背后所对应的动作与交互过程。

从这个意义上看，EVA 提供了一条重要的技术路径：它让视频世界模型不再只是生成未来画面，而是开始面向真实机器人执行去优化未来轨迹。EVA 所补上的，正是视觉合理性与动作可执行性之间长期存在的关键缺口，推动世界模型从 “看起来合理” 迈向 “真正能够执行”。

EVA 主要聚焦于运动学层面的对齐，其拓展可进一步引入更丰富的动力学约束，例如接触力、摩擦、扭矩等真实物理因素。更进一步说，要让世界模型真正服务于具身智能，仅仅具备二维视觉生成能力仍然不够。更 “好用” 的世界模型，需要进一步走向对三维空间结构、真实物理规律和连续交互过程的统一理解。沿着这条路径，世界模型才有可能真正成为支撑具身智能决策、执行与泛化的基础能力。这个方向，也正与跨维智能围绕 GS-World（Generative Simulation World Model）和其开源平台 EmbodiChain 所推进的研究主线一脉相承：前者致力于以生成式仿真建模 3D 资产、环境和物理交互规则，后者则作为面向具身智能的 Real2Sim2Real 引擎，连接场景生成、数据合成、模型训练和 Sim2Real 部署。

通过 EVA，跨维智能已经给出了一个清晰的信号：

机器人需要的，不只是会 “想象未来” 的世界模型，更是能够在真实三维物理世界中 “做得出来” 的世界模型

而这，或许正是世界模型迈向具身智能落地过程中，最关键的一步。