机器之心发布

近期,利用视频生成模型为机器人构建 “世界模型”,已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令,这类模型能够先 “想象” 出未来的视觉轨迹,再由逆动力学模型(IDM)将生成画面解码为机器人动作,从而形成 “先预测、后执行” 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力,这一路线正在受到学术界和工业界的广泛关注。

然而,这一看似理想的范式背后,却隐藏着一个关键瓶颈:生成的视频未必对应真实可执行的动作序列,即所谓的 “可执行性鸿沟”(Executability Gap)

针对这一问题,香港中文大学(深圳)与跨维智能的研究团队提出了一种全新的强化学习后训练框架 ——Executable Video Alignment (EVA)。该框架创新性地将逆动力学模型转化为奖励模型,通过强化学习直接优化视频生成过程,使生成结果不仅 “看起来真实”,更 “动起来可行”

这也表明,真正服务于机器人的世界模型不能只停留在二维视觉预测层面,而应进一步融入对世界物理的建模;本工作正是跨维智能此前提出的GS-World及其开源工具EmbodiChain所提出的核心思想的一个具体算法创新

打开网易新闻 查看精彩图片

  • 论文标题:EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards
  • 论文链接:https://arxiv.org/abs/2603.17808
  • 项目页: https://eva-project-page.github.io/
  • 代码链接:https://github.com/RobbinW/EVA

痛点:中看不中用的 “可执行性鸿沟”

近年来,视频生成模型在机器人任务规划中展现出很强的潜力。相比直接从图像和语言映射到动作序列,这类方法先生成未来视觉过程,再从中恢复动作,天然具备更强的中间表征能力,也让 “规划” 变得更加直观。

然而,现有视频模型主要优化的是像素分布或感知一致性,它们擅长生成 “视觉上真实” 的内容,却并不真正理解机器人本体结构、关节约束和运动学规律

打开网易新闻 查看精彩图片

由此带来一种典型现象:生成的视频在细节上却可能存在机械臂局部形变、关节连接模糊、运动突然跳变等不符合运动学规律的问题。经过逆动力学模型翻译成动作信号之后,这些偏差会被迅速放大,最终演化为抖动、越界甚至完全不可执行的控制指令。

打开网易新闻 查看精彩图片

破局之道:EVA 框架

围绕这个问题,研究团队提出了Executable Video Alignment(EVA)

EVA 的核心思想很直接:既然机器人最终需要的是可执行的动作序列,那么视频生成模型的训练目标就不应只由视觉质量决定,而应该进一步引入来自动作空间的约束

具体而言,EVA 首先训练一个逆动力学模型(Inverse Dynamics Model, IDM),让它能够根据视频中的局部时序变化恢复出机器人动作;随后,再将这个 IDM 扩展作为 “奖励模型”,用于评估视频生成结果对应的动作序列是否平滑、合理、符合机器人本体约束。

换句话说,EVA 让视频世界模型在监督微调阶段首先回答:

  • 这段视频看起来真实吗?
  • 是否符合任务语义?

而在强化学习阶段进一步回答:

  • 这段视频如果被翻译成动作,机器人到底能不能执行?
  • 它对应的动作轨迹是否平滑?
  • 是否违反速度、加速度等本体约束?
  • 是否会产生突兀跳变或不稳定控制?

基于这一思路,研究团队在奖励设计中显式引入了多种机器人执行层面的约束,包括动作速度变化、加速度平滑性以及更高阶的jerk正则项,同时对超过机器人本体限制的异常动作进行惩罚。通过强化学习后训练,模型会逐渐倾向于生成那些不仅视觉自然,而且对应动作更稳定、更符合物理规律的未来轨迹。从本质上看,EVA 并不是简单地 “修补视频中的瑕疵”,而是在将视频生成分布主动拉回到机器人可行运动流形之上。

打开网易新闻 查看精彩图片

实验表现:从仿真到真实的提升

为了验证 EVA 的有效性,研究团队在仿真和真实机器人平台上进行了系统实验。

  • 视觉规划质量飞跃:在视觉质量评估中,经过 RL 对齐的 EVA 模型在 “运动学合理性”(Kinematic plausibility)上相比未对齐的基线模型大幅提升了 20.9%。在更严格的整体标准下,模型的 Perfect Execution 达到了 83.8%。这说明 EVA 优化的不只是 “画面是否自然”,而是在减少机械臂形变、关节歧义和时序跳变等对执行极其重要的结构性伪影。

打开网易新闻 查看精彩图片

  • 仿真任务成功率提高:研究团队在当前具身操作领域具有代表性的 RoboTwin 2.0 基准上进行了仿真实验评测。之所以选择 RoboTwin,一方面是因为它面向双臂操作任务,任务类型丰富、场景随机性强,能够更真实地反映机器人在复杂环境中的操作能力;另一方面,RoboTwin 已逐渐成为检验 VLA 方法 与 具身世界模型方法 泛化能力和真实执行潜力的重要公开基准,因此在这一平台上的结果具有较强的说服力。

在实验中,研究团队对21 个双臂任务进行了系统评测。评测方式并不是只比较生成视频 “看起来好不好”,而是将生成视频进一步交给逆动力学模型(IDM)解码为动作序列,再真正送入控制系统执行,并统计每个任务 20 次试验中的成功次数。换句话说,这一指标考察的是:视频世界模型生成的未来,究竟能不能被机器人真正做出来。从结果来看,EVA(with RL)将平均成功率进一步提升到 52.6%,不仅明显超过未对齐版本,也整体优于多种代表性 VLA 方法和机器人基础模型基线。例如,在 ClickBell 任务上,EVA(with RL)达到 20/20;在 PressStapler 上达到 20/20;在 TurnSwitch 上达到 13/20,相比未对齐版本的 8/20 有明显提升。

打开网易新闻 查看精彩图片

  • 真实世界部署更稳定:为了进一步验证方法在真实场景中的落地价值,研究团队还在真实双臂机器人平台上进行了部署测试。结果表明,EVA 的优势并不只停留在仿真环境中,而是稳定延伸到了真实机器人部署阶段。对于 Seen tasks,经过可执行性对齐后的 EVA(with RL)达到 64.0%,明显高于 ACT、π₀、Vidar 和 GE-Act 等代表性基线方法。尤其在 StackBowl、Place2Basket 和 Place2Tray 等任务上,EVA(with RL)都取得了更优表现。更值得关注的是,在5 个全新的 OOD 任务上,EVA 的优势更加明显。相比于基线方法,EVA(with RL) 将平均成功率提升至60.0%,显示出更强的新任务适应能力和跨场景泛化能力。

打开网易新闻 查看精彩图片

如果把这三组结果放在一起解读,EVA 的贡献就会更清晰:

它并不是单纯把视频 “变好看” 了,也不是只在某个局部指标上做了优化;它展示的是一条更完整的提升链条 ——

从视觉规划质量改善,到仿真执行成功率提升,再到真实机器人部署更稳定。

这条链条背后对应的,其实正是 EVA 的核心判断:对于具身世界模型来说,真正决定落地价值的,不只是 “能不能生成未来”,而是 “生成出来的未来,能不能被机器人可靠地执行”。而 EVA 通过逆动力学奖励,把这一点第一次系统性地变成了训练目标。

拓展潜力:零样本生成赋能数据合成

除了提升视频世界模型的执行可靠性,EVA 还展现出一个极具潜力的延伸方向:面向具身智能的数据合成与增强

众所周知,具身智能系统的发展长期受制于高质量机器人数据的稀缺。真实机器人采集不仅成本高、周期长,而且对人力示教和平台条件高度依赖。EVA 所弥合的 “可执行性鸿沟”,则为构建全合成具身数据流水线打开了新的可能。

研究团队展示了一种零样本(Zero-Shot)的数据生成方案:首先利用先进的文本到图像基础模型生成多样化的初始场景观测,再将这些图像输入经过对齐后的 EVA 视频世界模型,从而自动生成具备合理物理约束的动态视频轨迹。相比以往仅追求视觉多样性的合成方式,这一流程更进一步保证了生成结果在动作层面的可用性。

这意味着,未来或许可以在不依赖人工遥操作的前提下,持续合成更丰富、更可信、更接近真实执行分布的具身数据,为机器人学习提供新的规模化路径。

打开网易新闻 查看精彩图片

结语:从 “会生成” 到 “会执行”,EVA 补上关键一步

这项工作的一个重要意义在于,它提醒整个领域重新思考视频世界模型的评价标准。

过去,许多研究更关注生成结果是否清晰、连贯、符合语义,但对于机器人而言,这些指标远远不够。因为机器人并不是在 “观看” 世界模型生成的画面,而是在 “执行” 这些画面背后所对应的动作与交互过程。

从这个意义上看,EVA 提供了一条重要的技术路径:它让视频世界模型不再只是生成未来画面,而是开始面向真实机器人执行去优化未来轨迹。EVA 所补上的,正是视觉合理性与动作可执行性之间长期存在的关键缺口,推动世界模型从 “看起来合理” 迈向 “真正能够执行”。

EVA 主要聚焦于运动学层面的对齐,其拓展可进一步引入更丰富的动力学约束,例如接触力、摩擦、扭矩等真实物理因素。更进一步说,要让世界模型真正服务于具身智能,仅仅具备二维视觉生成能力仍然不够。更 “好用” 的世界模型,需要进一步走向对三维空间结构、真实物理规律和连续交互过程的统一理解。沿着这条路径,世界模型才有可能真正成为支撑具身智能决策、执行与泛化的基础能力。这个方向,也正与跨维智能围绕 GS-World(Generative Simulation World Model) 和其开源平台 EmbodiChain 所推进的研究主线一脉相承:前者致力于以生成式仿真建模 3D 资产、环境和物理交互规则,后者则作为面向具身智能的 Real2Sim2Real 引擎,连接场景生成、数据合成、模型训练和 Sim2Real 部署。

通过 EVA,跨维智能已经给出了一个清晰的信号:

机器人需要的,不只是会 “想象未来” 的世界模型,更是能够在真实三维物理世界中 “做得出来” 的世界模型

而这,或许正是世界模型迈向具身智能落地过程中,最关键的一步。