打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

近期,世界-动作模型(World-Action Model,WAM)正成为具身智能的重要方向。它将世界建模与动作预测结合起来:机器人不仅能根据当前观测生成控制动作,还能预测未来状态或画面,在行动前先预演可能的结果。这有助于模型学习物理规律和动作影响,但也带来了新的挑战。

首先,图像预测往往需要重建大量与任务无关的细节,如背景、纹理和光照。这些信息对生成动作帮助有限,却会增加学习负担。其次,计算开销较高,如果推理阶段仍需显式生成图像或视频,可能引入额外延迟,影响机器人实时闭环控制。

更重要的是,许多 WAM 仍主要依赖像素级视觉预测,语义信息不足,难以充分表达任务意图、因果关系和长期规划。

打开网易新闻 查看精彩图片

图 1:WAM 的局限性:细节重建负担、推理延迟与语义缺失

为了解决这一问题,上海交通大学 DENG Lab 提出了世界 - 语言 - 动作模型(World-Language-Action Model, WLA),将世界建模、语言推理与机器人动作生成统一到同一个框架中。WLA 对未来状态的预测不只停留在「生成未来画面」,而是同时建模两类关键信息:粗粒度的文本意图与细粒度的物理动态。

文本意图用自然语言描述未来状态和任务目标,为机器人提供简洁、可解释的语义表示。它能够过滤大量与决策无关的视觉细节,使模型更聚焦于任务本身,并进一步支持目标分解、记忆组织、逻辑推理和长期规划。

与此同时,物理动态刻画动作对环境状态的影响,描述物体位姿、接触关系、运动趋势等细粒度变化。它连接高层任务意图与底层动作控制,使机器人不仅理解「要做什么」,也能判断「这样做会带来什么结果」。

打开网易新闻 查看精彩图片

在部署阶段,WLA 仅激活 2B 参数,却在仿真与真实机器人实验中全面超越多类强 WAM / VLA 基线,并在长时程、强记忆依赖的 RMBench 上取得 56.5% 成功率,接近是次优方法的两倍。更重要的是,经过系统级推理优化后,WLA 的单次推理延迟降至 40ms,使其能够胜任动态场景下的实时机器人控制。此外,WLA 还展现出直接从跨本体、无动作标注机器人视频中学习新任务的潜力,为降低机器人数据采集成本提供了新的可能。

打开网易新闻 查看精彩图片

代码与模型权重均已完全开源:

  • 论文标题:World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis
  • 论文地址:https://arxiv.org/abs/2606.05979
  • 代码地址:https://github.com/SJTU-DENG-Lab/WLA
  • 模型仓库:https://huggingface.co/collections/SJTU-DENG-Lab/wla

文本意图:我做到了哪一步,接下来怎么做?

不同于许多基于双向 DiT 的 WAM,WLA 采用自回归 Transformer 作为骨干网络,并由预训练视觉 - 语言模型(VLM)初始化。这一设计使模型天然地继承了 VLM 的语言理解、序列生成和上下文管理能力,不再局限于像素级预测。

在长时程任务中,语言指令通常只给出最终目标,却不会告诉机器人每一步应如何推进。为此,WLA 将高层意图表示为文本子任务:模型会预测未来动作窗口对应的子任务序列,并维护一个记忆缓冲区,用于记录已经完成的步骤。推理时,模型先自回归生成当前应执行的子任务,再基于该子任务生成动作;执行后的子任务会被写入记忆,作为后续决策的上下文。

由此,WLA 不再只是「看一帧、做一步」,而是能够持续判断任务进度:哪些步骤已经完成、当前应做什么、接下来如何推进。这种文本意图建模为长时程、强记忆依赖的机器人操作提供了清晰、可解释的高层语义支撑。

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

视频 1:WLA 具备推理、规划和记忆能力,能够处理长时程任务

物理动态:动作如何改变环境?

为使自回归主干具备物理动态建模能力,WLA 引入了「世界专家」和一组 meta-queries。模型将 meta-queries 追加到输入序列之后,使其通过因果注意力聚合上下文信息,从而形成对环境变化的紧凑表征。

训练时,世界专家以当前视觉状态和 meta-queries 的隐藏表示为条件,预测未来的视觉状态。由于这一预测目标要求模型捕捉动作序列引起的环境变化,这些隐藏表示会被约束为一种潜在动作表征:它们不负责重建低层细节,而是集中编码核心物理动态。与此同时,这些潜在动作表征也会作为条件输入,引导「动作专家」生成可执行的机器人动作。

打开网易新闻 查看精彩图片

图 3: WLA 的架构设计

因此,WLA 在推理时并不需要先显式生成未来图像。世界建模信号已在训练阶段通过共享主干和 meta-queries 注入动作生成过程,推理时可以关闭世界专家,直接生成机器人动作。这样,WLA 既保留了世界建模带来的物理先验,又避免了传统 WAM「先想象、再执行」范式带来的额外延迟。经过一系列系统级优化后,WLA 的单次推理延迟降至 40 ms,适用于动态场景下的实时机器人控制。

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

视频 2:WLA 的推理延迟显著低于传统 WAM 方法

实验结果:仿真、真机全面验证

在 RoboTwin 2.0 和 LIBERO 仿真基准上,WLA-0 在仅激活 2B 参数且未进行具身预训练的情况下,取得了极具竞争力的结果。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

跨具身迁移:从无标注视频中学习新任务

最后,实验进一步考察 WLA 能否从无动作标注视频中学习未见任务。作者将 RoboTwin 的 50 个任务被划分为 45 个 seen 任务和 5 个 unseen 任务,并设置四组对比:仅使用 seen 任务动作监督的 Seen-Action baseline、加入 seen 视频监督的 Seen-Action+Video、加入 unseen 同本体视频的 +Unseen Same-Emb. Video,以及加入 unseen 跨本体视频的 +Unseen Cross-Emb. Video。

打开网易新闻 查看精彩图片

结果显示,仅加入可见任务的视频监督几乎没有收益,平均 Clean/Rand. 成功率从 13.0/11.6 变为 11.8/12.6;加入 unseen 同本体视频后提升至 34.4/30.0,加入 unseen 跨本体视频后仍达到 28.8/27.4。以 Beat Block Hammer 为例,baseline 几乎完全失败,而未见任务视频监督使模型学会抓取锤子并尝试敲击目标,展现出跨本体迁移的潜力。

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA