预测到规划未来：WLA统一了世界建模、语言推理与动作生成|动作|推理|机器人

视频链接：https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

近期，世界-动作模型（World-Action Model，WAM）正成为具身智能的重要方向。它将世界建模与动作预测结合起来：机器人不仅能根据当前观测生成控制动作，还能预测未来状态或画面，在行动前先预演可能的结果。这有助于模型学习物理规律和动作影响，但也带来了新的挑战。

首先，图像预测往往需要重建大量与任务无关的细节，如背景、纹理和光照。这些信息对生成动作帮助有限，却会增加学习负担。其次，计算开销较高，如果推理阶段仍需显式生成图像或视频，可能引入额外延迟，影响机器人实时闭环控制。

更重要的是，许多 WAM 仍主要依赖像素级视觉预测，语义信息不足，难以充分表达任务意图、因果关系和长期规划。

图 1：WAM 的局限性：细节重建负担、推理延迟与语义缺失

为了解决这一问题，上海交通大学 DENG Lab 提出了世界 - 语言 - 动作模型（World-Language-Action Model, WLA），将世界建模、语言推理与机器人动作生成统一到同一个框架中。WLA 对未来状态的预测不只停留在「生成未来画面」，而是同时建模两类关键信息：粗粒度的文本意图与细粒度的物理动态。

文本意图用自然语言描述未来状态和任务目标，为机器人提供简洁、可解释的语义表示。它能够过滤大量与决策无关的视觉细节，使模型更聚焦于任务本身，并进一步支持目标分解、记忆组织、逻辑推理和长期规划。

与此同时，物理动态刻画动作对环境状态的影响，描述物体位姿、接触关系、运动趋势等细粒度变化。它连接高层任务意图与底层动作控制，使机器人不仅理解「要做什么」，也能判断「这样做会带来什么结果」。

在部署阶段，WLA 仅激活 2B 参数，却在仿真与真实机器人实验中全面超越多类强 WAM / VLA 基线，并在长时程、强记忆依赖的 RMBench 上取得 56.5% 成功率，接近是次优方法的两倍。更重要的是，经过系统级推理优化后，WLA 的单次推理延迟降至 40ms，使其能够胜任动态场景下的实时机器人控制。此外，WLA 还展现出直接从跨本体、无动作标注机器人视频中学习新任务的潜力，为降低机器人数据采集成本提供了新的可能。

代码与模型权重均已完全开源：

论文标题：World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis
论文地址：https://arxiv.org/abs/2606.05979
代码地址：https://github.com/SJTU-DENG-Lab/WLA
模型仓库：https://huggingface.co/collections/SJTU-DENG-Lab/wla

文本意图：我做到了哪一步，接下来怎么做？

不同于许多基于双向 DiT 的 WAM，WLA 采用自回归 Transformer 作为骨干网络，并由预训练视觉 - 语言模型（VLM）初始化。这一设计使模型天然地继承了 VLM 的语言理解、序列生成和上下文管理能力，不再局限于像素级预测。

在长时程任务中，语言指令通常只给出最终目标，却不会告诉机器人每一步应如何推进。为此，WLA 将高层意图表示为文本子任务：模型会预测未来动作窗口对应的子任务序列，并维护一个记忆缓冲区，用于记录已经完成的步骤。推理时，模型先自回归生成当前应执行的子任务，再基于该子任务生成动作；执行后的子任务会被写入记忆，作为后续决策的上下文。

由此，WLA 不再只是「看一帧、做一步」，而是能够持续判断任务进度：哪些步骤已经完成、当前应做什么、接下来如何推进。这种文本意图建模为长时程、强记忆依赖的机器人操作提供了清晰、可解释的高层语义支撑。

视频链接：https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

视频 1：WLA 具备推理、规划和记忆能力，能够处理长时程任务

物理动态：动作如何改变环境？

为使自回归主干具备物理动态建模能力，WLA 引入了「世界专家」和一组 meta-queries。模型将 meta-queries 追加到输入序列之后，使其通过因果注意力聚合上下文信息，从而形成对环境变化的紧凑表征。

训练时，世界专家以当前视觉状态和 meta-queries 的隐藏表示为条件，预测未来的视觉状态。由于这一预测目标要求模型捕捉动作序列引起的环境变化，这些隐藏表示会被约束为一种潜在动作表征：它们不负责重建低层细节，而是集中编码核心物理动态。与此同时，这些潜在动作表征也会作为条件输入，引导「动作专家」生成可执行的机器人动作。

图 3: WLA 的架构设计

因此，WLA 在推理时并不需要先显式生成未来图像。世界建模信号已在训练阶段通过共享主干和 meta-queries 注入动作生成过程，推理时可以关闭世界专家，直接生成机器人动作。这样，WLA 既保留了世界建模带来的物理先验，又避免了传统 WAM「先想象、再执行」范式带来的额外延迟。经过一系列系统级优化后，WLA 的单次推理延迟降至 40 ms，适用于动态场景下的实时机器人控制。

视频链接：https://mp.weixin.qq.com/s/l8mjkkDHKeDqEFEdwJpuPA

视频 2：WLA 的推理延迟显著低于传统 WAM 方法

实验结果：仿真、真机全面验证

在 RoboTwin 2.0 和 LIBERO 仿真基准上，WLA-0 在仅激活 2B 参数且未进行具身预训练的情况下，取得了极具竞争力的结果。

跨具身迁移：从无标注视频中学习新任务

最后，实验进一步考察 WLA 能否从无动作标注视频中学习未见任务。作者将 RoboTwin 的 50 个任务被划分为 45 个 seen 任务和 5 个 unseen 任务，并设置四组对比：仅使用 seen 任务动作监督的 Seen-Action baseline、加入 seen 视频监督的 Seen-Action+Video、加入 unseen 同本体视频的 +Unseen Same-Emb. Video，以及加入 unseen 跨本体视频的 +Unseen Cross-Emb. Video。

结果显示，仅加入可见任务的视频监督几乎没有收益，平均 Clean/Rand. 成功率从 13.0/11.6 变为 11.8/12.6；加入 unseen 同本体视频后提升至 34.4/30.0，加入 unseen 跨本体视频后仍达到 28.8/27.4。以 Beat Block Hammer 为例，baseline 几乎完全失败，而未见任务视频监督使模型学会抓取锤子并尝试敲击目标，展现出跨本体迁移的潜力。