让机器人“边想边做”，蚂蚁灵波“因果世界模型”论文被世界机器人顶会RSS 2026接收|rss|因果世界模型|推理|时序|机器人|蚂蚁灵波|视障人士|论文

近日，蚂蚁灵波科技与香港科技大学等高校合作完成的研究论文《Causal World Modeling for Robot Control》被国际机器人顶级学术会议 Robotics: Science and Systems（RSS）2026 接收。

RSS 是全球机器人领域公认的顶级学术会议之一，长期关注机器人学习、控制、感知、规划与系统等前沿方向，录用标准严格。论文被 RSS 接收，意味着相关研究不仅具有学术创新性，也获得了国际机器人研究共同体的高度认可。

这项研究的核心，是让机器人不只是完成动作，还能够在行动前预测世界会如何变化。论文提出了面向机器人控制的因果世界建模框架，并将其落地为全球首个开源的自回归视频-动作世界模型 LingBot-VA。该模型能够在机器人执行任务的过程中，持续预测环境变化，并根据预测结果生成下一步动作指令，使机器人具备类似人类“边观察、边判断、边行动”的能力。

对蚂蚁灵波而言，此次论文入选 RSS 2026，标志着其在“世界模型驱动机器人控制”方向上的探索获得国际顶级学术平台认可，也进一步验证了 LingBot-VA 作为具身智能基础模型的技术价值。未来，这一路线有望推动机器人从依赖指令执行，走向更强的环境理解、任务泛化和自主决策。

对机器人来说，真正困难的并不只是完成动作，还需要理解这个动作会带来什么变化。例如，拿起杯子后桌面会怎样变化，推动抽屉后物体位置会怎样改变。LingBot-VA 的核心突破，正是把这种对未来变化的预测能力引入机器人控制，让机器人先预测世界接下来会变成什么样，再根据预测结果决定应该如何行动。

这也是论文强调“因果世界建模”的原因。真实物理世界沿时间向前，因此机器人在预测未来时，也必须按照真实时间顺序一步步向前推演。LingBot-VA 将这一因果关系写入模型结构，每一步预测都只依据此前的观察和动作，按时间顺序展开。这样一来，模型生成的就不仅仅是一段展示未来的视频，而是一条可用于机器人控制决策的因果轨迹。这也让模型具备了更强的长期记忆能力，对于完成长时序、多步骤的真实任务尤其重要。

在技术实现上，LingBot-VA 采用 Mixture-of-Transformers（MoT）架构，将视频预测和动作生成统一到同一个自回归扩散框架中。模型还设计了闭环推演机制，在任务执行过程中持续接收真实环境反馈，减少长时间预测中的误差累积。

论文在仿真基准和真实机器人任务上系统验证了 LingBot-VA 的性能。在 RoboTwin 2.0 的 50 个双臂操作任务中，LingBot-VA 在 Easy 和 Hard 设置下分别取得 92.0% 和 91.1% 的平均成功率；在 LIBERO 基准上达到 98.5%。

在真实世界评测中，面对长时序、高精度以及柔性与关节物体操控这三大类 6 项高难度挑战，LingBot-VA 仅需 50 条真实示范数据即可完成适配，整体成功率较业界基线 π0.5 提升超过 20 个百分点，展现出良好的数据效率和泛化能力。

LingBot-VA 已在今年早些时候开放模型权重、训练与推理代码。研究人员和开发者可在 Model Scope、Hugging Face 和 GitHub 访问下载。

论文链接：https://arxiv.org/abs/2601.21998

项目主页：https://technology.robbyant.com/lingbot-va

本文由极果用户极果原创