近日,蚂蚁灵波科技与香港科技大学等高校合作完成的研究论文 《Causal World Modeling for Robot Control》被国际机器人顶级学术会议 Robotics: Science and Systems(RSS)2026 接收。
RSS 是全球机器人领域公认的顶级学术会议之一,长期关注机器人学习、控制、感知、规划与系统等前沿方向,录用标准严格。论文被 RSS 接收,意味着相关研究不仅具有学术创新性,也获得了国际机器人研究共同体的高度认可。
这项研究的核心,是让机器人不只是完成动作,还能够在行动前预测世界会如何变化。论文提出了面向机器人控制的因果世界建模框架,并将其落地为全球首个开源的自回归视频-动作世界模型 LingBot-VA。该模型能够在机器人执行任务的过程中,持续预测环境变化,并根据预测结果生成下一步动作指令,使机器人具备类似人类“边观察、边判断、边行动”的能力。
对蚂蚁灵波而言,此次论文入选 RSS 2026,标志着其在“世界模型驱动机器人控制”方向上的探索获得国际顶级学术平台认可,也进一步验证了 LingBot-VA 作为具身智能基础模型的技术价值。未来,这一路线有望推动机器人从依赖指令执行,走向更强的环境理解、任务泛化和自主决策。
对机器人来说,真正困难的并不只是完成动作,还需要理解这个动作会带来什么变化。例如,拿起杯子后桌面会怎样变化,推动抽屉后物体位置会怎样改变。LingBot-VA 的核心突破,正是把这种对未来变化的预测能力引入机器人控制,让机器人先预测世界接下来会变成什么样,再根据预测结果决定应该如何行动。
这也是论文强调“因果世界建模”的原因。真实物理世界沿时间向前,因此机器人在预测未来时,也必须按照真实时间顺序一步步向前推演。LingBot-VA 将这一因果关系写入模型结构,每一步预测都只依据此前的观察和动作,按时间顺序展开。这样一来,模型生成的就不仅仅是一段展示未来的视频,而是一条可用于机器人控制决策的因果轨迹。这也让模型具备了更强的长期记忆能力,对于完成长时序、多步骤的真实任务尤其重要。
在技术实现上,LingBot-VA 采用 Mixture-of-Transformers(MoT)架构,将视频预测和动作生成统一到同一个自回归扩散框架中。模型还设计了闭环推演机制,在任务执行过程中持续接收真实环境反馈,减少长时间预测中的误差累积。
论文在仿真基准和真实机器人任务上系统验证了 LingBot-VA 的性能。在 RoboTwin 2.0 的 50 个双臂操作任务中,LingBot-VA 在 Easy 和 Hard 设置下分别取得 92.0% 和 91.1% 的平均成功率;在 LIBERO 基准上达到 98.5%。
在真实世界评测中,面对长时序、高精度以及柔性与关节物体操控这三大类 6 项高难度挑战,LingBot-VA 仅需 50 条真实示范数据即可完成适配,整体成功率较业界基线 π0.5 提升超过 20 个百分点,展现出良好的数据效率和泛化能力。
LingBot-VA 已在今年早些时候开放模型权重、训练与推理代码。研究人员和开发者可在 Model Scope、Hugging Face 和 GitHub 访问下载。
论文链接:https://arxiv.org/abs/2601.21998
项目主页:https://technology.robbyant.com/lingbot-va
本文由极果用户极果原创
热门跟贴