IT之家 12 月 17 日消息,智元 AGIBOT 今日官宣,来自香港大学、智元 AGIBOT、复旦大学和上海创智学院的联合研究团队提出了 WholeBodyVLA,这是一种面向真实世界的人形机器人全身 Vision–Language–Action 框架。

打开网易新闻 查看精彩图片

该工作基于智元灵犀 X2 研究发布,将 VLA 扩展至双足人形机器人的全身控制,验证了其在全身 loco-manipulation 任务中的可行性。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

与原地操作相比,loco-manipulation 的难点不在于单一技能,而在于行走与操作必须在同一任务中长期、稳定地协同发生。围绕这一挑战,WholeBodyVLA 总结出限制 loco-manipulation 发展的两个核心问题:真机数据稀缺以及运动执行中的不稳定性,并引入两项关键方案:

  • 从人类视频中学习:通过从第一视角人类视频中学习移动与操作的潜在动作表示,模型能够不依赖大规模机器人遥操数据,直接获取对 loco-manipulation 行为的统一语义理解,从而显著缓解人形机器人遥操作数据稀缺、采集成本高的问题。
  • 面向移动操作的 RL 控制器:将通用连续运动控制目标简化为一组离散运动指令,仅保留 loco-manipulation 必要的强化学习训练目标,从而显著提升了控制器在运动执行时的稳定性。

研究团队在智元灵犀 X2 人形机器人上进行了大量真机实验验证,发现 WholeBodyVLA 具有以下能力:

01、 大范围、长程移动操作任务

打开网易新闻 查看精彩图片

02、 距离泛化性

得益于统一潜在动作学习阶段获取的 manipulation-aware locomotion 知识,WholeBodyVLA 能从不同的位置出发、并停止在目标物体处完成操作任务。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

03、 操作泛化性

得益于统一潜在动作学习阶段获取的 manipulation 知识,WholeBodyVLA 也对不同的场景、物体、位置表现出一定的操作泛化性。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

04、 地形泛化性

得益于 LMO 改进的运控稳定性,WholeBodyVLA 能够在干扰地形上仍然保持基本准确的移动方向和平衡。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

总的来说,WholeBodyVLA 展示了 VLA 扩展到双足人形机器人自主全身控制的可行路径。通过从人类视频中学习,并结合针对移动操作的 RL 控制器,WholeBodyVLA 使机器人能够在真实世界中稳定完成行走与操作交织的长时序任务,为推动人形机器人走向制造、服务、物流等复杂场景提供重要基础。

打开网易新闻 查看精彩图片

IT之家附项目链接如下: