为类人机器人收集高质量的灵巧操作数据
训练人形机器人执行远距离、灵巧操作任务需要高保真度的远程操作数据。虽然大规模的人类视频数据集可以提供广泛的运动先验信息,但关键的微调步骤依赖于能够捕捉灵巧移动操作全部复杂性的机器人专属演示数据。
传统的基于VR的手部追踪依赖于视觉,因此极易受到遮挡和视野外追踪失败的影响。在高精度操作场景中,这些追踪误差会直接降低数据质量,进而影响模型性能。
MANUS手套如何融入Ψ₀远程操作系统
某大学物理超智能实验室(PSI)构建了一个单人全身远程操控框架,该框架特意将三个控制流分离:上半身姿态跟踪、灵巧手部控制和运动指令。每个控制流都由专用的传感设备处理。
MANUS手套专门用于处理灵巧的手部控制功能。其工作原理如下:
1. PICO VR头戴式显示器和手腕追踪器捕捉头部和手腕的姿态,并将这些姿态输入到多目标逆运动学求解器中,以计算手臂和躯干的配置。
2. MANUS手套能够捕捉操作者精细的手指动作,覆盖灵巧手部的所有自由度。拇指、食指和中指的动作会被重新定向到安装在G1人形机器人上的三指灵巧手上。
3. 腰部和脚部追踪器向基于强化学习的下肢控制器提供高级运动指令。
通过将MANUS手套与PICO腕部追踪器配合使用,该团队无需依赖基于视觉的VR手部追踪,即可获得完整可靠的手部和腕部末端执行器姿态数据。正如作者在论文中所述:
“这种设计避免了常见的遮挡和视线外问题,并为全身灵巧操作提供了更精确的手部姿态估计。”
为什么这对培训流程至关重要
域内遥操作数据的质量直接决定了Ψ₀动作专家对特定任务的微调效果。本文的三阶段训练方案明确地阐述了这种依赖关系:
1. VLM主干网络预先训练了约829小时的人类自我中心视频(EgoDex),以学习广泛的视觉动作表征。
2. 基于流的多模态扩散变换器 (MM-DiT) 动作专家在 Humanoid Everyday 数据集上进行后训练:约31小时的真实世界人形机器人数据。
3. 使用上述系统收集的每个任务的80次远程操作演示,对动作专家进行微调。
由于第三阶段完全依赖于远程操作数据集,因此在数据采集阶段进行精确的手指追踪会对部署时的操作性能产生直接的上游影响。诸如用单指转动水龙头、从薯片罐中取出托盘或在擦拭时稳定碗等任务,都需要极高的手指姿态精度——而这种精度是基于视觉的追踪技术无法始终如一地提供的。
结果
Ψ₀在八个真实世界的长时程运动操作任务上进行了评估,每个任务包含三到五个连续的子任务,涉及抓取、倾倒、旋转、行走、蹲下、搬运、推和拉。该模型优于所有基线模型,包括GR00T N1.6、π0.5、EgoVLA、H-RDT、Diffusion Policy和ACT,尽管仅使用了大约十分之一的总训练数据,其平均总体成功率仍比第二好的基线模型GR00T N1.6高出40%以上。
作者将这一结果归功于他们分阶段的训练范式和数据质量:以正确的方式扩展正确的数据,而不是简单地积累更多数据。以MANUS手套作为手指追踪层的远程操作流程,直接提升了数据质量。
关于搜维尔科技
我们热衷于动作捕捉技术的研发与推广。我们热衷于推动技术发展,使其处于技术前沿甚至更前沿。在这个频道上,我们想分享我们基于动作捕捉技术的最新体验。搜维尔科技与Manus总部签署代理合作协议,成为其在中国大陆地区的授权代理经销商。搜维尔科技现支持相关产品购买、咨询与售后支持等服务,欢迎垂询。
热门跟贴