机器之心报道

作者:大盘鸡、陈萍

Mobile ALOHA 也有翻车时刻。

电视剧中角色的惊艳亮相不一定能打动你的心,但斯坦福全职管家兼御用大厨一定能拿下你对机器人的期待。

你还记得斯坦福 Mobile ALOHA 的神操作吗?备菜、翻炒、出锅,洗衣、逗猫、浇花它是样样精通。不过它也并非一直如此优秀。人有失足,马有失蹄,ALOHA 也有翻车时刻。我们一起品鉴一下 ALOHA 的「报错」操作。

原本是为了擦酒杯下的酒渍,或许是怕观众老爷看不出,只能多洒出来一点来引起注意。

打开网易新闻 查看精彩图片

每个物品都是独立的个体,锅、油、虾、碟都将有属于自己的归宿。

打开网易新闻 查看精彩图片

抓走物品旁边的空气,四舍五入也算是抓走了物品。

打开网易新闻 查看精彩图片

别人炒菜用时五分钟,机器人大厨先用一分钟炒一炒锅。

打开网易新闻 查看精彩图片

看到这样的行动表现,打破了我们对 Mobile ALOHA 的美好期待,坐等机器人为我们养老只能是「阳光下的泡沫,一触就破」。

实际上,在最初两个 Mobile ALOHA 火爆的视频中,不少读者对于它的行为方式就有些错误的认知。比如在帮男生刮胡子这项任务中,可能大家都误以为这是机器人自主完成的,然而事实并非如此,这是通过人类远程控制完成的:

打开网易新闻 查看精彩图片

来自英伟达的研究科学家 Jim Fan 对此发布了推文,提醒大家别因为视频的惊艳程度就忽略了其中技术真相。他提到,应该将 Mobile ALOHA 看作是一辆制造精良的跑车,而它仍需要人类驾驶才能表现出自己的能力。现在的水平与能够完全自主的厨师还有较大的差距。

打开网易新闻 查看精彩图片

其实,研究团队在发布 Demo 时的项目页面中就对 Mobile ALOHA 的工作进行了明确分类。其中包括 Mobile ALOHA 能够自主完成的任务以及需要远程操作完成的任务。

研究团队在介绍时表示,对于一些简单的任务,Mobile ALOHA 可以在 50 次学习之后达到 90% 的行动成功率。对于一些简单的任务,如炒一只虾仁(有且只有一只)、拿块抹布、摆放好椅子,Mobile ALOHA 无需人类指点,还是可以自己 hold 住的。

打开网易新闻 查看精彩图片

Mobile ALOHA 可以自己完成的任务

不过,更加复杂的任务,如像炒虾仁滑蛋、打蛋、装盘等复杂操作,它依旧需要人类远程操控,而且有些视频还做了 10 倍加速处理。

打开网易新闻 查看精彩图片

依旧需要远程操控才能完成的任务

在机器人技术领域,从人类示范中进行的模仿学习已经取得了令人瞩目的成绩。其实训练 Mobile ALOHA 的过程就是像是在玩游戏 —— 操作机器人直到动作通关。Mobile ALOHA 之所以能够让人发出惊叹,是因为它所展示的任务不局限于桌面操作。这些复杂且灵活的动作源于研究者开发的一套系统,用于模仿需要全身控制的双臂移动操作任务。利用 Mobile ALOHA 收集的数据,进行有监督的行为克隆。

在上一篇文章中,我们已经分享了 Mobile ALOHA 具体的技术细节,但是并不直观。

打开网易新闻 查看精彩图片

图(左)展示了操作机器人最简单的方法就是将操作员的腰部与移动底座系在一起的。

加州大学圣地亚哥分校学生梁力天在 X 上发布了 Mobile ALOHA 的体验视频,他操纵 ALOHA 拿取箱子上的物品。简单来讲,如果你现在拥有了 Mobile ALOHA,最重要的一步就是需要你与 Mobile ALOHA「合二为一」。

虽然梁力天没有体验炒虾这样的高难度任务,但是依旧对 Mobile ALOHA 的技术表示了认可:它的直接关节映射使用起来非常直观,这使它成为比 VR 控制器更好的解决方案。这样的能力,只要 3.2 万美元的预算真的太值了。

打开网易新闻 查看精彩图片

图源:https://twitter.com/litian_liang/status/1744555501860638921

https://twitter.com/DrJimFan/status/1744786506810900679

在这个体验视频发出后,大家都很好奇,远程操控的原理到底是什么?Jim Fan 是这样解释的:

训练机器人就像在真实世界中玩游戏,一个人操作一个操纵杆来执行任务和收集数据,在遇到安全问题时进行及时的干预。

远程操控可以通过不同的方式完成,这里有一些其他选择:

  • 动作捕捉(MoCap):应用动捕系统来捕捉手部关节的细粒度运动。例如,演示者可以佩戴 CyberGlove 并操纵对象。CyberGlove 会实时捕捉运动信号和触觉反馈,然后将其重新定位到人形机器人上。
  • 另一种比较笨拙的方法是佩戴专用手套以及进行一些标记(markers)。NVIDIA 的 DexPilot 可实现无标记且无需戴手套的数据收集。人类操作员只需徒手即可执行任务。
  • VR 头显:将训练室视为虚拟现实游戏,并扮演机器人,这样做的优势是可以进行可扩展的远程数据收集。

最后,Jim Fan 说道,「我相信,只要有好的硬件,到 2024 年底,我们就能大幅提升自主技能。」

打开网易新闻 查看精彩图片

https://twitter.com/DrJimFan/status/1744786506810900679

https://twitter.com/tonyzzhao/status/1743378437174366715

https://mobile-aloha.github.io/resources/mobile-aloha.pdf

https://mobile-aloha.github.io/

https://twitter.com/litian_liang/status/1744555501860638921