未来,机器人有望通过刷视频就能学会干活了?并非下载程序,也不是工程师编代码,而是通过观察人类操作物体的过程就能自己上手。
最近,清华大学许华哲助理教授、赵昊助理教授与上海期智研究院等团队合作,实现了让机器人“看人干活”来学习技能。他们避开了成本高昂且难以扩展的遥操作数据采集进行预训练,构建了一套机器人数据-模型-采集装置基础平台 UniDex。
该平台提供了将海量人类第一人称视频转化成机器人训练数据的全流程(注:第一人称视频是指,人类自身佩戴相机拍自己如何完成动作的视频,例如冲咖啡、扫地、按喷壶等)。并且,不同型号的灵巧机械手学会了使用日常工具,例如剪刀、喷壶、鼠标等,在真实环境下平均任务完成进度超过 80%。
以机器人学习切菜为例,可以这样来理解这项研究:传统的遥操作数据采集训练方法就像请私教一对一教切菜,不仅成本高而且换个机器人可能就不适用了。
而 UniDex 方法就像让机器人先观察上千个美食博主第一视角录制的视频自学切菜,然后人类再用几分钟纠正一下握刀姿势,结果不仅成本更低,机器人切得比私教效果更好,即便换不同的刀具(不同类型的机械手),也无需重新训练照样可以稳定操作。
这意味着,工厂中的机械臂换成灵巧手可能不需要重新编程;家庭服务机器人看到主人如何开抽屉,自己就能基于观察学习并掌握新技能;甚至未来机器人看过 TikTok 上的维修教程的视频后,有望直接上手修东西。
相关论文题目为《UniDex:基于第一人称人类视频的通用灵巧手控制机器人基础套件》(UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos)[1],目前已被 CVPR 接收,相关代码、模型均已开源。
重塑动作空间:如何让灵巧手像人手一样“本能”协作?
当前大部分范式本质上都是教机器人干活。例如 VLA 和世界模型等都可归为模仿学习,核心在于高质量数据。
尽管遥操作数据包含执行-观察-反馈的闭环,但存在一种本体分离,即执行主体是机器人,感官决策则依赖于人类。而在人类数据中,执行、观察、反馈均来自同一本体,动作更自然、更快,也能完成更复杂操作。
以 System 类比来说,遥操作像 System 2,而人类自身数据则像 System 1,有更本能的快速反应。因此,用人类数据学习能获得更自然的动作。
研究团队开启这项研究,来自一个想法:既然灵巧手的设计源自人手,那人类直接“教”机器人做事是否可行呢?
他们的做法是:先将人类视频和动作转换为机器人数据从中学习预训练动作空间,再针对不同任务通过简单后训练对齐,让策略变得可用。
研究团队从四个公开的 RGB-D 人类操作数据集中筛选出涵盖多样场景的第一人称视角的日常任务视频,包括使用手机、开牛奶盒、用铲子翻炒、解魔方等。
但一个不容忽视的现实问题是,无论从运动学,还是从形态方面,人手和灵巧手之间均存在显著差距:人手五指可能比灵巧手长、关节分布也不相同,并且人手的灵活性更高,能够完成复杂的动作,例如使用剪刀、喷壶、点鼠标等。
为此,研究人员提出了人机协同重定向程序(human-in-the-loop retargeting procedure),优先让人手与机械手的指尖轨迹对齐,手掌等部位则通过引入优化让其在空间中自主调整,形成更符合真实操作习惯的运动轨迹。
目前多数方法使用灵巧手重定向库中的向量重定向,这类基于优化的方式更适合遥操作。但在离线数据编辑场景下,对齐指尖的方法比向量方法在操作轨迹的真实性方面提供更强的保障。
该方法一次整体校准每类数据集和每种机械手,然后对剩余数据进行微调处理。在此基础上,研究团队构建了 UniDex-Dataset,该数据集涵盖了 5 万条以上完整操作轨迹、900 万帧图像-点云-动作配对数据,并覆盖 8 种不同型号的灵巧手(主动自由度从 6 维到 24 维不等)。
该论文第一作者、清华大学博士生张谷对 DeepTech 解释道:“我们之所以选用带有三维信息的视频数据集,是因为现在大部分操作,比如 VLA、二指夹爪都依赖于两个腕部以及头部摄像头,只用二维输入在涉及空间距离感知的情况下,容易识别不准。”
因此,带有三维深度信息的视频数据仅通过第一人称视角即可完成大量操作。同时,三维信息在 human-in-the-loop retargeting 时可辅助更精准的空间位置判断,从而提高转换数据的质量。
经过基本标定后,整个机械手的数据相对合理。但考虑到数据质量,研究人员对涉及到物体和手交互较多的片段进行二次检查和人工调整,从而让整体数据更加合理。
一套策略搞定 8 种机械手,任务进度达 81%
数据构建完成,接下来研究人员解决的问题是训练模型。他们提出了一套统一动作空间 FAAS(Function-Actuator-Aligned Space)策略,核心思路是:将功能相同的关节映射到动作空间的同一维度,从而能够让不同灵巧手的控制具有一定的功能语义性,以在不同的灵巧手之间更好地进行策略迁移和统一。
例如,将不同手型中功能一致的指根弯曲自由度,映射到动作空间的同一维度上。这样,低自由度灵巧手学会抓握动作后,可以直接将训练策略迁移到高自由度灵巧手,避免了为不同类型灵巧手重复训练的工作。
借助 FAAS 作为动作参数化方式,研究人员在 UniDex 数据集上预训练了一种三维 VLA 策略 UniDex-VLA,并通过任务演示进行微调。在预训练阶段,研究人员已在整个数据集掺杂了各种不同类型的机械手数据。
在 FAAS 策略加持下,可实现零样本跨数据迁移,有利于机械手迭代后快速保留原有训练,并将不同类型机械手训练的策略迁移到目标机械手。
在真实机器人实验中,研究团队还搭建了一套硬件平台,涵盖了 Franka 机械臂、Inspire 手、Wuji 手和 Oymotion 手,并设计了 5 项具有挑战性的日常工具任务,包括冲咖啡、扫地、浇花、剪袋子、用鼠标,每项任务的微调数据仅采集 50 条真实操作轨迹。
结果显示,相较于扩散策略、3D 扩散策略等基线方法,UniDex-VLA 在所有任务中均取得了优异的平均任务完成进度,最高实现 81%。即便与当前业界具有代表性的 VLA 模型 π0 的 38% 相比,也具有明显的优势。在最难的任务“用剪刀剪袋子”方面,该方法比此前最好的方法提升了 84.6%。
模型泛化能力的表现同样值得关注。研究团队将原本在 Inspire 手上训练好的“冲咖啡”策略,直接部署到 Wuji 手和 Oymotion 手上,在未经微调的条件下,成功率实现了 40% 到 60%;同样实验条件下,基线方法几乎全部失效。
“我们的实验结果证明,通过结合 FAAS 动作空间和大规模预训练,能够让模型学会更通用的手部控制逻辑。”张谷表示。
除了数据集和模型,研究团队还设计了一套便携式数据采集系统 UniDex-Cap。这个系统将 Apple Vision Pro 和 Intel RealSense L515 深度相机固定在同一支架上,提供了采集装置和转换的脚本。
相比传统遥操作方式,UniDex-Cap 采集人类演示的速度提升约 5 倍。在实验中,该团队通过人机数据训练中等难度任务,发现人类演示数据与真实机器人数据比例大概在 2:1 左右,即两条人类演示数据可替代一条真实机器人数据,显著降低了后训练阶段的数据采集和微调的成本。
机器人学习的“数据金字塔”已经堆好了
从人类数据学习的策略,已成为当下越来越多人的共识方向之一。研究团队认为,未来人类数据可能会呈现一种金字塔的形式:最底层是无标签的人类视频,中间层是带有动作标注的人类视频,最上层是精细的动作标签,包括带反馈的人类数据。
随着金字塔层数上升,成本和精度越高,同时获得的外界信息也越多。如文章开头中提到的刷视频学习技能,便位于人类数据金字塔最底层,即没有任何动作标注的纯视频信息。
张谷指出,随着 3D 视觉和算法方面的进步,通过视频信息能够了解整个空间以及机械手在空间中的动作轨迹,再结合本次研究中的数据转换 pipeline,有望通过纯视频形式让机器人直接学会高层次的语义理解和低层次的动作执行。
未来,在 UniDex 方法中引入触觉等模态对齐,有望让从人类学习的方法呈现一套覆盖更多的场景、更多任务类型以及泛化性更好的策略,从而促进向更大规模和更通用的方向发展。此外,该方法也适用于灵巧手专属的工具使用场景。
接下来,研究团队将进一步提高人类数据到机械手数据的转换效率。另一方面,尽管模型在手型迁移方面已获得初步验证,但研究人员还将深入探索,面对更多未曾见过的机械结构,是否可以继续保持稳定。
这项研究相当于给灵巧手领域构建了一套完整的基础设施,未来研究者不用再从零开始攒数据、调模型,而是基于 UniDex 直接进行二次开发。长远来看,有望加速灵巧手更快走向日常生活的应用场景。如果这一方向成立,那么未来最强的机器人训练集,可能来自大量的人类视频数据。
参考资料:
1.相关论文:https://arxiv.org/abs/2603.22264
2.项目地址:https://github.com/unidex-ai/UniDex
运营/排版:何晨龙
热门跟贴