打开网易新闻 查看精彩图片

过去要 30 天机器人遥操作,现在只要戴上一副眼镜走一走。 当机器人的数据接口从实验室搬到日常生活,制约 scale 的瓶颈就不再是数据量,而是数据接口本身。

打开网易新闻 查看精彩图片

HumanEgo 总览:人类戴 Aria 眼镜采集第一人称视频(左),转化为交互中心表征并训练 flow matching 策略(中),策略零样本迁移到机器人——不受环境、相机、本体限制(右)。

视觉-语言大模型这几年的成功,本质上吃的是一个廉价、可无限扩展的数据接口——互联网。任何人写博客、拍照片,都在为下一代大模型喂数据。

但机器人学习一直没有这样的接口。当前 SOTA 操作策略依赖机器人遥操作(teleoperation)数据:专业操作员通过控制器远程操作机器人,把每一次抓取、放置手动"演示"给机器人。这条路又贵又慢,必须在装备齐全的实验室里完成,而且数据和机器人硬件强耦合——换一个机器人、换一个工作站,数据几乎完全不能复用。

最近一年,学界开始尝试把人类第一人称视频当作机器人的训练数据,从 EgoMimic、EgoZero 到 AINA,不同团队都在探索这条路。但已有工作大多沿着两条路线展开:要么用人类视频与机器人数据做协同训练(co-training),要么先在数千小时视频上做大规模预训练——两者都还没有完全摆脱对机器人数据的依赖。一个自然的问题随之而来:一个普通人,只拿一副智能眼镜、几分钟视频,能不能直接训练出一个可部署的机器人策略

来自马里兰大学(UMD)的团队提出新框架HumanEgo,给出了肯定的答案:

只用 30 分钟人类第一人称视频,不需要任何机器人数据、不需要针对机器人的后训练、不需要互联网级预训练,就能在 4 个真实世界双手协作任务上达到92.5%成功率,并零样本迁移到不同机器人、相机与场景。

值得一提的是,HumanEgo 一经公开便在社区引发广泛关注:X(推特)相关讨论帖浏览量已接近10 万,开源代码在短短数日内收获230+ GitHub star,不少研究者留言希望复现这套从人类视频学习的流程。

打开网易新闻 查看精彩图片

  • 论文标题:
  • HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos
  • 作者团队:
  • Zhi (Leo) Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos(University of Maryland)
  • 论文链接:
  • https://arxiv.org/abs/2605.24934
  • 项目主页:
  • https://humanego-ai.github.io
  • 代码仓库:
  • https://github.com/TX-Leo/HumanEgo
  • 完整视频:
  • https://www.youtube.com/watch?v=pdL46diijuY

为什么"人类视频"这么难直接拿来用?

让普通人戴上 Meta Aria 这类智能眼镜,就能在厨房、车间、办公室里采集带 6-DoF 头部轨迹和 3D 手部关键点的高质量视频。但人类视频要直接训练机器人,横亘着两道难关:

其一,跨形态的表征鸿沟(embodiment gap)。 人手和机器人夹爪在视觉外观运动学上都不同:人手有 21 个关节、会自遮挡;机器人夹爪是金属平行开合。直接用人手视频训练的策略,部署到机器人上必然失效。

其二,极少数据下的学习难题。 30 分钟视频仅约 60 条轨迹,这个数据量下主流模仿学习(ACT、Diffusion Policy)极易过拟合,更别提泛化到没见过的场景。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

数据采集:戴一副 Aria Gen1 眼镜,在任意环境完成演示,每条演示只需几秒,无需标定或专用工作站。

核心思路:

把表征建在"交互"上,而不是"身体"上

HumanEgo 的核心 insight 可以浓缩为一句话:机器人不该模仿人的身体,而该恢复任务相关的"手-物交互几何"

团队把场景中每只手和每个物体都看作一个实体(entity),为每个实体计算一个 29 维的交互中心 Token(Interaction-Centric Token, ICT),编码实体在参考系下的 6D 位姿、左右手相对该实体的位姿,以及抓取状态。

打开网易新闻 查看精彩图片

系统架构:视觉端通过抠除人臂 + 渲染虚拟夹爪消除外观差异;空间端用 ICT 序列编码实体间关系;flow matching 策略配合三个密集辅助目标,从分钟级人类数据学出双手机器人动作。

这个表征有三个关键性质:

实体相对——每个 token 描述"手相对物体怎么靠近、抓取、运输",正是操作的本质信号;

形态无关——人手经过简单重定向被抽象成"虚拟双指夹爪",无论人手还是 Trossen / UR5 / Franka 夹爪,都产生同样的 token;

变长接口——场景里有几个物体就有几个 token,天然适配不同任务。

打开网易新闻 查看精彩图片

手到夹爪:人手 21 个关键点被重定向为一个 SE(3) 虚拟夹爪 + 1 维开合状态。

物体一侧,团队用 Grounding DINO + SAM2 检测分割,CoTracker3 跨帧追踪关键点并三角化到 3D,再用 Orient-Anything 估计朝向。抓取时物体常被手遮挡,HumanEgo 引入运动学锁定(kinematic latching)——从抓取那一刻起把物体位姿刚性绑定到手上,保证遮挡期间表征依然稳定连续。所有这些量都来自现成感知模型,无需任何人工标注。

视觉端,HumanEgo 用 SAM2 + LaMa抠除人手人臂,再把虚拟夹爪和物体关键点渲染回原图,得到"看起来已经像机器人在操作"的本体无关观测——用轻量渲染绕开了昂贵的域适应或图像翻译。

策略采用flow matching(比 diffusion 更快、比 ACT 更具表达力),并叠加三个密集辅助目标:物体运动预测、2D 轨迹回归、潜在一致性。它们在 3D 物理、2D 视觉、潜在空间三个互补空间里预测场景如何演变,让每条演示不再只产生一个动作监督,而是榨出四种密集信号——这正是低数据下高效学习的关键。

实验:

92.5% 成功率,比遥操作高 41%

团队在 4 个真实世界双手任务上系统评估,分别考验抓取放置、长程多步、接触密集双手协同、持续旋转控制——其中拆叠杯子要求三步动作零误差累积,浇花则要两臂严格按时序配合。

打开网易新闻 查看精彩图片

Serve Bread:从任意位置抓起面包,平稳放到盘子中央。

打开网易新闻 查看精彩图片

Downstack Cups:长程多步——推倒、抓取、重新堆叠三个嵌套杯子,任一步出错都会累积。

打开网易新闻 查看精彩图片

Water Flowers:接触密集双手协同——一臂举喷头,一臂开阀门,严格时序配合。

打开网易新闻 查看精彩图片

Adjust Table:握住摇把连续旋转三整圈,全程不松手。

每个任务 40 次试验,对比 5 个零样本基线(EgoZero、PointPolicy、ZeroMimic、Track2Act、SPOT)与匹配时长的 ACT 遥操作基线。结果:

打开网易新闻 查看精彩图片

HumanEgo-30 在四个任务上全面领先;仅用 15 分钟数据的 HumanEgo-15 已超过用 30 分钟机器人数据训练的 ACT。

  • 92.5%平均成功率(30 分钟人类视频,四任务);
  • 仅 15 分钟人类数据即达75%,已超过 30 分钟遥操作的 51%;
  • 比匹配时长的 ACT 遥操作高41%
  • 8 分钟人类视频(57.5%)即超过30 分钟机器人数据(52.5%)——3.75× 数据效率

五个零样本基线只能捕捉操作的局部侧面,在需要精确手-物推理的任务上集体失守(最高不超过 45%),HumanEgo 是唯一在四个任务上都保持高成功率的方法。

打开网易新闻 查看精彩图片

数据效率曲线:人类数据曲线全程高于机器人遥操作,8 分钟即反超 30 分钟遥操作。

更关键的是消融实验。团队对比五种表征配置发现:纯视觉方法的天花板只有 32.5%,无论怎么抠图、渲染;而一旦加入 ICT,成功率直接跳到 85%(+52.5pp),完整模型达 95%。显式的交互中心空间表征,才是跨形态迁移的真正使能者

打开网易新闻 查看精彩图片

表征消融:纯视觉天花板 32.5%,加入 ICT 后跃升至 85%;三个辅助目标进一步带来增益。

一个策略,零样本适配多种机器人、相机与环境

把单一策略直接部署到 9 个分布外条件(不同机器人 / 相机 / 光照 / 物体)下,成功率全部维持在85–95%,无需任何重训练或微调。

打开网易新闻 查看精彩图片

零样本跨条件泛化:跨本体、跨相机、跨环境均保持 85–95% 成功率。

打开网易新闻 查看精彩图片

跨本体:同一策略零样本部署到不同机器人手臂。

打开网易新闻 查看精彩图片

跨环境:更换背景、光照、干扰物,策略依然稳定。

打开网易新闻 查看精彩图片

跨设置:更换相机、视角、桌面高度,策略零样本适配。

不止四个任务:更多真实世界能力

除四个主任务外,HumanEgo 同样能学会一系列日常操作,全部来自分钟级人类视频:

打开网易新闻 查看精彩图片

给设备充电。

打开网易新闻 查看精彩图片

拧开瓶盖。

打开网易新闻 查看精彩图片

开门。

打开网易新闻 查看精彩图片

开柜子。

打开网易新闻 查看精彩图片

抽取纸巾。

写在最后:当数据接口从实验室搬到日常

HumanEgo 单看是一项技术工作,但它真正想说的是一个更大的判断:机器人学习的瓶颈,不是"数据太少",而是"数据接口和机器人硬件绑死了"

当可穿戴的第一人称视频成为新的数据接口,机器人数据收集就从"实验室里的稀缺资源"变成"人人可参与、可设计的工作流":任何人都能贡献数据,采集可以发生在真实世界的任意角落,同一份数据可以跨多个机器人复用。团队也指出了下一步方向——把这套范式扩展到多指灵巧操作、长程工业流程,以及从大规模人类视频中持续学习。正如论文结尾所写——有了对的表征和学习目标,人类第一人称视频可以成为机器人学习的通用数据接口。

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/C7rvC5-3WDndJJYTHEIIGA?click_id=129

HumanEgo 完整演示视频(约 1 分 30 秒):一镜看完数据采集、方法原理与真实机器人执行。

关于团队

HumanEgo 由马里兰大学(UMD)研究团队完成,作者包括 Zhi (Leo) Wang、Botao He、Kelin Yu、Seungjae Lee、Ruohan Gao、Furong Huang、Yiannis Aloimonos。

一作 王治是马里兰大学的研究者,研究聚焦于面向机器人学习的可扩展数据接口——如何让人类经验通过可穿戴感知 scale 成下一代通用操作策略,方向涵盖跨形态学习与从人类视频中高效学习。HumanEgo 正是这一思路的集中体现。

个人主页:https://tx-leo.github.io

导师 Yiannis Aloimonos是马里兰大学计算机系教授、UMIACS 计算机视觉实验室主任,主动视觉(active vision)与认知机器人领域的奠基性学者之一,长期研究视觉、行动与语言的交汇,致力于让机器人像人一样在与世界的交互中学习。

个人主页:

https://robotics.umd.edu/clark/faculty/350/Yiannis-Aloimonos