30分钟人类第一人称视频，零样本教会机器人双臂操作|位姿|机器人|真实世界|第一人称

过去要 30 天机器人遥操作，现在只要戴上一副眼镜走一走。当机器人的数据接口从实验室搬到日常生活，制约 scale 的瓶颈就不再是数据量，而是数据接口本身。

HumanEgo 总览：人类戴 Aria 眼镜采集第一人称视频（左），转化为交互中心表征并训练 flow matching 策略（中），策略零样本迁移到机器人——不受环境、相机、本体限制（右）。

视觉-语言大模型这几年的成功，本质上吃的是一个廉价、可无限扩展的数据接口——互联网。任何人写博客、拍照片，都在为下一代大模型喂数据。

但机器人学习一直没有这样的接口。当前 SOTA 操作策略依赖机器人遥操作（teleoperation）数据：专业操作员通过控制器远程操作机器人，把每一次抓取、放置手动"演示"给机器人。这条路又贵又慢，必须在装备齐全的实验室里完成，而且数据和机器人硬件强耦合——换一个机器人、换一个工作站，数据几乎完全不能复用。

最近一年，学界开始尝试把人类第一人称视频当作机器人的训练数据，从 EgoMimic、EgoZero 到 AINA，不同团队都在探索这条路。但已有工作大多沿着两条路线展开：要么用人类视频与机器人数据做协同训练（co-training），要么先在数千小时视频上做大规模预训练——两者都还没有完全摆脱对机器人数据的依赖。一个自然的问题随之而来：一个普通人，只拿一副智能眼镜、几分钟视频，能不能直接训练出一个可部署的机器人策略？

来自马里兰大学（UMD）的团队提出新框架HumanEgo，给出了肯定的答案：

只用 30 分钟人类第一人称视频，不需要任何机器人数据、不需要针对机器人的后训练、不需要互联网级预训练，就能在 4 个真实世界双手协作任务上达到92.5%成功率，并零样本迁移到不同机器人、相机与场景。

值得一提的是，HumanEgo 一经公开便在社区引发广泛关注：X（推特）相关讨论帖浏览量已接近10 万，开源代码在短短数日内收获230+ GitHub star，不少研究者留言希望复现这套从人类视频学习的流程。

论文标题：
HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos
作者团队：
Zhi (Leo) Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos（University of Maryland）
论文链接：
https://arxiv.org/abs/2605.24934
项目主页：
https://humanego-ai.github.io
代码仓库：
https://github.com/TX-Leo/HumanEgo
完整视频：
https://www.youtube.com/watch?v=pdL46diijuY

为什么"人类视频"这么难直接拿来用？

让普通人戴上 Meta Aria 这类智能眼镜，就能在厨房、车间、办公室里采集带 6-DoF 头部轨迹和 3D 手部关键点的高质量视频。但人类视频要直接训练机器人，横亘着两道难关：

其一，跨形态的表征鸿沟（embodiment gap）。人手和机器人夹爪在视觉外观和运动学上都不同：人手有 21 个关节、会自遮挡；机器人夹爪是金属平行开合。直接用人手视频训练的策略，部署到机器人上必然失效。

其二，极少数据下的学习难题。 30 分钟视频仅约 60 条轨迹，这个数据量下主流模仿学习（ACT、Diffusion Policy）极易过拟合，更别提泛化到没见过的场景。

数据采集：戴一副 Aria Gen1 眼镜，在任意环境完成演示，每条演示只需几秒，无需标定或专用工作站。

核心思路：

把表征建在"交互"上，而不是"身体"上

HumanEgo 的核心 insight 可以浓缩为一句话：机器人不该模仿人的身体，而该恢复任务相关的"手-物交互几何"。

团队把场景中每只手和每个物体都看作一个实体（entity），为每个实体计算一个 29 维的交互中心 Token（Interaction-Centric Token, ICT），编码实体在参考系下的 6D 位姿、左右手相对该实体的位姿，以及抓取状态。

系统架构：视觉端通过抠除人臂 + 渲染虚拟夹爪消除外观差异；空间端用 ICT 序列编码实体间关系；flow matching 策略配合三个密集辅助目标，从分钟级人类数据学出双手机器人动作。

这个表征有三个关键性质：

实体相对——每个 token 描述"手相对物体怎么靠近、抓取、运输"，正是操作的本质信号；

形态无关——人手经过简单重定向被抽象成"虚拟双指夹爪"，无论人手还是 Trossen / UR5 / Franka 夹爪，都产生同样的 token；

变长接口——场景里有几个物体就有几个 token，天然适配不同任务。

手到夹爪：人手 21 个关键点被重定向为一个 SE(3) 虚拟夹爪 + 1 维开合状态。

物体一侧，团队用 Grounding DINO + SAM2 检测分割，CoTracker3 跨帧追踪关键点并三角化到 3D，再用 Orient-Anything 估计朝向。抓取时物体常被手遮挡，HumanEgo 引入运动学锁定（kinematic latching）——从抓取那一刻起把物体位姿刚性绑定到手上，保证遮挡期间表征依然稳定连续。所有这些量都来自现成感知模型，无需任何人工标注。

视觉端，HumanEgo 用 SAM2 + LaMa抠除人手人臂，再把虚拟夹爪和物体关键点渲染回原图，得到"看起来已经像机器人在操作"的本体无关观测——用轻量渲染绕开了昂贵的域适应或图像翻译。

策略采用flow matching（比 diffusion 更快、比 ACT 更具表达力），并叠加三个密集辅助目标：物体运动预测、2D 轨迹回归、潜在一致性。它们在 3D 物理、2D 视觉、潜在空间三个互补空间里预测场景如何演变，让每条演示不再只产生一个动作监督，而是榨出四种密集信号——这正是低数据下高效学习的关键。

实验：

92.5% 成功率，比遥操作高 41%

团队在 4 个真实世界双手任务上系统评估，分别考验抓取放置、长程多步、接触密集双手协同、持续旋转控制——其中拆叠杯子要求三步动作零误差累积，浇花则要两臂严格按时序配合。

Serve Bread：从任意位置抓起面包，平稳放到盘子中央。

Downstack Cups：长程多步——推倒、抓取、重新堆叠三个嵌套杯子，任一步出错都会累积。

Water Flowers：接触密集双手协同——一臂举喷头，一臂开阀门，严格时序配合。

Adjust Table：握住摇把连续旋转三整圈，全程不松手。

每个任务 40 次试验，对比 5 个零样本基线（EgoZero、PointPolicy、ZeroMimic、Track2Act、SPOT）与匹配时长的 ACT 遥操作基线。结果：

HumanEgo-30 在四个任务上全面领先；仅用 15 分钟数据的 HumanEgo-15 已超过用 30 分钟机器人数据训练的 ACT。

92.5%平均成功率（30 分钟人类视频，四任务）；
仅 15 分钟人类数据即达75%，已超过 30 分钟遥操作的 51%；
比匹配时长的 ACT 遥操作高41%
8 分钟人类视频（57.5%）即超过30 分钟机器人数据（52.5%）——3.75× 数据效率

五个零样本基线只能捕捉操作的局部侧面，在需要精确手-物推理的任务上集体失守（最高不超过 45%），HumanEgo 是唯一在四个任务上都保持高成功率的方法。

数据效率曲线：人类数据曲线全程高于机器人遥操作，8 分钟即反超 30 分钟遥操作。

更关键的是消融实验。团队对比五种表征配置发现：纯视觉方法的天花板只有 32.5%，无论怎么抠图、渲染；而一旦加入 ICT，成功率直接跳到 85%（+52.5pp），完整模型达 95%。显式的交互中心空间表征，才是跨形态迁移的真正使能者。

表征消融：纯视觉天花板 32.5%，加入 ICT 后跃升至 85%；三个辅助目标进一步带来增益。

一个策略，零样本适配多种机器人、相机与环境

把单一策略直接部署到 9 个分布外条件（不同机器人 / 相机 / 光照 / 物体）下，成功率全部维持在85–95%，无需任何重训练或微调。

零样本跨条件泛化：跨本体、跨相机、跨环境均保持 85–95% 成功率。

跨本体：同一策略零样本部署到不同机器人手臂。

跨环境：更换背景、光照、干扰物，策略依然稳定。

跨设置：更换相机、视角、桌面高度，策略零样本适配。

不止四个任务：更多真实世界能力

除四个主任务外，HumanEgo 同样能学会一系列日常操作，全部来自分钟级人类视频：

给设备充电。

拧开瓶盖。

开门。

开柜子。

抽取纸巾。

写在最后：当数据接口从实验室搬到日常

HumanEgo 单看是一项技术工作，但它真正想说的是一个更大的判断：机器人学习的瓶颈，不是"数据太少"，而是"数据接口和机器人硬件绑死了"。

当可穿戴的第一人称视频成为新的数据接口，机器人数据收集就从"实验室里的稀缺资源"变成"人人可参与、可设计的工作流"：任何人都能贡献数据，采集可以发生在真实世界的任意角落，同一份数据可以跨多个机器人复用。团队也指出了下一步方向——把这套范式扩展到多指灵巧操作、长程工业流程，以及从大规模人类视频中持续学习。正如论文结尾所写——有了对的表征和学习目标，人类第一人称视频可以成为机器人学习的通用数据接口。