这项由纽约大学、加州大学伯克利分校、加州大学洛杉矶分校、Hello Robot公司、AI2研究院和滑铁卢大学联合完成的研究发表于2026年2月,论文编号为arXiv:2602.09017v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当前机器人学习领域面临着一个看似矛盾的现象:我们投入了数千小时的人工数据收集、庞大的GPU集群以及成千上万次的现实世界评估,但机器人的泛化能力仍然不如一个小孩或家养宠物。这种巨大的资源投入与有限回报之间的对比,促使研究者们开始重新思考当前的技术路径。
传统的机器人训练就像是让一个盲人通过别人的口述来学习如何精确操作物体。目前主流的机器人策略都建立在大型语言模型的基础上,通过自然语言指令来引导机器人行为。然而语言作为机器人信息媒介存在着致命缺陷:语言过于抽象,难以传达机器人需要的精确空间信息,而且理解语言需要庞大的模型规模,这些模型充满了对机器人而言完全无用的信息,比如地球到月亮的距离。
面对这一困境,研究团队提出了一个看似简单却极具颠覆性的解决方案:用物理接触点替代自然语言作为策略调节媒介。他们开发的接触锚定策略系统就像是为机器人提供了一套全新的"感官语言"——不再依赖抽象的语言描述,而是直接告诉机器人在三维空间中的哪个具体位置与环境发生接触。
这种方法的核心理念类似于教导一个孩子如何使用工具。与其说"请拿起那个红色的杯子",不如直接指着杯子的把手说"在这里抓住"。研究团队将这种直观的指导方式转化为机器人能够理解的三维坐标系统,让机器人能够精确定位应该与物体发生接触的位置。
更令人惊讶的是,这种方法的效率远超预期。研究团队仅用23小时的人工演示数据就训练出了能够在三个基本操作任务上表现出色的机器人系统:抓取物体、开启以及关闭门和抽屉。在零样本评估中,这套系统在完全陌生的环境和物体上的表现比最先进的视觉语言行为模型高出56%。这就像是一个只学了23小时的学生,在考试中击败了那些学习了数千小时的同学。
研究团队还采用了一种独特的模块化设计思路。他们没有构建一个试图解决所有问题的庞大通用模型,而是将系统拆分为一系列专门的实用模型库。每个模型就像一个专业工匠,专精于特定的操作技能。这种设计不仅提高了效率,还使得系统更容易维护和改进。
为了加速开发过程,研究团队还构建了一个轻量级的仿真环境EgoGym。这个仿真环境就像是机器人的"练习场",虽然在视觉逼真度上做了妥协,但在场景多样性和执行速度上进行了优化。这使得研究团队能够在部署到现实世界之前,快速识别失败模式并改进模型和数据集。
一、技术创新的核心突破
传统机器人学习面临的最大挑战就像是让一个人仅凭文字描述来完成精密的手工操作。当我们说"拿起桌子上的水杯"时,这个看似简单的指令实际上包含了大量的模糊信息:水杯的确切位置在哪里?应该从哪个角度抓取?用多大的力度?这些关键的物理细节在语言中往往被忽略或无法准确表达。
接触锚定策略的创新之处在于跳过了语言这个中间环节,直接为机器人提供物理世界中的精确坐标。这就像是给机器人安装了一个"物理GPS",告诉它确切的接触位置。每个接触锚点都是一个三维空间中的坐标点,标明了机器人应该与环境发生接触的准确位置。
在具体实现上,这套系统采用了一种巧妙的"后见之明"标注方法。在收集训练数据时,研究者会记录整个操作过程,然后回过头来标识关键的接触时刻。这就像是观看一场精彩的乒乓球比赛后,回放关键的击球瞬间并标记球拍与球接触的精确位置和时刻。
对于抓取和开启任务,系统会自动检测机器人夹具停止收缩的时刻,这通常意味着夹具已经与目标物体发生了物理接触。此时,系统会记录夹具中心点的三维坐标作为接触锚点。对于关闭任务,研究者在数据收集过程中手动标记接触时刻。一旦确定了接触锚点,系统会将这个信息向前传播到整个操作序列中,就像是为每一帧画面都添加了一个"目标标记"。
在推理阶段,系统需要一个初始的接触锚点来启动操作。这个锚点可以通过多种方式获得:用户可以手动点击目标物体,或者系统可以调用现成的视觉语言模型,通过文本提示自动识别目标位置。一旦获得了二维像素坐标,系统就会结合深度信息将其转换为三维空间中的接触锚点。
随着机器人的移动,系统会持续跟踪这个接触锚点在相机坐标系中的位置。这种跟踪机制确保了机器人始终朝着正确的接触点前进,即使在移动过程中视角发生变化也不会迷失方向。
二、数据收集与硬件设计的巧思
为了最大程度地减少数据收集与实际部署之间的差异,研究团队设计了一套独特的数据收集工具。这个工具的精妙之处在于它既适合人类手持操作,也能直接安装到机器人上使用,就像是一把既能手持又能机械操作的万能钥匙。
这个手持夹具采用了轻量化设计,几乎完全由3D打印部件构成。夹具的触发器设计得符合人体工程学,让数据收集者能够长时间使用而不感到疲劳。更重要的是,它的小巧尺寸使其易于携带,研究者可以随时随地收集数据,大大增加了数据的多样性。
夹具配备了一个刚性安装的iPhone 13 Pro作为主要传感器套件。这个选择看似简单,实际上非常聪明:iPhone不仅提供了高质量的RGB-D图像流,还通过ARKit技术提供了精确的6自由度相机姿态信息。这种集成设计确保了数据收集和机器人推理使用完全相同的观察空间。
在数据收集过程中,夹具的手动触发器控制着夹爪的开合。当部署到机器人上时,同样的夹爪模块由伺服电机驱动,但机械结构保持完全一致。这种统一设计理念确保了从人工演示到机器人执行的无缝过渡。
研究团队特别注重数据的多样性收集。他们在424个不同的环境中收集了超过20000个演示,涵盖了各种照明条件、背景杂乱程度和任务对象形态。这种多样性就像是为机器人提供了一本丰富的"操作百科全书",让它能够应对各种意想不到的情况。
夹爪设计采用了角形双指机构,能够产生更大的夹持力并处理小物体。机器人版本的夹爪配备了柔顺的可回驱手指和可变形的泡沫衬垫,确保能够稳定抓取各种刚性和可变形物体。这种设计考虑了真实世界物体的复杂性和多样性。
三、仿真环境助力快速迭代
为了加速模型开发和失效模式识别,研究团队构建了EgoGym仿真环境。这个环境的设计哲学类似于汽车工业中的风洞实验室:虽然不能完美复制真实世界的所有细节,但能够快速测试关键性能指标。
EgoGym基于MuJoCo物理引擎构建,在视觉逼真度和执行速度之间做了权衡选择。研究团队认识到,对于验证泛化能力而言,场景的多样性比视觉的逼真度更为重要。因此,他们将计算资源更多地投入到生成丰富多样的测试场景中。
对于抓取任务,仿真环境从包含915个Objaverse资源的物体库中随机采样,生成各种姿态和排列的物体配置。对于开启和关闭任务,系统能够在运行时程序化生成带有随机几何参数的门和抽屉。每个任务还会随机化表面纹理并添加干扰物体,进一步增加场景复杂度。
这种多样性驱动的设计使得EgoGym能够快速暴露策略的弱点。如果一个策略在多样化的仿真环境中表现良好,那么它更有可能在真实世界中成功泛化。研究团队将EgoGym直接整合到训练循环中,能够频繁评估检查点以检测过拟合现象。
仿真环境还支持不同的机器人具体实现和动作空间配置。研究者可以选择使用接触锚定策略具体实现或DROID具体实现,动作可以是相对的或绝对的。环境还可以包装视觉语言模型以提供非特权感知,支持Moondream、Gemini-Robotics-ER-1.5和Molmo等多种模型。
四、实验验证与性能表现
研究团队在多个维度对接触锚定策略进行了全面评估,结果展现出了令人印象深刻的性能优势。在零样本环境泛化测试中,系统在三个核心操作任务上都表现出色。
在抓取任务评估中,系统在五个完全陌生的场景中面对25个从未见过的物体,单次尝试成功率达到了83%。当加入验证器引导的重试机制后,成功率进一步提升至90%。这种性能水平已经接近人类在类似条件下的表现。
开启和关闭任务的结果同样令人鼓舞。在面对五个不同的柜门和五个抽屉时,系统的单次成功率分别达到了81%和96%。加入重试机制后,这两个数字分别提升到91%和98%。特别是关闭任务的近乎完美表现,展示了接触锚定方法在需要精确定位的操作中的优势。
跨具体实现的泛化能力测试进一步证明了这种方法的通用性。除了主要的Stretch机器人平台外,研究团队还在Franka FR3、XArm 6和Universal Robotics UR3e上评估了同一个策略检查点。仅需适配机器人夹爪安装和逆运动学控制器,无需任何模型重训练,系统就能在不同机器人上实现相当的性能水平。
为了确保评估的客观性,研究团队还与三个外部机构合作进行了独立验证。Hello Robot、加州大学洛杉矶分校和AI2的研究者分别在各自实验室中复现了实验,结果与内部评估高度一致,证明了系统的稳定性和可复现性。
与现有基准的对比更加突出了接触锚定策略的优势。在抓取任务上,系统显著超越了AnyGrasp基准47%和π0.5-DROID基准56%。在开启任务上,系统比Stretch-Open基准高出33%。这些对比结果表明,用物理接触信息指导机器人比传统的语言指导方法更加有效。
五、长期操作与工具调用能力
接触锚定策略的模块化设计为实现复杂的长期操作行为开辟了新的可能性。研究团队展示了如何将这些原子级技能组合成更复杂的任务序列,就像用简单的乐高积木搭建复杂的建筑结构。
在咖啡豆获取任务中,机器人需要执行一个四步序列:开启柜门、抓取咖啡豆袋、将袋子放到桌上、关闭柜门。每个步骤都由相应的接触锚定策略模块处理,而高级视觉语言模型充当协调者,决定何时调用哪个技能模块。
在桌面清理任务中,机器人需要识别桌上的多个物体并将它们逐一移动到垃圾桶中。这个任务考验的不仅是单次抓取的能力,还有序列规划和环境感知的能力。系统成功地完成了所有物体的搬运,展示了抓取策略的稳定性。
这种工具调用方法的关键优势在于其模块化和可扩展性。每个基础技能都经过充分训练和验证,当它们组合在一起时,整体系统的可靠性得到了保障。这就像是训练有素的专业团队,每个成员都精通自己的职责,团队协作时能够发挥出更大的效能。
验证器引导的重试机制在长期任务中发挥了重要作用。当某个步骤失败时,系统能够识别失败并自动重试,而不是放弃整个任务序列。这种容错能力对于实际应用至关重要,因为真实世界的不确定性总是存在的。
研究团队发现,多数失败是由于验证器的误判导致的。当策略实际上已经部分完成任务时,验证器可能错误地判断为成功,导致后续步骤出现硬件碰撞。这个发现指出了当前系统的改进方向:需要更精确的任务完成验证机制。
六、仿真与现实的关联性分析
为了验证EgoGym仿真环境对现实世界性能的预测能力,研究团队进行了一项精心设计的单盲相关性研究。他们选择了四个不同性能水平的抓取策略检查点,让不知道仿真结果的评估者在现实世界中测试这些模型。
结果显示,仿真环境中的性能排序与现实世界的表现高度一致。这种强相关性证明了EgoGym作为开发工具的有效性:研究者可以通过仿真环境快速筛选和改进策略,而不需要进行昂贵的现实世界测试。
更有价值的是,仿真环境还能够提供详细的失效模式分析。通过在仿真中执行大量试验,研究团队识别了五种主要的失败类型:空抓取、接触但未抓取、抓取错误物体、举升不足和成功完成。这种细粒度的分析帮助研究者理解策略的具体弱点。
基于这些失效模式的发现,研究团队对数据处理流程进行了针对性改进。例如,当发现某个检查点存在大量"举升不足"失败时,他们引入了静态帧过滤机制,移除了演示数据中那些夹爪接触后几乎没有运动的片段。
这种仿真驱动的迭代开发方法显著加速了研究进程。传统的机器人学习研究往往需要在每次模型修改后进行大量的现实世界测试,成本高昂且耗时漫长。EgoGym使得研究团队能够在现实世界部署之前快速验证和改进策略。
仿真环境还支持大规模的消融研究,例如测试接触锚点在干扰物体存在时的鲁棒性。通过系统性地增加场景中的干扰物体数量,研究团队发现具有特权接触锚点信息的策略保持稳定性能,而依赖视觉语言模型生成接触点的策略性能会随干扰物体增加而下降。
七、消融研究与核心机制验证
为了深入理解接触锚定策略成功的关键因素,研究团队进行了系统性的消融研究。这些实验就像是拆解一台精密机械,逐一检查每个部件的作用。
最关键的消融实验验证了接触锚点的重要性。研究团队训练了一个仅使用RGB图像输入的对照模型,在关闭任务上进行测试。尽管关闭任务的目标在视觉上非常明显,纯视觉模型的成功率仅为58%,而包含接触锚点的完整模型达到了96%。这个巨大的性能差距清楚地展示了物理接触信息的价值。
另一个重要的消融研究关注了视觉干扰对不同策略的影响。研究团队在EgoGym环境中系统性地增加场景中的干扰物体数量,从一个目标物体增加到五个物体的混合场景。结果显示,使用特权接触锚点信息的策略性能保持相对稳定,而依赖视觉语言模型生成接触点的策略性能随着干扰增加而显著下降。
这个发现揭示了当前视觉语言模型在复杂场景中的局限性。当场景变得拥挤时,模型更容易被干扰物体误导,选择错误的接触点。这种分析为未来的改进方向提供了明确指引:需要更强大的视觉理解能力来准确识别目标物体。
研究团队还比较了不同视觉语言模型生成接触锚点的性能。他们测试了Gemini-ER、Moondream和Molmo等多个模型,发现这些模型在简单场景中表现相当,但在复杂场景中的鲁棒性存在差异。这种比较研究为选择合适的视觉感知组件提供了实证依据。
训练数据的质量分析也产生了重要洞察。通过比较不同训练阶段的模型性能,研究团队发现数据多样性比数据量更为重要。在相同的训练时间内,使用更多样化环境和对象收集的数据能够产生更好的泛化性能。
八、技术细节与实现挑战
接触锚定策略的实现涉及多个技术层面的精心设计,每个环节都经过深思熟虑的优化。在数据预处理阶段,系统需要处理RGB-D图像的尺寸调整和数据增强,特别是水平翻转增强帮助策略理解左右对称性。
视觉夹爪状态估计采用了创新的SAM2分割方法。系统在每个视频序列开始时使用少量正负样本点提示SAM2生成夹爪分割掩码,然后计算左右夹爪指尖的质心距离来估计夹爪开合度。这种方法避免了传统的机械传感器,完全依靠视觉信息实现状态感知。
策略学习使用了Vector-Quantized Behavior Transformer架构,这是一个两阶段的学习系统。第一阶段使用VQ-VAE学习动作的离散表示,第二阶段训练自回归transformer预测量化后的动作序列。这种设计相比扩散模型更加直观,并且能够产生更小、更快的模型。
接触锚点的空间表示和坐标变换是系统的核心技术挑战。在推理过程中,系统需要持续跟踪接触锚点在移动相机坐标系中的位置。这通过机器人正向运动学实现,比视觉惯性里程计提供更高的精度。
模型参数的选择经过大量实验优化。抓取模型使用16个码本大小的VQ-VAE,而开启和关闭模型使用32个码本大小。这些看似细微的差异实际上对最终性能有重要影响。学习率、批次大小和训练步数都针对每个任务进行了精细调整。
视觉编码器的预训练也是性能的关键因素。研究团队使用MoCo自监督学习方法在收集的演示数据上预训练ResNet-50主干网络。这种任务特定的预训练比使用通用预训练权重能够获得更好的性能。
九、实际部署与系统集成
将接触锚定策略从实验室环境部署到实际机器人系统需要解决多个工程挑战。系统需要在不同硬件平台上保持一致的性能,同时满足实时性要求。
在Stretch机器人上,策略直接在搭载Intel NUC的板载CPU上以2Hz频率运行推理。这种边缘计算方案避免了网络延迟,提高了系统的响应性和可靠性。对于固定臂机器人如Franka和XArm,系统在NVIDIA RTX A4000 GPU上运行,获得更高的推理速度。
不同机器人平台的运动学差异需要专门的适配层。虽然策略输出统一的末端执行器空间运动命令,但每个机器人需要自己的逆运动学求解器将这些命令转换为关节空间控制指令。研究团队为每个测试平台开发了专门的控制接口。
iPhone应用的开发展示了轻量级部署的可能性。由于模型只有5200万参数,它能够在现代iPhone的神经引擎上实时运行。这个应用使用ARKit进行姿态跟踪,用户触摸屏幕提供接触调节,系统实时显示预测的夹爪运动和目标位置。
多机构的独立评估验证了系统的部署稳健性。Hello Robot、加州大学洛杉矶分校和AI2的研究者都成功复现了实验结果,证明系统不依赖于特定的硬件配置或环境条件。这种可复现性对于科学研究和实际应用都至关重要。
系统的容错机制包括多个层面的保护。硬件层面有安全限位和碰撞检测,软件层面有异常动作过滤和紧急停止机制。验证器模块持续监控任务执行状态,在检测到异常时能够及时介入。
十、未来展望与研究方向
接触锚定策略作为一种新的机器人学习范式,为未来的研究开辟了多个令人兴奋的方向。这项工作证明了专门化的模块化方法可以在资源受限的环境下实现强大的性能,这对于学术研究机构具有重要意义。
双手操作是最自然的扩展方向之一。当前系统专注于单臂操作,但许多复杂任务需要双手协调。将接触锚定策略扩展到双手系统需要处理多个接触点的预测和协调,以及更复杂的任务分解策略。
多接触点任务代表另一个重要的研究方向。某些操作可能需要同时在多个位置建立接触,或者需要接触点的分布而不是单一点。这种扩展需要重新设计接触表示和策略架构,可能涉及接触分布的建模。
策略学习中的双模态决策机制是一个值得深入研究的问题。接触锚定策略同时依赖视觉信息和接触位置信息,理解这两种模态如何相互作用以及系统如何权衡它们的重要性,可能揭示监督策略学习的基本规律。
验证器引导重试机制的端到端集成代表了一个实际的改进方向。当前系统依赖外部验证器来决定是否重试,将这种能力直接集成到策略中,通过真实世界或仿真强化学习来实现,可能显著提升系统的实际可用性。
长期任务规划与技能组合是实现更复杂机器人行为的关键。研究如何更有效地组合原子技能,以及如何处理技能组合中的失败恢复,将使系统能够处理更具挑战性的现实世界任务。
仿真到现实的迁移能力还有很大的改进空间。虽然EgoGym已经展示了良好的相关性,但进一步缩小仿真与现实之间的差距,特别是在接触动力学和材料属性建模方面,将使仿真环境发挥更大的作用。
最后,这种方法的理论基础值得更深入的研究。理解为什么物理接触信息比抽象语言指令更有效,以及这种方法的理论极限在哪里,可能为机器人学习理论提供新的洞察。
说到底,接触锚定策略的成功证明了一个重要观点:有时候最好的解决方案不是让机器人变得更像人类,而是让机器人以最适合它们的方式理解和操作物理世界。通过直接使用物理接触信息而不是依赖语言抽象,这种方法为构建更高效、更可靠的机器人系统开辟了一条新路径。对于那些希望在有限资源下开展机器人研究的团队来说,这项工作提供了一个既实用又有效的解决方案。随着更多研究者采用和改进这种方法,我们有理由期待机器人在日常环境中的表现将会有质的飞跃。
Q&A
Q1:接触锚定策略相比传统语言指导方法有什么优势?
A:接触锚定策略直接告诉机器人在三维空间中与环境接触的精确位置,避免了语言的抽象性问题。语言描述往往缺乏机器人需要的精确空间信息,而接触点提供了确切的物理坐标,让机器人能更准确地定位和操作物体。研究显示这种方法比现有的视觉语言行为模型性能高出56%。
Q2:这套系统需要多少训练数据才能工作?
A:研究团队仅用23小时的人工演示数据就训练出了能够处理抓取、开启和关闭三种基本操作的机器人系统。这比传统方法需要的数千小时训练数据大大减少。其中抓取任务用了16.3小时数据,开启任务4.7小时,关闭任务2.0小时,展现了极高的数据效率。
Q3:接触锚定策略能在不同品牌的机器人上使用吗?
A:可以。研究团队在Stretch、Franka FR3、XArm 6和Universal Robotics UR3e等不同机器人平台上测试了同一个策略模型,仅需适配机器人的夹爪安装和控制接口,无需重新训练模型就能实现相当的性能。这种跨平台兼容性是该方法的重要优势之一。
热门跟贴