通过 NVIDIA Project GR00T 推进人形机器人视觉和功能开发|gr|mobility|nvidia|人形机器人|功能开发|工作流

人形机器人是机电一体化、控制理论和 AI 交叉领域的一道综合性难题。人形机器人的动力学和控制十分复杂，它们需要先进的工具、技术和算法才能在移动和操作任务中保持平衡。由于人形机器人需要融合复杂的传感器和高分辨率摄像头，才能有效感知环境并推理如何与周围环境进行实时互动，因此另一大难题是机器人数据的采集和各种传感器的集成。此外，为了满足实时处理感知数据和决策所需要的算力，还需要有功能强大的机载计算机。

当前的研究重点仍是开发能够实现机器人自适应行为并促进人与机器人自然交互的技术、工具与机器人基础模型。我们正在积极开展NVIDIA Project GR00T研究计划，旨在帮助人形机器人生态系统构建者加快下一代先进机器人的开发工作。本文将讨论用于开发人形机器人的全新 GR00T 工作流，包括：

GR00T-Gen 多样化环境生成工作流
GR00T-Mimic 机器人运动和轨迹生成工作流
GR00T-Dexterity 精细灵巧操作工作流
GR00T-Mobility 移动和导航工作流
GR00T-Control 全身控制（WBC）工作流
GR00T-Perception 多模态感知工作流

GR00T-Gen 多样化环境

生成工作流

GR00T-Gen是一套在 OpenUSD 中生成机器人任务和仿真就绪环境的工作流，用于训练通用机器人执行操纵、移动和导航。

为了让机器人学习得更“扎实”，需要在具有各种物体和场景的多样化环境中进行训练。但通常情况下，在现实世界中生成大量不同环境既昂贵又耗时，而且大多数开发者还无法使用，因此仿真成为了一个极佳的替代方案。

GR00T-Gen 使用大语言模型（LLM）和 3D 生成式 AI 模型创建并提供以人为本的逼真、多样化环境。它拥有 2500 多个 3D 资产，涵盖了 150 多个物体类别。为了创建视觉多样化场景，在仿真中加入了多种纹理以实现域随机化。域随机化使训练而成的模型和策略在部署到现实世界中时能够有效地泛化。

GR00T-Gen 为移动机械臂和人形机器人提供了跨具身支持并且包含了 100 多种任务，例如开门、按键和导航。

GR00T-Mimic 机器人运动

和轨迹生成工作流

GR00T-Mimic是一个强大的工作流，它可从远程操作演示中生成用于模仿学习的运动数据。模仿学习是一种训练机器人的方法，机器人通过观察和复制教师演示的动作来掌握技能。该训练过程的一个关键要素是可用演示数据的数量和质量。

人形机器人要想有效、安全地在以人为中心的环境中移动，其“老师”必须是人类示范者，这样才能让机器人通过模仿人类行为来学习。但现有的高质量训练数据十分匮乏，这就带来了巨大的挑战。

为了解决这个问题，需要开发能够捕捉人类行为的大量数据集。生成这种数据的可行方法之一是远程操作，即人类操作员远程控制机器人演示特定任务。虽然远程操作可以生成高保真的演示数据，但在特定时间能够访问这些系统的人数有限。

GR00T-Mimic 旨在扩大数据采集流程的规模。该方法包括在物理世界中使用扩展现实（XR）和空间计算设备（如 Apple Vision Pro）采集数量有限的人类演示。然后利用这些初始演示生成合成运动数据，从而有效地扩大演示数据集。我们的目标是创建一个全面的人类动作库供机器人学习，从而提高它们在真实世界环境中执行任务的能力。

为了进一步支持 GR00T-Mimic，NVIDIA Research 还发布了 SkillMimicGen。这是利用最少的人类演示解决实机操纵任务的第一步。

GR00T-Dexterity 精细灵巧

操作工作流

GR00T-Dexterity是一套用于精细灵巧操作的模型和策略并包含开发这些模型和策略的参考工作流。

传统的机器人抓取需要集成从识别抓取点到规划运动和控制手指等多个复杂环节。对于有许多执行器的机器人来说，管理这些系统（尤其是使用状态机来处理抓取失败等故障）使端到端抓取成为了一大难题。

GR00T-Dexterity 引入了一个借鉴研究论文 DextrAH-G 的工作流。该工作流是一种基于强化学习（RL）的机器人灵巧性策略开发方法。借助它，可以创建出像素到动作的端到端抓取系统。该系统经过仿真训练后，可部署到物理机器人上。该工作流专为生成能够根据输入的深度数据流进行快速、反应性抓取的策略而设计，并且可以泛化到新物体。

该流程涉及创建一个几何织物定义机器人的运动空间和简化抓取动作，同时针对并行化训练进行优化。通过使用NVIDIA Isaac Lab，可在多颗 GPU 上使用强化学习训练织物引导的策略，从而泛化抓取行为。最后，通过模仿学习，可利用输入的深度将学习到的策略提炼为适用于现实世界的版本，从而在数小时内制定出稳健的策略。

视频 1. 使用 NVIDIA Isaac Lab 进行仿真训练

视频 2. 在没有几何织物的情况下

训练抓取任务时的机器人不稳定运动

视频 3. 使用 GR00T-Dexterity 工作流

在物理机械臂上进行垃圾箱包装演示：

在将策略转移到现实世界时避免硬件损坏

请注意，GR00T-Dexterity 工作流预览版基于研究论文 DextrAH-G：使用几何织物实现像素到动作的灵巧机械臂-手抓取，并已从NVIDIA Isaac Gym（已废弃）迁移到 Isaac Lab。如果您是 Isaac Gym 用户，请按照教程和迁移指南开始使用 Isaac Lab。

GR00T-Mobility 移动和

导航工作流

GR00T-Mobility是一套用于移动和导航的模型和策略并包含开发这些模型和策略的参考工作流。

传统的导航方法在杂乱环境中难以发挥作用并且需要进行大量的调整，而基于学习的方法难以泛化到新的环境。

GR00T-Mobility 引入了一套基于 Isaac Lab 支持的强化学习（RL）和模仿学习（IL）构建的新型工作流，专门用于创建适用于不同环境和具身的通用移动导航方法。

借助使用NVIDIA Isaac Sim构建的世界模型，该工作流可生成丰富的环境动态潜在表示，以此实现了更具适应性的训练。它将世界建模与行动策略学习和RL微调分离，从而提高了灵活性，并且由于支持多样化的数据源而具有更高的通用性。

仅在 Isaac Sim 提供的逼真合成数据集上（使用该工作流）训练而成的模型实现了零样本仿真到现实转换，并且可应用于一系列具身，包括差动驱动、Ackermann、四足动物和人形等。

该工作流以 NVIDIA 应用研究团队在 X-MOBILITY：通过世界建模实现端到端可泛化导航中展示的研究成果为基础。

图 1. 通过使用 Isaac Sim 通过的合成数据集，

GR00T-Mobility 工作流将世界建模和行动策略训练相结合，

实现了可泛化的导航与零样本仿真到现实转换。

视频 4. 在仿真机器人上测试 GR00T-Mobility 时，

机器人成功地通过杂乱的环境，同时避开了障碍物

视频 5. 在真实机器人上测试 GR00T-Mobility 时，

机器人成功地通过实验室环境，同时避开了箱子和障碍物

视频 6. 人形机器人、四足机器人和叉车机器人

成功地通过 Isaac Sim 的仿真仓库环境

GR00T-Control 全身控制工作流

GR00T-Control是一套用于开发 WBC 的先进运动规划和控制程序库、模型、策略与参考工作流。参考工作流可运用于各种平台、预训练模型和加速程序库。

WBC 对于实现精确、灵敏的人形机器人控制必不可少，尤其是在需要灵巧和移动的任务中。GR00T-Control 引入了一种基于学习的传统模型预测控制（MPC）替代方案，其工作流与 NVIDIA 应用研究团队开发的 Isaac Lab 相集成。这项工作基于 OmniH2O：通用和灵巧人类到人形机器人全身远程操作与学习中展示的原创研究成果以及最新发布的 HOVER：人形机器人多功能中性全身控制器。

该参考工作流可帮助开发用于远程操作和自主控制的人形机器人全身控制策略（WBC 策略）。OmniH2O 的远程操作通过 VR 头显、RGB 摄像头、口头命令等输入方法实现了高精度的人类控制。同时，HOVER 的多模态策略提炼框架促进了自主任务模式之间的无缝转换，使其能够适应复杂的任务。

WBC 策略工作流采用仿真到真实学习流程。该流程首先使用 Isaac Lab 作为能够访问详细运动数据的“教师”模型，通过强化学习在仿真中训练特权控制策略。之后将该模型提炼成可部署的现实世界版本，该版本能够在感官输入有限的情况下运行，解决远程操作延迟、VR 或视觉追踪输入受限（针对 OmniH2O）以及多种自主任务模式的适应性（针对 HOVER）等难题。

（使用 OmniH2O 工作流开发的）全身控制策略提供了 19 个自由度，实现了精确的人形机器人控制。

视频 7. 在 NVIDIA Isaac Lab 中训练的

基于 GR00T 控制工作流的策略。

红框为数据集中的参考机器人身体位置，

该机器人正在追踪参考运动

视频 8. 在 Isaac Lab 中同时训练数千个人形机器人

GR00T-Control 提供的工具帮助机器人专家进一步探索基于学习的人形机器人 WBC。

GR00T-Perception 多模态

感知工作流

GR00T-Perception是一套先进的感知程序库（例如 nvblox 和 cuVSLAM）、基础模型（例如 FoundationPose 和 RT-DETR）以及基于 Isaac Sim 和 NVIDIA Isaac ROS 构建的参考工作流。这些参考工作流展示了如何在机器人解决方案中结合使用这些平台、预训练模型和加速程序库。

ReMEmbR 是 GR00T-Perception 新增的一项重要功能，是一项应用研究参考工作流。该工作流通过让机器人“记住”长期事件历史增强人机交互，大大改善了个性化和情境感知响应，同时通过集成视觉语言模型、LLM和检索增强记忆大幅提升人形机器人的感知、认知和适应能力。

借助 ReMEmbR，机器人能够长期保留上下文信息，通过整合图像、声音等感官数据提高空间感知、导航和交互效率。该工作流遵循结构化的记忆构建和查询流程，可部署在真实机器人上的NVIDIA Jetson AGX Orin上。

想要了解有关 ReMEmbR 的更多信息，请参阅使用生成式 AI 使机器人借助 ReMEmbR 进行推理和行动：

https://developer.nvidia.com/blog/using-generative-ai-to-enable-robots-to-reason-and-act-with-remembr/

图 2. ReMEmbR 高级工作流包含两个阶段，分别是记忆构建阶段和信息查询阶段。

视频 9. 了解如何使用生成式 AI 使机器人

借助 ReMEmbR 进行推理和行动

结论

通过 NVIDIA Project GR00T，我们正在构建能够根据人形机器人开发者需求单独或组合使用的先进技术、工具与 GR00T 工作流。这些改进有助于开发智能化水平更高、适应性和能力更强的人形机器人，推动人形机器人在现实世界应用中的发展。

进一步了解领先机器人公司如何使用 NVIDIA 平台，包括 1X、Agility Robotics、The AI Institute、Berkeley Humanoid、波士顿动力、Field AI、傅利叶、银河通用、Mentee Robotics、Skild AI、Swiss-Mile、宇树科技和小鹏机器人。

了解更多 NVIDIA 在 CoRL 2024 上的信息，包括与机器人学习相关的 21 篇论文和 9 个研讨会以及为开发者发布的训练和工作流指南：

https://www.nvidia.cn/events/corl/#papers

开始使用

开始使用 Isaac Lab：

https://isaac-sim.github.io/IsaacLab/main/index.html