麻省理工学院研究团队提出生成模型LucidSim，破解机器人训练难题|机器人|生成模型|真实世界|训练|随机化|麻省理工学院

机器人学习系统的成功很大程度上取决于其训练数据的真实性和覆盖范围。真实世界数据虽然本质上是真实的，但其覆盖范围有限，无法覆盖机器人在部署时可能遇到的各种场景。因此这种方法只在特定环境下被验证为有效，机器人在面对未知或新颖情境时往往难以应对。随着机器人在整个训练过程中不断改进，其进一步提高技能所需的数据也在不断扩增。然而，获取正确的数据目前的实践中仅能依靠手动操作，每当面临新的场景和任务时，都必须从零开始进行重复的工作。

另一种方法是在模拟环境中进行训练。精确而高效的物理模拟是机器人学习过程中不可或缺的重要一环，它使机器人能够在虚拟环境中探索那些在真实世界里难以复现的复杂故障情境，并从海量的在线策略数据中学习。但物理模拟的渲染与现实之间仍然存在现实差距，而尝试大规模手工制作详细逼真场景内容实现机器人从模拟到现实转移所需的多样性成本又过高。因此，如何将RGB色彩感知融合进从模拟到现实的转换流程，来达到与现实世界相媲美的丰富度和逼真度，仍然是一个关键挑战。

▍研发生成模型LucidSim，实现模拟到现实转换

针对这一挑战，来自麻省理工学院计算机科学与人工智能实验室（CSAIL）、人工智能与基础交互研究所的机器人专家和工程师团队近日对此进行了深入研究，并开发了一种使用生成模型LucidSim从机器人自我中心的角度合成场景的多样化和物理精确图像序列的方法，用于教导机器人如何穿越地形并绕过现实世界中的物体。该模型不仅能够在虚拟环境中精准模拟复杂场景，还能实现与现实世界的高度对齐，为机器人的智能导航与决策提供强有力支持。

生成模型LucidSim由先进的物理引擎MuJoCo与创新的深度学习模型ControlNet整合而成。利用MuJoCo物理引擎的强大功能，在每一帧中精心渲染出深度图像与语义掩码，这些精细的数据随后被作为深度条件输入到ControlNet模型中。通过这一创新方法，团队根据已知的场景几何结构和相机姿态的变化，成功计算出真实的稠密光流，并对初始生成的帧进行六个时间步的扭曲处理，从而生成了时间上高度一致的视频序列。这一技术不仅提升了模拟环境的真实感，更为机器人的学习提供了丰富的视觉信息。

值得一提的是，该研究团队还提出了一种创新的自动提示技术，这一技术能够增加数据的多样性，并满足定制化数据合成的需求。通过这一技术，团队成功地为机器人生成了几何和动态对齐的视觉数据，这为将计算能力转化为现实世界的能力提供了有力支撑。最终，研究团队成功得到了一个完全在模拟环境中训练的、稳健的视觉跑酷策略。

通过将视觉跑酷策略作为机器人学习的一种极具潜力的新数据源，并使用视觉跑酷作为试验台对机器狗进行穿越未知领域障碍物的训练，研究团队尝试完全在生成的世界中训练配备低成本现成彩色相机的机器狗，找到精确控制语义组成和场景外观的方法，使其与模拟物理环境相协调，保持对模拟到现实泛化所必须的随机性，并教会机器狗在现实世界中快速攀爬高障碍物。

借助在机器狗上展示零样本迁移至现实世界的RGB纯观测演示，研究团队向观众介绍了生成模型LucidSim对机器人从虚拟环境到现实世界的适应性和转化能力的明显提升。

▍利用物理引导，生成多样化视觉数据

在模拟至现实的转换场景中，机器人先在模拟环境中接受训练，随后无需进一步调整即可直接应用于现实世界。

虽然研究团队对即将部署机器人的环境有所了解，但这些信息往往是不完整的，可能仅包括简略的描述或参考图像。为弥补这一信息缺口，研究团队借助生成模型LucidSim中的先验知识，开创了一种名为“先验辅助域生成”（PADG）的引导流程。这一流程的核心在于一项自动提示技术，它对合成多样化领域至关重要。

从LLM中获取多样化、结构化的提示

研究团队通过观察发现，反复从同一提示中采样往往会产生外观相似的图像。为获取多样化的图像，研究团队首先通过向chatGPT提供一个包含标题块、请求细节以及要求以JSON格式输出结构化结果的“元”提示，来批量生成结构化的图像提示。

请求中详细指定了天气、时间、光照条件以及文化场所等要素。由于手动编辑生成的图像提示不切实际，研究团队通过生成少量图像来调整元提示，并反复迭代直至它们能够稳定地产出合理图像。下图底部展示了来自同一元提示但不同图像提示的多样化样本实例。

上排：由同一元提示产生的不同提示所生成的图像；下排：不同的元提示。

在几何与物理引导下生成图像

同时，研究团队增强了原始的文本到图像模型，并加入了额外的语义和几何控制，使其与模拟物理保持一致。

首先，研究团队用成对的提示和语义掩码替换了图像的文本提示，每对都对应一种资产类型。以楼梯场景为例，研究团队通过文本在粗略的轮廓内指定了台阶的材质和纹理。为确保图像的几何一致性，研究团队还采用了经过MiDAS单目深度估计训练的现成ControlNet。调节深度图像是通过反转z缓冲区并在每张图像内进行归一化计算得出的。调整控制强度以避免丢失图像细节至关重要。研究团队的场景几何结构来源于先前工作中的简单地形，可选择性地包含侧壁。为专注于分析视觉多样性，研究团队避免了对地形几何结构进行随机化处理。

生成短视频

为了制作短视频，研究团队开发了“动态梦境”（DIM）技术，该技术利用根据场景几何结构和两帧之间相机视角变化计算出的真实光流，并将生成的图像扭曲为后续帧。由此产生的图像堆栈包含了对于跑酷至关重要的时序信息。此外，生成速度同样重要。DIM显著提高了渲染速度，因为计算光流并应用扭曲操作的速度远快于生成图像。

▍两大阶段，在线策略监督中学习稳健真实世界视觉策略

在策略训练方面，研究团队将训练过程分两个阶段：预训练阶段和后续训练阶段。

在预训练阶段，研究团队仿效一位拥有高级图像直接访问权限、依照强化学习（RL）流程进行训练的特权专家从而初步构建视觉策略。通过收集来自专家及其早期不完美检查点的数据，并向专家查询动作标签可以监督视觉策略的学习。预训练后，视觉策略的表现虽然不佳，但已能做出足够合理的决策，以便在后续训练阶段收集在线策略数据。

而后，团队进一步从视觉策略本身收集在线策略数据，并与之前积累的所有数据进行交替学习。经过三次重复训练后，视觉策略的性能得到了显著提升，该策略在整个测试场景中展现出了强大的泛化能力与稳健性，能够在现实世界中进行零样本迁移至彩色观测。

此外，研究团队还提出了一种简化的Transformer架构，缩减了多模态输入处理中的组件。与以往采用ConvNet加循环网络的四足机器人跑酷研究方法不同，该团队采用了含多层查询注意力（MQA）的五层Transformer。他们将摄像头画面分块并行处理，再将处理结果与本体感受观测结合，对所有时间步重复此过程，并加入可学习嵌入。

对于RGB图像，团队发现在卷积前加入批归一化层有益。动作输出通过额外类别标记计算，经ReLU潜在层和线性投影得出。此策略在Nvidia AGX Orin上处理七帧输入时可达50Hz，但记忆跨度有限（140毫秒），不适用于需更长记忆的任务，如跨越宽间隙（需400毫秒记忆）。

▍模拟评估，验证生成模型LucidSim先进性

为了证明LucidSim先进性，研究LucidSim与经典域随机化、深度学生策略和其他基线的差别，研究团队在模拟和真实世界环境中，就追踪足球（追逐足球）；追踪橙色交通锥（追逐锥筒）；跨越障碍（跨栏）；以及穿越具有各种材质类型的楼梯（爬楼梯）等任务进行了实验比较。

在追逐任务中，研究团队在机器人摄像机视锥内随机采样目标物体的位置。对于跨栏和爬楼梯任务，研究团队则手动放置橙色锥筒以视觉指示路径点。每个任务在三个复制场景中进行评估，每个场景进行50次试验，随机化起始姿势和路径点位置偏移。

研究团队考虑了以下基线：一种需要特权地形数据的专家策略（oracle）；使用相同管道训练的深度学生策略；使用经典域随机化在纹理上训练的RGB学生策略；以及研究团队的生成模型LucidSim，它使用DIM生成的帧堆栈进行训练。研究团队还提供了Extreme Parkour深度策略在模拟中的性能以进行校准，该策略在更多数据上进行训练。

实验结果表明，生成模型LucidSim在几乎所有的模拟评估中都优于经典的领域随机化方法，特别是在处理复杂任务（如跨越障碍）时。

领域随机化基线在模拟中能够相当有效地爬楼梯，这可能是由于在识别出第一步后形成了重复的步态。然而，它在跨越障碍时表现不佳，因为跳跃的时机非常关键。深度学习模型在3D场景中存在细微但常见的模拟到现实的差距。例如，由于训练环境中从未见过栏杆，因此最优策略在一个楼梯环境（Marble）中表现不佳。而LucidSim策略则受此影响较小。

类似的现象也影响了深度学习模型，它在基准环境中的椅子、墙壁和栏杆等特征上分散了注意力。过去的研究使用激进的裁剪来缓解这种类型的模拟到现实的差距。