RSS 2023｜30分钟教会机器人做家务！CMU提出全新结构化世界模型SWIM|swim|世界模型|机器人|预训练

教会机器人在现实环境中解决各种复杂任务，一直是机器人控制领域的关键研究课题。近来随着具身智能的快速发展，机器人代理已经被要求拥有自主路径规划和对任务进行推理的能力。但是现有的方法仍然需要大量高质量的特定任务数据来训练代理模型，这使得机器人很难在一个陌生的环境中正常运作。本文介绍一篇发表在机器人顶级会议RSS 2023的论文，作者团队来自卡内基梅隆大学，本文提出了一种名为结构化意图世界模型 (Structured World Models for Intentionality，SWIM)的方法，SWIM仅使用few-shot的方式来从现实世界交互数据中学习，就可以高效的驱动机器人完成各种复杂任务。

文章链接： https://arxiv.org/abs/2308.10901 项目主页： https://human-world-model.github.io/

受到计算机视觉和自然语言领域大规模数据集学习成功的启发，本文作者认为，人类本身具有多样性的交互技能，如果能使机器人利用来自互联网中的人类视频数据进行学习，可以极大的提升机器人的控制性能。SWIM通过构建一个结构化的、以人为中心的动作空间，并从各种人类交互视频中捕获通用结构，训练得到一个高效的机器人世界模型，该模型可以尽在30分钟以内的交互数据上学习各种复杂环境中的各项操作技能，上面视频展示了SWIM学习到的一些具体交互示例，例如挑选蔬菜、拿起刀、打开柜子、拉抽屉、拉开洗碗机和操作垃圾桶。

一、引言

目前较为流行的机器人学习范式是基于模拟学习，或者在现实环境中部署强化学习框架，通过工程奖励的方式来训练机器人代理，但是这种方式训练得到的代理几乎是不可扩展的，其很难迁移到具有不同目标的新任务上。因此本文的目标是建立一个世界模型来解决这一问题，由于人类在日常生活中执行的诸多任务之间存在共性，这导致即使在不同的环境中，一些交互行为在环境动力学方面具有相似的结构，因此构建一个高效的世界模型，实现跨任务的未来交互预测，从而可以使智能体能够学习这种共享的行为结构。但是如何收集用来训练世界模型的数据呢，本文作者想到能否直接利用互联上的人类运动视频来对世界模型进行训练？

如上图所示，本文作者提出了一种结构化世界模型SWIM，其构建了一个既适用于人类视频领域又适用于机器人的动作空间，例如我们考虑一个“拿起杯子的任务”，从人类视频中提取到的运动信号与机器人实际执行时的运动信号完全不同，这导致操作层面的预测模型无法直接训练。如果能够提前在动作空间中对目标动作姿态和杯子把手的方向进行预测，并抽象出低级控制路径，那么人类使用的目标姿势也可以被机器人直接利用，因此SWIM要求在实际环境信息的介入下，学习一个形态不变的高级结构化动作空间来完成复杂的交互过程。

二、本文方法

本文提出的SWIM框架主要分为三个阶段：（1）使用人类视频数据对世界模型进行预训练，（2）使用机器人特定任务的数据进行无监督微调，（3）将世界模型部署在特定的目标任务上。下图展示了前两个阶段的主要操作流程，下面我们将详细介绍其中的一些细节。

2.1 世界模型预训练

SWIM框架仍然遵循谷歌大脑和DeepMind联合提出的Dreamer范式[1]，该文发表在ICLR2020上，其将世界模型定义为一个紧凑的状态空间，可以对传感器捕获的高维数据进行理解并产生控制信号，并且将中间状态信息进行保存，从而实现有效的预测和规划。在本文中，作者仍然使用Dreamer中的世界模型结构和训练过程，它具有以下组件：

这里的、、分别表示在时间时的观察、动作和奖励变量，则表示学习到的状态空间，这些组件都使用神经网络进行参数化。作者选用了Epic-Kitchens数据集[2]作为人类交互数据的来源，Epic-Kitchens是一个大规模第一人称视角的视频行为数据集，捕获自真实的日常生活环境中。SWIM预训练的目标是初始优化世界模型和视觉模型，即从视频片段中捕获动作像素和动作执行后的像素，并将其转到世界模型的动作空间中来训练，具体来说，对于视频片段，令表示时间的图像帧，和分别表示抓取动作时和动作执行后的图像帧，然后我们可以得到如下动作序列来训练模型：

2.2 使用机器人数据进行微调

在对世界模型预训练之后，此时的模型仍然无法执行具体的机器人任务，必须采集一些特定领域的实际操作数据对其进行微调。此时可以使用视觉模型来收集一个机器人特定数据集，然后将其用于训练。作者强调，这一过程不需要任何任务奖励或目标形式的监督。下图列出的算法流程展示了世界模型预训练和微调步骤之间的逻辑关系。

2.3 在特定任务上部署模型

在对模型进行微调之后，就可以将其部署在特定领域的机器人上，并且根据传感器捕获到的图像来执行指定的任务。世界模型需要对当前的任务生成动作执行序列，为此，作者首先定义了一个高斯混合模型（GMM）根据输入图像对动作序列进行拟合和采样。随后使用标准的交叉熵方法来对动作序列进行优化，为了对中的子轨迹计算奖励排序，作者通过测量世界模型特征空间到目标空间的距离来实现：

其中是世界模型输出的特征，是模型学习到的特征空间，使用余弦距离作为距离度量。

encoder: � � = enc � ( � � ) posterior: � ( � � ∣ � � − 1 , � � − 1 , � � ) dynamics: � ( � � ∣ � � − 1 , � � − 1 ) decoders: � ( � � ∣ � � ) , � ( � � ∣ � � )

三、实验效果

为了全面的评估本文提出的SWIM世界模型的性能，作者使用了两个机器人在6项现实任务上进行了实验。在室内场景，作者使用带有末端执行器控制的Franka Emika手臂进行实验，该机器人可以在厨房环境中运行来完成一些细粒度的控制任务，例如操作刀具。对于室外场景，作者使用Hello-Robot的Stretch RE-1移动机械臂，这是一款协作机器人，设计有一组轴对齐的关节，并将吸盘作为操作头，其可以完成垃圾桶相关的任务，该任务极具挑战性，因为在垃圾桶内部，机器人抓握的区域非常小，下图中展示了一些具体的实验场景示例。

下表展示了对SWIM各个组件的消融实验结果，作者重点考察了以下几个方面：

（1）构建世界模型对于机器人操作代理是否必要

（2）使用人类视频数据训练世界模型是否有助于性能提升？

（3）基于人类视觉的结构化动作空间有多重要？

从表中我们可以看出，当在SWIM中使用世界模型后，机器人在各种任务中的平均成功率可以达到80%，当SWIM只针对单个任务进行训练时，其平均成功率也可以达到75%。

除此之外， SWIM框架的一大优势是它可以同时处理不同来源的数据，SWIM-single是仅使用单个任务训练得到的模型，从上表的最后两行我们可以看到，使用多个任务共享训练得到的SWIM在整体性能方面有很大的提升，作者认为，这是由于SWIM可以捕获不同任务中的一些相似结构。

为了分析人类视频预训练步骤的效果，作者在上图中进行了可视化对比，使用世界模型输出的图像特征进行图像重建，与未进行预训练的方法相比，SWIM可以使世界模型快速的了解机器人所处环境的显著特征，这对于精确执行任务至关重要。

四、总结

本文提出了一种新型的机器人世界模型SWIM，SWIM主要分为三个阶段：1）利用人类交互的互联网视频来预训练模型，2）使用无奖励数据对模型进行微调以适应机器人的任务设置，3）在特定任务上部署世界模型。为了克服机器人与第一人称视角人类视频之间的形态差距，本文作者构建了一个基于以人类为中心功能可见性的结构化动作空间，这使得SWIM能够以无监督方式收集的机器人数据进行微调。通过大量的实验证明，SWIM仅需要30分钟以内的视频数据就可以实现快速的任务泛化效果。

参考

[1] Danijar Hafner, Timothy Lillicrap, Jimmy Ba, and Mohammad Norouzi. Dream to control: Learning behaviors by latent imagination. arXiv preprint arXiv:1912.01603, 2019. 2, 3

[2] Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Sanja Fidler, Antonino Furnari, Evangelos Kazakos, Davide Moltisanti, Jonathan Munro, Toby Perrett, Will Price, and Michael Wray. Scaling egocentric vision: The epic-kitchens dataset. In ECCV, 2018. 4, 5, 6, 12, 13

作者：‍ seven_

Illustration by IconScout Store from IconScout

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。