谷歌提出Transporter Networks: 基于视觉操作实现重新整理目标物体|thejiangmen|transporter|刚体|机器人|视觉

来自谷歌的研究人员提出了名为Transporter Nets的简单模型架构，用于学习基于视觉的物体整理工作。

Transporter网络使用了新颖的机制来实现3D空间理解，避免依赖以目标为中心的表示，使其对基于视觉的操作具有更强的泛化性。同时，相比于基准方法，它具有更高的采样效率，在真实的机器人应用中更迅速、实用。

更多详情，请访问论文原文和项目主页：

论文链接：

https://arxiv.org/abs/2010.14406

代码链接：

https://transporternets.github.io/

后台回复【210312】可直接下载论文PDF~

整理是家务的主要内容，也是机器人在非结构化的环境中与人交互所要具备的基本功能(还包括往书架上摆放图书、在餐桌上移动餐具或将咖啡豆堆成堆等功能)。有些工作对于人类来说十分容易，却会给机器学习系统带来不小的挑战。比如，在整理书籍的时候，既需要考虑书的叠放位置和顺序，也需要确保书籍的边角相互对齐。

在机器学习的众多领域中，模型架构的些许不同也许会带来巨大的泛化性差异。例如，卷积结构在计算机视觉中很普遍，它可以有效编码平移不变性，使得不同位置状态的图像可以获取相同的响应。

而Transformer架构则通常用于语言处理过程中，利用自注意力机制来捕捉长程依赖关系。在机器人应用中，常常在学习到的模型中使用位置、关键点或目标描述子等以目标为中心的架构，但这些表示需要额外的手工标注的训练数据，同时，在描述无定形态(黏土团)、液体或零散的材料(切碎的菜)等目标时存在较大困难。

在这篇文章中，研究人员提出了名为Transporter Nets的简单模型架构，用于学习基于视觉的物体整理工作。Transporter网络使用了新颖的机制来实现3D空间理解，避免依赖以目标为中心的表示，使其对基于视觉的操作具有更强的泛化性。同时，相比于基准方法，它具有更高的采样效率，在真实的机器人应用中更迅速、实用。

研究人员已经开放了源码和测评基准仿真套件。

Transporter Networks：

用于目标整理的视觉机器人操作

Transporter Networks架构的关键在于将整理问题定义为了在3D空间中学习如何移动特定的一部分物质。与先前使用显式的目标定义不同，3D空间是一个更广泛的概念，可以定义空间单元并可包含目标、目标的一部分或者多个目标等。

对3D视觉世界表示的捕捉，使得Transporter Networks可利用这些特征计算出各种可能的重排布结构，并从中选择与训练数据最为接近的一种排布，利用这些排布参数化机器人行为。

这种方式使得模型有效泛化到未知目标，并更好地探索数据中的几何对称性以便于更好地应用于新的场景中。Transporter Nets可应用于更广泛的多种整理场景的机器人操作任务。

谷歌提出Transporter Networks: 基于视觉操作实现重新整理目标物体

Transporter网络可以捕捉真实世界的深度表达，可以得出各种可能的排布可能，并寻找出最优的一种用于机器人训练。

Ravens基准

为了在连续的环境中公平地比较Transporter和基线模型、进行消融性分析，研究人员开发出了一个包含十种典型的基于视觉的整理任务评估套件。Ravens是一个内置随机特性，Gym API的模拟环境用于测评模仿学习的样本效率。Ravens避免了无法转移到真实情况的条件假设：观测数据仅仅包含RGB-D数据和相机参数；行为是末端执行器的位姿(可通过逆运动学转换为关键位姿)。

在十个典型任务上的实验表明，Transporter Nets的样本效率与其他端到端的算法相比可以实现数量级的提升，并且可以在仅仅100次示教后在多种任务上达到了90%的成功率，而基准模型则无法实现具有泛化性的结果。在实际过程中，这种方式使得收集足够的数据来训练真实的机器人更为有效(如下图所示)。

包括推入、放置等的十个基准测试任务。实验表明，Transporter的样本效率相比其他端到端的方法可以实现数量级的提升。

实验结果

在给定10个样本后，Transporter可以学会拾取和堆放任务，以及多模态任务，如下图所示：

通过学习闭环视觉反馈，Transporter通过少量演示来学习各种多步骤的负载任务，比如，移动汉诺塔的卡盘、箱子码垛、组装未知的工具包。这些任务需要相当长远的“视野”，模型必须按照正确的顺序作出一系列决策。这一策略同时还倾向于学习紧急恢复行为。

令人惊讶的是，模型除了学习感知之外还学会了高级的计划行为。例如，在解决汉诺塔问题时，模型需要学习下一步需要移动的卡盘；在码垛任务时，则需要找到空闲的货盘空间，并决定如何使货物适应这些空间。这些行为表明，模型具有baked不变性，可以集中力量学习更为高级的操作模式。

同时，Transporter Nets还可以学习使用两个致动器来定义任意基础运动，例如，将一堆小物体推入目标区域，或重新配置可变形的绳索以连接正方形三边剩余的两个端点。这意味着刚体的空间尾翼可作为非刚体的有用先验。

结论

Transporter Nets为视觉操纵带来了一种新的方法，在取得成功的同时也存在一系列局限性。例如，它们可能容易受到3D数据中噪声的影响，实验中仅仅描述了稀疏路点进行运动控制的情况，而对于空间外基于力或基于力矩的控制行为还有待研究。

From: CoRL；编译: T.R

Illustration byNatasha Remarchuk from Icons8

- The End -