视觉语言导航(Vision Language Navigation)是一个机器学习的新兴任务。它的目的是让一个智能体能够在真实的3D环境中根据自然语言指令导航至正确的地点。其中一个关键的研究课题是提高智能体在所有环境(已知房间和未知房间)中的导航能力,即减少智能体在不同环境中的泛化误差

论文链接:

https://arxiv.org/abs/2106.07876

Code地址:

https://github.com/LCFractal/VLNREM

一、引言

视觉语言导航(Vision Language Navigation)是一个机器学习的新兴任务。它的目的是让一个智能体能够在真实的3D环境中根据自然语言指令导航至正确的地点。其中一个关键的研究课题是提高智能体在所有环境(已知房间和未知房间)中的导航能力,即减少智能体在不同环境中的泛化误差

影响智能体泛化误差的主要原因是小规模数据和大导航空间之间的数据偏差。因此减少泛化误差的一个主要手段是数据增强,以往的工作提出了两种数据增强方法:场景内增强(Intra-scene Augmentation, ISA),Speaker-Follower[1]在已有场景中构建新的路径和指令;近场景增强(Near-scene Augmentation , NSA),EnvDrop[2]通过在场景中加入高斯噪声,在一定程度上突破了场景的局限性,但只是将场景扩展到了邻域。

相比于原始训练集,三种数据增强方法对泛化误差影响的示意图。比起ISA和NSA,REM产生的增强数据更加偏离原有数据分布具有更强的降低泛化误差的能力。

为了解决这个问题,我们提出了一种场景间数据增强方法:随机环境混合(Random Environmental Mixup, REM)。REM 方法混合两个场景,在两个场景之间构建一个交叉连接的场景。与其他方法相比,它超越了场景本身的限制,在更广泛的数据分布下构建了增强数据。我们的实验表明,REM 产生的增强数据能将智能体导航的性能提高2个百分点以上。

二、随机环境混合(REM)

如图所示,REM方法的思路很简单,通过混合两个场景来生成交叉场景下的数据三元组(环境、路径、指令)。REM随机对两个场景进行划分并重新组合来构建一个新的交叉连接场景,并重构相应的路径和指令。进行场景混合时,我们遇到了以下三个问题:

1)如何选择场景中的关键顶点进行混合?

2)如何混合两个场景来获得交叉连接的场景?

3)如何在交叉连接的场景中构建新的路径和指令?

下面给出这些问题的解决方案,进而来构建大量交叉连接场景,这些场景相对于原始训练集是不可见的。

选择关键顶点

关键顶点对于场景之间的混合至关重要。它们的特点可以概括如下:1)连接两个房间的入口或走廊;2)顶点有很多路径通过它。为了匹配上述特征,可以通过图的中介中心性来选择关键顶点:

公式分别定义了顶点和边的中介中心性,我们选择中介中心性的前10的顶点和边来分别构造关键顶点子图和关键边子图,对两个子图求交集得到的关键子图。为了确保后续生成更多路径,我们从中选择包含最多监督路径的边及其对应的顶点。从图中可以观察到,房间或走廊的入口和出口往往具有最高的中介中心性。

图中展示了通过中介中心性选择关键顶点的一个例子。绿色边通常是房间或走廊的出入口,我们选择绿色边中包含最多路径的两个顶点作为关键顶点。

构建增强数据

  • 构建交叉连接场景、路径和指令

我们在训练集中随机选择两个场景(Scene1和 Scene2)。如图所示,REM分三个阶段构建和的交叉连接场景。阶段1:为和选择关键顶点和。阶段 2:将和混合成图,断开两关键边,并重新连接顶点 和 ,我们就得到了一个交叉连接的场景。阶段3:对齐的方向,通过调整中的顶点位置来保证交叉路径和指令的匹配。同时,路径的指令是细粒度的,不同颜色的子路径与对应颜色的子指令相匹配。随着场景的混合,路径和指令也被分解和重建。构建的场景、路径和指令组合成三元组,作为 VLN 任务的增强数据。

  • 构建交叉视点

在VLN任务中,描述了房间中各个视点的连接关系,为了在视觉观察上混合两个场景我们在的基础上构建了交叉视点。构建新的交叉视点的过程如图所示。以场景 1+2 中的为例,每个视点全景图在水平方向上分为12个视图(用数字0-11表示)。通过混合View 1和View 2的视图,我们可以获得View 1+2的全景图。更具体地说,视图基于下一个视点的方向。我们用View 1替换View 2原角度周围的三个视图,来获得交叉连接视图(View 1 中的红色 0-3 7-11,View 1 中的蓝色 2-4)。最后与上节第三阶段同步进行方向对齐,达到智能体的行为、场景连接方向和指令描述都一致的目的。

REM用于增强VLN任务

通过以上步骤,我们已经构建了用于训练的增强数据三元组:(环境、路径、指令)。我们的方法能够将任意两个场景混合成一个新的交叉连接场景。我们可以相应地生成大量的新场景及其对应的路径和指令。对于 VLN 任务,我们需要导出交叉连接的场景进行训练,包括视点、连接关系和顶点位置。增强数据的三元组将直接与原始训练集合并用于训练。交叉视点不同方向的观察特征来源于不同的场景。

一个交叉视点和对应指令的示意图。通过交叉视点将两个场景融合起来,对应的指定和路径也得到融合,进而产生了全新的环境和训练数据。

三、实验结果

Figure 7: 我们的方法应用于多种模型均能取得显著的提升,VLNBert[3]在REM的加持下在标准视觉语言导航数据集(R2R[4])上取得了第一名的成绩。

Leaderboard的地址:

https://evalai.cloudcv.org/web/challenges/challenge-page/97/leaderboard/270

Figure 8: 此外我们在R4R[5]数据集上应用REM方法也进行了相应的测试,各个模型均获得了同样的提升。

Figure 9: 消融分析实验分别验证了方向对齐操作的必要性以及交叉视点替换视图数量对结果的影响。

最后我们测试了不同增强数据量训练的智能体导航成功率。图中相同的数据比例表示使用相同的数据量。当数据比率为1时,红点和蓝点的设置相同,红点达到性能的顶峰。红蓝线与橙绿线之间的差异表明,当样本数相同时,场景间数据增强明显优于场景内数据增强。

References:

[1] Daniel Fried, Ronghang Hu, Volkan Cirik, AnnaRohrbach, Jacob Andreas, Louis-Philippe Morency, Taylor Berg- Kirkpatrick, KateSaenko, Dan Klein, and Trevor Darrell. Speaker-follower models forvision-and-language navigation. In NeurIPS, 2018.

[2] Hao Tan, Licheng Yu, and Mohit Bansal. Learning tonavigate unseen environments: Back translation with environmental dropout. InACL, 2019.

[3] Yicong Hong, Qi Wu, Yuankai Qi, Cristian Rodriguez-Opazo, and Stephen Gould. A recurrent vision-and-language bert for navigation.In CVPR, 2021.

[4] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, MarkJohnson, Niko S¨underhauf, Ian Reid, Stephen Gould, and Anton Van Den Hengel.Vision-and-language navigation: Interpreting visually-grounded navigationinstructions in real environments. In CVPR, 2018.

[5] Vihan Jain, Gabriel Magalhaes, Alexander Ku, AshishVaswani, Eugene Ie, and Jason Baldridge. Stay on the path: Instruction fidelityin vision-and-language navigation. In Proceedings of the 57th Annual Meeting ofthe Association for Computational Linguistics, pages 1862–1872, 2019.

Illustrastion by Lazarus_al from Icons8

-The End-

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励。

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

>>> 投稿请添加工作人员微信!

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈