场景级别的 3D 开放世界感知一直是一个饱受关注的问题,是具身智能和机器人领域非常重要的一个能力。

在模型测试阶段,如果能够对于任意指定的类别进行语义和物体级别的分割,就能够帮助非常多下游的应用。

最近,来自香港大学和商汤科技的研究团队,提出了一种直接结合点云和自然语言的新开放世界理解算法 RegionPLC(RegionPLC 能够在未训练过的类别上都得到很好的分割结果)。

而且无需额外训练,RegionPLC 就可以和大语言模型如 GPT4 结合进行一些场景级别的开放问答,并借助 RegionPLC 的 grounding 能力分割出相应的类别,相应的和大语言模型结合的版本,被称之为 RegionGR 。

打开网易新闻 查看精彩图片

论文题目: RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding 论文链接: https://arxiv.org/abs/2304.00962 代码链接: https://github.com/CVMI-Lab/PLA 项目主页: https://jihanyang.github.io/projects/RegionPLC

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

一、RegionPLC具体算法

RegionPLC 在前作 PLA 的基础上,扩展到了更细粒度的区域级别点云和语言的结合,能够生成更密集和细粒度的描述。

如下图,RegionPLC 会利用不同的 2D VLM 生成对于图片的区域级别描述,包括 2D 开放语言目标检测器、滑动窗口 +2D captioning 模型,以及 2D dense captioning 模型。

打开网易新闻 查看精彩图片

在得到各种 2D 大模型给出的文本描述后,RegionPLC 通过点云和图片的投影关系,文本和点云直接关联起来。为了具体了解不同 2D 大模型的能力区别,RegionPLC 构建了一个 benchmark 直接比较它们的性能差异:

打开网易新闻 查看精彩图片

1.1 SFusion

研究人员发现不同模型能够在不同的实验设置下取得最好性能,这意味着每种模型有自己独特的优势,而且直接在数据和 loss 方面进行混合的效果并不好。

因此,研究人员设计了一种基于互补的数据混合策略 SFusion。这种混合策略只会混合在 3D 空间中互补的 3D-text pairs,因此减少了不同模型产生的 3D-text pairs 在优化时产生冲突的概率。这样的设计使得 RegionPLC 可以结合不同 2D 大模型的优势,从而达到更好的性能

1.2 Region-aware PDC Loss

除此之外,研究人员针对 3D 开放世界理解的任务特特性,设计了一个新的优化函数-- Region-aware PDC Loss,这种损失函数能够尽可能隔绝不相关点云的影响,而且让每个 3D-text pair 的对最终梯度的贡献接近

因此,相比于应用于 PLA 的 CLIP contrastive loss,这种新的优化函数能够极大地提升性能,特别是对于 dense prediction 任务,比如语义及实例分割。

打开网易新闻 查看精彩图片

二、实验性能

RegionPLC 在多个室内室外数据集 ScanNet、ScanNet200、nuScenes 进行了大量的实验,都取得了很好的效果,远超之前的 SOTA 算法 PLA。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

充分的消融实验也证明了其设计模块的有效。

打开网易新闻 查看精彩图片

三、结论

我们提出了 RegionPLC,一个综合的区域点云-语言对比学习框架,用于识别和定位开放世界 3D 场景理解中的未知类别。通过利用先进的视觉语言模型和我们的 SFusion 策略,RegionPLC 有效地构建了全面的区域点云-语言对。此外,我们的区域感知点云-语言对比损失有助于从区域性描述中学习出具有独特性和鲁棒性的特征。

大量实验证明,RegionPLC 在室内和室外场景中明显优于先前的开放世界方法,并在具有挑战性的长尾或无注释场景中表现出色。

来源:公众号【商汤学术】

llustration From IconScout By Delesign Graph

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈