随着深度学习技术的快速发展,数据驱动的方法已成为计算机视觉领域的核心。在过去的十年里,随着 ImageNet 诞生之后,计算机视觉领域见证了 “从数据中学习” 的范式的兴盛。在 ImageNet 上进行预训练,然后迁移到下游的视觉任务,都能显著提升模型性能,并且已经成为 2D 图像领域的标准化方式。

然而,由于真实世界3D数据(通常以点云或者mesh的形式)的扫描和标注非常繁琐,现有的3D数据集要么是合成的,要么与ImageNet的规模相去甚远。因此,与2D视觉领域不同,在3D领域,大多数方法都直接在特定数据集上进行训练和评估,以解决特定的3D视觉任务(例如,使用合成的物体或者ShapeNet进行新视角合成,使用ModelNet和ScanObjectNN进行物体分类,使用KITTI和ScanNet进行场景理解)。

因此,两个关键的问题是:

1.在3D视觉领域,尚无一个通用数据集,可以与2D领域的ImageNet相媲美。

2.这样一个数据集能给3D社区带来什么好处还不为人所知。

为了解决这些问题,港中大(深圳)的研究团队提出了MVImgNet和MVPNet数据集。MVImgNet包含超过21万个视频的650万帧图像,涵盖了238个类别的真实世界物体。MVPNet包含超过8万个,涵盖了150个类别的真实物体点云并为每个点云提供了类别标签。目前数据集已经在项目主页公开,欢迎大家一起探索!

论文链接: https://arxiv.org/abs/2303.06042 项目主页: https://gaplab.cuhk.edu.cn/projects/MVImgNet/ GitHub地址: https://github.com/GAP-LAB-CUHK-SZ/MVImgNet

一 、数据集属性

MVImgNet包含由智能手机拍摄的219,188个真实物体视频。通过对每个视频进行物体分割、COLMAP SfM重建以及稠密重建,得到了物体掩码、相机参数和点云数据等标注。表1展示了MVImgNet中数据的统计信息。

表1. MVImgNet数据统计

与ImageNet中的类别大多是植物和动物(以自然为中心)不同,MVImgNet包含了238个日常生活中常见的物体类别(以人为中心),并且其中有65个类别与ImageNet重叠。图1 & 2展示了MVImgNet的类别目录及数据样例。

图1. MVImgNet类别目录

图2. MVImgNet中的多视角图片示例

对MVImgNet中的稠密重建结果,研究团队进行了进一步的数据清洗(例如移除掉噪音过大、过于稀疏的点云),得到了一个包含150类、87,200个真实物体点云的大规模点云数据集——MVPNet。图3展示了MVPNet中丰富的真实物体点云。

图3. MVPNet中的真实点云示例 二、 MVImgNet能做什么? 下游任务一:3D重建

研究团队探索了MVImgNet对NeRF重建以及MVS的帮助:通过在MVImgNet上训练NeRF,提升了generalized NeRF的泛化能力;通过在MVImgNet上预训练自监督MVS方法,并将预训练模型迁移到DTU数据集上,获得了不错迁移性能。下表展示了直接在DTU数据集上训练的模型与用MVImgNet预训练模型微调的量化对比结果:

表2. 直接训练/MVImgNet预训练模型微调的数值结果

在MVImgNet上预训练的NeRF拥有更好的泛化能力 下游任务二:视角一致的图像理解。

尽管人类能够从不同视角理解一个物体,但深度学习模型并不能鲁棒地做到这一点。为此,研究团队在图像分类、自监督对比学习以及显著性物体检测等任务上做了探索实验,验证了得益于数据的多视角特性,在MVImgNet上预训练的模型获得了很好的视角一致性。

把MVImgNet加入训练提升了分类模型的视角一致性

在MVImgNet上预训练的模型,能提高模型对不同视角的鲁棒性 三、MVPNet能做什么?

在MVPNet数据集上,研究团队探索了其对点云分类及自监督点云预训练的帮助。通过在MVPNet上预训练点云分类模型,在ScanObjectNN数据集上表现出了很好的迁移性能。而在MVPNet上预训练的PointMAE(一种点云自监督学习方法)也超越了当前的SOTA方法。

在MVPNet上预训练的模型,展现出了很好的迁移性能 MVPNet Benchmark Challenge

在MVPNet的基础上,研究团队还提出了一个全新的真实物体点云分类基准测试。研究团队构建了一个包含64000点云的训练集以及16000点云的测试集。相比于ScanObjectNN,MVPNet的点云数量更多,分类难度更大,也更贴近于真实场景。

主流方法在MVPNet Benchmark上的数值结果 总结

本文提出了MVImgNet,这是一个大规模的多视角图像数据集。它包含了来自219,188个视频的650万帧,囊括了238个类别的物体,有丰富的物体遮罩、相机参数和点云的标注。该数据集通过拍摄现实世界物体的视频进行高效收集。由于多视角的特性,MVImgNet带有3D感知的视觉信号,使其成为连接2D和3D视觉的软桥梁。

我们相信MVImgNet将会为整个计算机视觉社区带来很多诸多可能性与挑战,期待与大家共同探索!更多数据集与实验细节请参阅原论文。

作者: 许牧天

Illustration by IconScout Store from IconScout

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>>> 添加小编微信!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

点击“阅读原文”按钮,查看社区原文

⤵一键送你进入TechBeat快乐星球