CVPR 2023 | MVImgNet: 港中深韩晓光团队开源超大规模多视角真实物体数据集|点云|计算机视觉|韩晓光|预训练

随着深度学习技术的快速发展，数据驱动的方法已成为计算机视觉领域的核心。在过去的十年里，随着 ImageNet 诞生之后，计算机视觉领域见证了 “从数据中学习” 的范式的兴盛。在 ImageNet 上进行预训练，然后迁移到下游的视觉任务，都能显著提升模型性能，并且已经成为 2D 图像领域的标准化方式。

然而，由于真实世界3D数据（通常以点云或者mesh的形式）的扫描和标注非常繁琐，现有的3D数据集要么是合成的，要么与ImageNet的规模相去甚远。因此，与2D视觉领域不同，在3D领域，大多数方法都直接在特定数据集上进行训练和评估，以解决特定的3D视觉任务（例如，使用合成的物体或者ShapeNet进行新视角合成，使用ModelNet和ScanObjectNN进行物体分类，使用KITTI和ScanNet进行场景理解）。

因此，两个关键的问题是:

1.在3D视觉领域，尚无一个通用数据集，可以与2D领域的ImageNet相媲美。

2.这样一个数据集能给3D社区带来什么好处还不为人所知。

为了解决这些问题，港中大（深圳）的研究团队提出了MVImgNet和MVPNet数据集。MVImgNet包含超过21万个视频的650万帧图像，涵盖了238个类别的真实世界物体。MVPNet包含超过8万个，涵盖了150个类别的真实物体点云，并为每个点云提供了类别标签。目前数据集已经在项目主页公开，欢迎大家一起探索！

论文链接： https://arxiv.org/abs/2303.06042 项目主页： https://gaplab.cuhk.edu.cn/projects/MVImgNet/ GitHub地址： https://github.com/GAP-LAB-CUHK-SZ/MVImgNet

一、数据集属性

MVImgNet包含由智能手机拍摄的219,188个真实物体视频。通过对每个视频进行物体分割、COLMAP SfM重建以及稠密重建，得到了物体掩码、相机参数和点云数据等标注。表1展示了MVImgNet中数据的统计信息。

表1. MVImgNet数据统计

与ImageNet中的类别大多是植物和动物（以自然为中心）不同，MVImgNet包含了238个日常生活中常见的物体类别（以人为中心），并且其中有65个类别与ImageNet重叠。图1 & 2展示了MVImgNet的类别目录及数据样例。

图1. MVImgNet类别目录

图2. MVImgNet中的多视角图片示例

对MVImgNet中的稠密重建结果，研究团队进行了进一步的数据清洗（例如移除掉噪音过大、过于稀疏的点云），得到了一个包含150类、87,200个真实物体点云的大规模点云数据集——MVPNet。图3展示了MVPNet中丰富的真实物体点云。

图3. MVPNet中的真实点云示例二、 MVImgNet能做什么？ 下游任务一：3D重建

研究团队探索了MVImgNet对NeRF重建以及MVS的帮助：通过在MVImgNet上训练NeRF，提升了generalized NeRF的泛化能力；通过在MVImgNet上预训练自监督MVS方法，并将预训练模型迁移到DTU数据集上，获得了不错迁移性能。下表展示了直接在DTU数据集上训练的模型与用MVImgNet预训练模型微调的量化对比结果：

表2. 直接训练/MVImgNet预训练模型微调的数值结果

在MVImgNet上预训练的NeRF拥有更好的泛化能力 下游任务二：视角一致的图像理解。

尽管人类能够从不同视角理解一个物体，但深度学习模型并不能鲁棒地做到这一点。为此，研究团队在图像分类、自监督对比学习以及显著性物体检测等任务上做了探索实验，验证了得益于数据的多视角特性，在MVImgNet上预训练的模型获得了很好的视角一致性。

把MVImgNet加入训练提升了分类模型的视角一致性

在MVImgNet上预训练的模型，能提高模型对不同视角的鲁棒性 三、MVPNet能做什么？

在MVPNet数据集上，研究团队探索了其对点云分类及自监督点云预训练的帮助。通过在MVPNet上预训练点云分类模型，在ScanObjectNN数据集上表现出了很好的迁移性能。而在MVPNet上预训练的PointMAE（一种点云自监督学习方法）也超越了当前的SOTA方法。

在MVPNet上预训练的模型，展现出了很好的迁移性能 MVPNet Benchmark Challenge

在MVPNet的基础上，研究团队还提出了一个全新的真实物体点云分类基准测试。研究团队构建了一个包含64000点云的训练集以及16000点云的测试集。相比于ScanObjectNN，MVPNet的点云数量更多，分类难度更大，也更贴近于真实场景。

主流方法在MVPNet Benchmark上的数值结果总结

本文提出了MVImgNet，这是一个大规模的多视角图像数据集。它包含了来自219,188个视频的650万帧，囊括了238个类别的物体，有丰富的物体遮罩、相机参数和点云的标注。该数据集通过拍摄现实世界物体的视频进行高效收集。由于多视角的特性，MVImgNet带有3D感知的视觉信号，使其成为连接2D和3D视觉的软桥梁。

我们相信MVImgNet将会为整个计算机视觉社区带来很多诸多可能性与挑战，期待与大家共同探索！更多数据集与实验细节请参阅原论文。

作者：许牧天

Illustration by IconScout Store from IconScout

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

>>> 添加小编微信！

关于我“门”