SIGGRAPH 2023 | UrbanBIS：大规模城市场景理解基准测试数据集|城市场景|大模型|测试数据集|点云|算法

本文是VCC杨国庆博士对论文UrbanBIS: a Large-scale Benchmark for Fine-grained Urban Building Instance Segmentation 的解读。该工作由深圳大学可视计算研究中心黄惠教授课题组与香港中文大学傅志荣教授合作完成，已发表在国际计算机图形学顶级会议SIGGRAPH 2023上。

项目主页： https://vcc.tech/UrbanBIS/

该工作成功构建了一个大规模城市场景理解基准测试数据集，提供包括图像、点云以及网格模型在内的海量多模态数据和三维语义标注与建筑物实例标注，可广泛应用于语义分割、实例分割、点云重建、布局规划等多项城市理解任务，为智慧城市前沿技术建设提供重要支撑。同时提供一个面向城市场景点云建筑物实例分割的轻量化模型B-Seg，采用端到端的学习结构，提高处理效率的同时提升模型针对不同城市场景的泛化性能。

注：本文图片与视频均来自原论文与其项目主页。

一、引言

本次导读论文提出了一个用于建筑物实例分割的大规模真实城市场景数据集UrbanBIS以及面向城市场景点云的实例分割算法B-Seg。UrbanBIS共包含6个真实场景，总面积高达10.78 ，包含3370栋建筑，不仅提供城市场景的常见语义信息以及建筑物单体实例信息，同时提供细粒度的建筑物语义标注信息。是目前唯一一个可用于点云实例分割的大规模的3D真实城市场景数据集。B-Seg采用端到端的方式并选用了简单策略进行实例聚类，因此可有效应用于大规模场景的数据处理中。该数据集的建立以及分割方法的提出可为实例分割的相关研究提供助力，也可应用于其他各类城市场景理解的相关任务中。

二、数据集的特点

本工作所提出的UrbanBIS具有以下特点：

场景面积大：UrbanBIS共提供6个城市场景，总面积达到10.76 ，这也是目前最大的三维真实场景数据；
多模态的数据：除了点云数据，UrbanBIS同样提供图像以及三角网格数据，数据类型多样，可以满足不同的应用需求；
实例标注数据UrbanBIS不仅对三维场景中的语义信息进行了标注，也对建筑物实例进行了提取与标注，并且进一步围绕建筑物使用功能提供了细粒度的标签；
针对实例分割的基准测试：基于UrbanBIS对一些算法在其上的性能表现进行了测试，为新算法设计提供了新的评估基准，建立了首个城市场景实例分割的测试基准。

如表1所示，相比其他的城市场景数据集，UrbanBIS拥有目前最大的面积以及最为丰富的数据类型，并支持多项任务的训练与验证。

表1 UrbanBIS与其他数据集对比

三、数据集的介绍

UrbanBIS是基于无人机倾斜摄影技术获取图像作为原始数据并基于此采用处理软件进行重建得到的三维模型。重建得到的模型进行了人工标注，结合之前已经发布的一些数据集的标注规则，确定了7种城市场景中常见的语义类别，具体包括地面、水面、船只、植被、桥梁、车辆以及建筑物，如下图所示：

图1 UrbanBIS语义类别示意图

对于各个语义类别的统计数量如下表所示：

表2 UrbanBIS不同语义类别数据量统计

除了语义信息，同样对建筑物实例进行了划分，并且考虑到建筑物的类内差异过大的实际情况，进一步按照使用功能对建筑物进行划分为商业建筑、居住建筑、办公建筑、文化建筑、交通建筑、市政建筑以及临时建筑，各个建筑物示意如下图所示：

图2 建筑物细类别示意图

UrbanBIS提供了多源数据和丰富的标注信息，可以用于多项视觉与图形学相关任务中，例如：

图3 UrbanBIS的潜在应用示意

四、B-Seg与实例分割基准测试

B-Seg的主要流程如下图所示，主要包含三大部分：

用于提取点云特征的骨干网络，该网络学习得到的点云特征将用于后续的三个子任务分支；
用于生成建筑物实例候选的建筑物候选生成模块，主要包括建筑物候选选择、建筑物分组以及建筑物合并三个子模块；
用于预测建筑物实例候选得分的建筑物得分预测模块，该模块预测的建筑物得分用于评估建筑物实例的预测质量，同时滤除错误的预测。

图4 B-Seg流程示意图

下图所示为B-Seg的特征提取网络和三个分支，其中特征提取网络采用3D UNet，而分支采用全连接网络。

图5 网络参数示意图

4.1语义分割分支

为了获取建筑物实例，本文需要对输入的点云进行前后景分离从而获得只包含建筑物类别的前景点。具体地，本文使用了由三层线性层构成的感知机和一个Softmax函数作为输出层构造语义分割分支子网络，用来学习每个点的语义特征信息，并输出语义类别预测的概率分布其中是类别总数。本文选择最大预测概率的类别作为每个点的语义预测结果。这个过程由语义损失函数进行监督学习：

其中，和分别是点的语义概率预测值以及语义类别标签的真实值。是传统的交叉熵损失函数，由于城市场景中的数据广泛存在长尾分布问题，为了这种缓解类别不平衡的情况，本文采用了加权交叉熵损失形式，这使得分割网络模型对于场景中数量较少的类别关注度更高。此外，是广泛应用于医学图像分割的dice损失函数，衡量了预测样本和真实样本之间的相似度。本文通过引进该损失函数用于解决城市场景中正负样本强烈不平衡的情况，提高建筑物的语义分割精度。

4.2中心偏移分支

为了方便后续建筑物合并的操作，在点云特征提取阶段后，设计了一个子网络用于预测每个点到其建筑物中心的偏移向量。本文使用了由两层线性层构成的感知机学习每个点的中心偏移特征，然后使用一层线性层预测每个点在三维空间中的中心偏移向量，该向量指示了每个点到其对应建筑物实例中心的距离和方向，经过中心偏移后每个点会朝着其建筑物实例中心的位置进行靠近。为了达到这个目的，本文使用以下的中心偏移损失函数进行约束：

其中，和分别是点的建筑物中心偏移向量的预测值和真实值，是点对应的建筑物中心。损失函数限制了预测的中心偏移向量和中心偏移向量真实值之间的距离差异尽可能小。此外本文使用损失函数限制了预测的中心偏移向量与中心偏移向量真实值两者之间的夹角尽可能小。借助这两个损失函数的约束，中心偏移分支可以准确地输出每个点的中心偏移向量。

4.3实例感知分支

为了获得更准确的建筑物实例分割结果，本文从建筑物实例特征嵌入的角度考虑并构建了一个实例感知子网络。本文假设可以通过神经网络将每个点的特征映射到一个新的嵌入特征空间。在这个空间里，不同的建筑物点之间的特征距离尽可能大而相同建筑物点之间的特征距离尽可能小。为了达到这个目的，本文使用了一个由三层线性层构成的感知机学习每个点的建筑物实例感知特征，其中第三层线性层的输入拼接了来自中心偏移分支的特征，使得学习得到的实例感知特征包含实例中心位置信息。为了更好学习实例感知特征，本文使用了一个判别式损失函数进行监督训练：

其中，是建筑物实例的总个数，是建筑物所包含的点数量，是点学习得到的建筑物实例感知特征，是建筑物内所有实例感知嵌入特征的平均值。和分别是和的松弛范围变量。在判别式损失函数中，的作用是将相同建筑物的实例感知特征拉向它们的特征中心，而使得不同建筑物实例感知特征的中心互相远离彼此，是正则项约束，使得所有的建筑物实例感知特征中心朝向原点，降低特征学习的复杂度。基于这三项，实例感知分支可以为每个不同的建筑物实例点学习到不同的建筑物实例感知特征，将有助于区分不同的建筑物实例。

在点云特征学习以及三个子任务分支之后，为了得到建筑物的实例预测，本文提出了一种新的建筑物实例候选生成模块，该模块包括了建筑物实例候选选取、建筑物分组、建筑物合并三个部分。

建筑物实例中心实例候选选取部分基于语义分割分支的预测结果将输入点云划分前景点（建筑物点）和背景点（非建筑物点）。对于前景点，本文选择简单的点云采样方法算法采样K个点作为建筑物实例候选点。为了使得采样得到的建筑物实例候选点能够均匀地覆盖每个建筑物实例表面上，本文选择FPS进行采样；
由于每个建筑物实例候选点代表的是一个完整的建筑物实例，因此对于剩下的建筑物前景点本文需要对它们进行分组操作，即把每个建筑物前景点划分到对应的建筑物实例候选点，从而产生初始的建筑物实例候选预测。本文根据建筑物实例候选点直接为每个建筑物前景点分配一个唯一的建筑物实例预测标签，基于个建筑物实例候选点以及个建筑物前景点构造了一个关系矩阵。在关系矩阵中，每个元素是由建筑物前景点与建筑物实例候选点两者之间的建筑物实例感知特征的特征距离计算得到，代表着这两个点属于同一个建筑物的关系相似性。在特征学习阶段，实例感知分支为每个点学习了其对应建筑物的实例感知特征，该特征具有在同一个建筑物内的特征距离较小，在不同建筑物之间的特征距离较大的特点，因此可选择具有最小特征距离的建筑物候选点的矩阵列索引作为第个建筑物前景点的建筑物实例预测标签；
尽管在建筑物分组阶段，本文已经得到了每个建筑物前景点的初始建筑物实例预测标签，但这些预测标签会出现冗余的情况。这是因为在建筑物实例候选选择阶段，本文为了避免对建筑物的遗漏设置了大量的建筑实例候选点采样。这种做法虽然能覆盖场景中的建筑物，但是也会大概率使得同一个建筑物上分布着多个建筑物候选点。经过了建筑物分组操作后会出现同一个建筑物会具有多个不同建筑物实例预测标签的情况。为了解决这个问题，本文提出了一个建筑物合并子模块将属于同一个建筑物上的所有建筑物实例预测标签进行合并。先使用了在中心偏移分支网络预测的建筑物实例中心偏移向量将个建筑物实例候选点进行偏移，使得它们朝着对应的建筑物实例中心移动。建筑物实例候选点在经过了中心偏移之后，会分别聚集在对应建筑物的中心附近区域，从而完成后续的合并；
由于语义预测错误、建筑物候选点错误选择、中心偏移预测错误等原因，本文的建筑物实例候选生成模块难以避免地会产生一些错误、无效的建筑物实例预测。为了解决这种问题，引入了实例得分预测网络，用于对生成的建筑物实例预测进行质量评估与错误过滤。得分预测网络结构与本文的骨干网络类似，是具有两层对称结构的三维子流形稀疏卷积U-Net网络，为每一个建筑物实例输出一个建筑物评价得分，该得分衡量了生成的建筑物实例的质量好坏。

根据UrbanBIS上的设置不同，主要可分为几种不同的基准测试方式，包括全部场景的基准测试、交叉场景的基准测试以及单一场景的基准测试，每种不同的测试方法可根据需要具体选择。

表4 单一场景验证建筑物类别分割效果

图6 龙华场景验证可视化示意图

五、UrbanBIS与B-Seg的下载与使用

UrbanBIS可提供图像、点云以及三角网格等多种不同格式的数据下载。我们在项目主页 https://vcc.tech/UrbanBIS/ 中提供UrbanBIS点云和分割数据集的直接下载与相关的使用说明，支持Dropbox与百度云网盘两种下载方式。用户可以根据需求按照不同的场景、不同的应用下载。对于图像和三角网格数据，我们提供申请下载的方式，可在项目主页上下载申请表并按照要求填写，我们会在第一时间回复下载要求。B-Seg以及相关资料可参照主页上的提示下载。

六、总结与展望

这篇文章详细介绍了一个大型真实城市场景数据集UrbanBIS，为广大用户提供了六个代表性城市场景以及丰富的语义数据标签和建筑物实例标签。该数据集不仅可用于城市场景的语义和实例分割任务，同样可用于建筑物重建、虚拟城市设计等一系列其他方向的发展。同时提出的面向城市场景的实例分割算法B-Seg可以为城市场景的建筑物单体提取问题提供思路。

七、思考与讨论

以下是开放性问题，欢迎读者朋友留言讨论：

Q:UrbanBIS中包含不同类型的城市场景，各个场景之间也存在较大的差异，如何定量的描述城市之间的这种差异，并根据自己的城市情况选取合适的训练数据？

参考文献

[1] Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia. PointGroup: dual-set point grouping for 3d instance segmentation[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 4867–4876.

[2] Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang. Hierarchical aggregation for 3d instance segmentation[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021: 15467–15476.

[3] Tong He, Chunhua Shen, Anton van den Hengel. DyCo3D: robust instance segmentation of 3d point clouds through dynamic convolution[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021: 354–363.

[4] Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo. SoftGroup for 3d instance segmentation on point clouds[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022: 2708–2717.

[5] Meida Chen, Qingyong Hu, Zifan Yu, Hugues Thomas, Andrew Feng, Yu Hou, Kyle McCullough, Fengbo Ren, Lucio Soibelman. STPLS3D: a large-scale synthetic and real aerial photogrammetry 3d point cloud dataset[C]. Proc. BMVC. 2022.

[6] Timo Hackel, Nikolay Savinov, Lubor Ladicky, Jan D. Wegner, Konrad Schindler, Marc Pollefeys. SEMANTIC3D.NET: a new large-scale point cloud classification benchmark[C]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences: Vol IV-1-W1. 2017: 91–98.

[7] Jens Behley, Martin Garbade, Andres Milioto, Jan Quenzel, Sven Behnke, Cyrill Stachniss, Jurgen Gall. SemanticKITTI: a dataset for semantic scene understanding of lidar sequences[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 2019: 9297–9307.

[8] Xavier Roynard, Jean-Emmanuel Deschaud, François Goulette. Paris-Lille-3D: a large and high-quality ground-truth urban point cloud dataset for automatic segmentation and classification[J]. The International Journal of Robotics Research, 2018, 37(6): 545–557.

[9] Qingyong Hu, Bo Yang, Sheikh Khalid, Wen Xiao, Niki Trigoni, Markham Andrew. Sensaturban: learning semantics from urban-scale photogrammetric point clouds[J]. International Journal of Computer Vision, 2022, 130(2): 316–343.

[10] Iman Zolanvari, Susana Ruano, Aakanksha Rana, Alan Cummins, Aljosa Smolic, Rogerio Da Silva, Morteza Rahbar. DublinCity: annotated lidar point cloud and its applications[C]. Proc. BMVC. 2019.

[11] Weikai Tan, Nannan Qin, Lingfei Ma, Ying Li, Jing Du, Guorong Cai, Ke Yang, Jonathan Li. Toronto-3D: a large-scale mobile lidar dataset for semantic segmentation of urban roadways[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2020: 797–806.

[12] Nina Varney, Vijayan K. Asari, Quinn Graehling. DALES: a large-scale aerial lidar data set for semantic segmentation[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 717–726.

[13] Xinke Li, Chongshou Li, Zekun Tong, Andrew Lim, Junsong Yuan, Yuwei Wu, Jing Tang, Raymond Huang. Campus3D: a photogrammetry point cloud benchmark for hierarchical understanding of outdoor scene[C]. Proc. ACM Int. Conf. on Multimedia. 2020: 238–246.

[14] Michael Kölle, Dominik Laupheimer, Stefan Schmohl, Norbert Haala, Franz Rottensteiner, Jan Dirk Wegner, Hugo Ledoux. The Hessigheim 3D (H3D) benchmark on semantic segmentation of high-resolution 3d point clouds and textured meshes from uav lidar and multi-view-stereo[J]. ISPRS J. Photogrammetry and Remote Sensing, 2021, 1: 100001.

[15] Weixiao Gao, Liangliang Nan, Bas Boom, Hugo Ledoux. SUM: a benchmark dataset of semantic urban meshes[J]. ISPRS J. Photogrammetry and Remote Sensing, 2021, 179: 108–120.

[16] Gülcan Can, Dario Mantegazza, Gabriele Abbate, Sébastien Chappuis, Alessandro Giusti. Semantic segmentation on Swiss3DCities: a benchmark study on aerial photogrammetric 3d pointcloud dataset[J]. Pattern Recognition Letters, 2021, 150: 108–114.

作者：杨国庆本文来自：深圳大学可视计算研究中心

Illustration by IconScout Store from IconScout

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。