随着机器人领域的飞速发展,我们有一个问题不断需要思考,究竟如何让机器人像人类一样理解世界,学习周围环境的表示。对于机器人来说,究竟是需要精确的坐标,还是语义的物体概念,还是隐式的空间认识推理模型?
在本文中,上海交通大学、波恩大学等院校的研究团队全面总结了当前机器人技术中常用的场景表示方法。这些方法包括传统的点云、体素栅格、符号距离函数以及场景图等传统几何表示方式,同时也涵盖了最新的神经网络表示技术,如神经辐射场、3D 高斯散布模型以及新兴的 3D 基础模型。
虽然目前的 SLAM 与定位系统主要依赖点云、体素这类稀疏表示方式,但密集型场景表示方法在导航、避障等后续任务中无疑会发挥关键作用。此外,神经辐射场、3D 高斯散布模型以及基础模型这类神经网络表示技术,非常适合整合高层次的语义信息与基于语言的先验知识,从而实现更全面的 3D 场景理解与智能体行为控制。本文的目标是为新手和资深研究人员提供一份有价值的参考资料,帮助他们探索 3D 场景表示技术的未来发展方向及其在机器人技术中的应用。
- 标题:What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models
- 作者:Tianchen Deng, Yue Pan, Shenghai Yuan, Dong Li, Chen Wang, Mingrui Li, Long Chen, Lihua Xie, Danwei Wang, Jingchuan Wang, Javier Civera, Hesheng Wang, Weidong Chen
- 机构:Shanghai Jiao Tong University、University of Bonn、Chinese Academy of Sciences、University of Zaragoza、Nanyang Technological University
- 原文链接:https://arxiv.org/abs/2512.03422
- 代码链接:https://github.com/dtc111111/awesomerepresentation-for-robotics
一、机器人 3D 场景发展史
机器人 3D 场景表示发展史和代表性工作
几何场景表示:
- Point Cloud 点云场景表示:通过离散的三维点来表示场景,通过雷达或者相机传感器获得。
- Voxel 体素场景表示:通过将三维空间离散化,转变成规则的立方体栅格,通过在栅格内存储不同的信息,比如密度,占用率等实现场景建模
- Mesh 网格场景表示:通过三角化面片构建连续的场景几何场景表示,精细度更高。
- SDF 符号距离场:通过表示空间点到物体表面的距离,实现连续的场景几何表示。
近年来,深度学习、计算机图形学与机器人技术的融合推动了显著进展。在众多推动这一进展的技术中,神经辐射场(NeRF)、三维高斯溅射和基础模型(Foundation Model,FM)作为极具前景的创新脱颖而出,从而实现真正的通用具身智能。
机器人 3D 三维表征研究热度变化
3D 神经场景表示
- NeRF 神经辐射场:通过连续的场景表示让机器人理解世界,基于神经网络 MLP 构建,可以进行地图预测,但是速度较慢。
- 3DGS 高斯泼溅:将场景表示为 3D 高斯椭球,从而实现高速的渲染,适合实时建图。
- Foundation Model 基础模型: 通过现有的 transformer 等编码器,将三维世界压缩成类似于语言的 token,将三维世界的理解变成可推理的人类语言。从而实现空间感知推理,成为「3D 版本的 GPT」。
三维场景表征在机器人不同模块的应用:感知,建图,定位,操作,导航
在建图和定位模块(第 V 节)中,现有方法在 SLAM 和定位领域取得了令人瞩目的成果。神经场景表示能够实现对环境的更精确、更密集的建模,这对避障特别有益。这一能力对于机器人的导航和操作至关重要。
该模块分为三部分:(i)场景重建:场景表示的地图重建能力包括几何精度和渲染质量,以及在静态场景、大规模户外场景和动态场景中的重建能力。(iii)SLAM:SLAM 部分主要包括不同场景表示方法在 SLAM 过程中的地图精度、位姿精度和实时性能。(iv)全局定位:全局定位主要涉及使用现有地图进行定位时的精度和实时性能。
在操作模块(第 VI-A 节)中,本文主要比较了基于不同场景表示方法的抓取框架。传统方法在抓取方面具有更高的实时性能和计算效率,但在泛化能力和处理复杂目标操作任务方面存在局限。相比之下,基于神经网络的场景表示在生成新视角和跨多个场景泛化方面具有一定能力,使其更能适应复杂任务。基于基础模型的方法能够实现零样本抓取任务,具备强大的泛化能力。此外,语言信息的集成使这些模型能够支持交互式抓取,并增强了它们理解和规划高级认知任务的能力。
在导航模块(第 VI 节)中,与传统的场景表示方法相比,神经场景表示能够提供高度准确的环境重建。此外,它们还有助于更好地融合语义和语言信息,从而能够执行更复杂的导航任务。我们将导航模块分为两个部分:(i)规划:从当前位置到目标目的地生成最优或可行路径,同时避开障碍物。(ii)探索:主动导航并绘制先前未知区域的地图。
不同 3D 场景表示的特点对比,包含连续性,存储效率,真实性,灵活性,几何表示精度。
二、现有方法的问题与未来发展方向
1、端到端通用网络还是模块化?
目前,大多数机器人系统都建立在模块化智能(Modular Intelligence)的基础上。为了完成复杂任务,系统会将导航或操作等功能分解为独立的模块,例如感知、建图、定位、操作和导航。这种设计虽然有助于实现各种机器人功能,但其模块化特性在本质上可能会限制机器人智能的进一步发展。
尽管模块化解决方案引入了有用的归纳偏置(Inductive Biases)并支持有效的特定任务性能,但它们通常面临泛化能力有限和迁移性差的问题。在实际应用中,这些系统往往需要在不同场景下进行重复的传感器校准、特定环境建模以及参数重新调优。此外,在高度复杂的环境中,构建精确的模型仍然极具挑战性。基础模型的最新进展提供了一条替代路径,即实现端到端智能。
2、数据瓶颈
尽管神经场景表示(Neural Scene Representations)在准确性和泛化性方面具有显著优势,但一个主要的挑战在于,与训练大语言模型(LLM)和视觉语言模型(VLM)所使用的互联网规模的文本与图像语料库相比,机器人特有的数据非常匮乏。这种局限性显著阻碍了机器人领域神经场景表示和基础模型的发展。
为了解决这一问题,研究重点已转向增强神经场景表示在有限数据情况下的泛化能力。另一个方向则是利用世界模型(World Models)来预测以动作为条件的(Conditioned on actions)状态转移,从而生成额外的训练数据集。
3、实时性瓶颈
与传统的场景表示相比,在机器人领域部署神经场景表示的另一个关键瓶颈在于其推理时间(Inference Time),这仍是制约可靠实时应用的一个限制因素。目前神经网络的部署策略通常分为两大类:
第一类是基于云端的部署。通常托管在远程数据中心,并通过 API 进行访问。在这种模式下,响应延迟和服务时间很大程度上取决于底层的网络路由、带宽以及数据中心的计算能力。因此,在将此类模型集成到自主机器人技术栈之前,必须仔细权衡网络的可靠性和延迟问题。
第二类是边缘计算平台上的车载 / 机载部署(Onboard Deployment)。此类方案通常采用模型蒸馏(Model Distillation)和量化(Quantization)等技术来减小模型体积,从而实现实时推理。然而,这往往以牺牲泛化能力为代价。一个极具前景的未来方向在于硬件 - 算法协同设计(Hardware–Algorithm Co-design),旨在同时提高推理效率并保持模型的泛化性能,以满足机器人实时部署的需求。
本文探讨了机器人不同模块最适合的三维场景表示方法,研究了相关方法、并讨论了挑战和未来方向。本文的主要贡献如下:
- 全面、最新的综述与基准测试:本文对机器人领域的不同场景表示方法进行了广泛且最新的综述,涵盖了经典方法和前沿方法。对于每个模块,团队都提供了详细介绍,并突出了该模块中不同场景表示的优势。
- 三维场景表示的未来方向:在机器人领域的每个模块中,团队指出了当前研究的技术局限性,并提出了几个有前景的未来研究方向,旨在激励这一快速发展领域的进一步进步。
- 开源项目:团队在 GitHub 上发布了一个开源项目,整理了机器人领域不同场景表示的相关文章,并将继续向该项目添加新的研究成果和技术,网址为https://github.com/dtc111111/awesome-representation-for-robotics。团队希望更多研究人员能够利用它获取最新的研究信息。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
热门跟贴