打开网易新闻 查看精彩图片

从第一视角观测中持续重构三维世界,并理解空间中的几何结构与开放语义信息,是机器人具身感知领域的核心问题。语义占据预测(Semantic Occupancy Prediction) 通过将空间划分为三维体素网格,并为每个体素估计 “空闲、占据、未知” 状态及其语义类别,为机器人的空间推理、导航避障与交互操作提供统一的基础场景表达。

然而,现有三维占据预测方法仍高度依赖大规模三维占据标注、语义标注以及精确相机位姿等训练数据。在真实开放环境中,这些假设往往难以成立:当机器人进入全新场景时,通常不存在预先标注好的三维几何与语义真值,也缺乏可靠的全局相机轨迹,更不可能针对每个新环境重新采集数据并训练模型。因此,构建具备强泛化能力、能够在开放真实环境中实现语义占据预测的感知系统,已成为推动具身智能体从 “被动感知” 迈向 “主动理解” 的关键基础。

近期,香港科技大学(广州)陈昶昊教授团队联合穆罕默德・本・扎耶德人工智能大学(MBZUAI )研究者提出FreeOcc。该工作已被机器人领域旗舰会议 Robotics: Science and Systems (RSS 2026) 接收,源代码和数据集均已开源。

FreeOcc 是首个无需训练(training-free)的开放词汇三维占据预测系统,仅基于单目或 RGB-D 图像序列,在线构建全局一致的开放词汇三维占据地图。在 EmbodiedOcc-ScanNet 数据集上,FreeOcc 无需任务特定训练,单目版本达到 31.29 IoU / 13.86 mIoU,RGB-D 版本达到 34.40 IoU / 15.84 mIoU,相较现有自监督学习方法在 IoU 与 mIoU 指标上均实现超过两倍提升。在团队进一步构建的跨数据集泛化基准 ReplicaOcc 上,FreeOcc 的 RGB-D 版本取得了 55.65 IoU / 20.90 mIoU 的性能,而现有监督与自监督方法几乎无法实现零样本泛化。

打开网易新闻 查看精彩图片

  • 论文标题:FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction
  • 论文地址:https://arxiv.org/abs/2604.28115
  • 项目主页:https://the-masses.github.io/freeocc-web/
  • 项目代码:https://github.com/the-masses/FreeOcc
  • 数据链接:https://huggingface.co/datasets/the-masses/ReplicaOcc

实现具身场景中 “无需训练” 的开放词汇语义占据预测,其核心难点在哪里?

近年来,基于端到端模型的语义占据预测在引入占据真值监督后,已经能够在特定场景中取得较高的几何与语义精度。然而,在 LegoOcc (CVPR-2026) 提出之前,大多数方法仍只能在预定义的封闭类别集合中进行推理。LegoOcc 将开放词汇能力引入室内单目占据预测,使模型能够响应任意自然语言查询,从而让端到端占据预测具备了初步的语言理解能力。

基于监督学习的端到端占据预测方法依然存在瓶颈:它们高度依赖高质量三维占据真值标注,并且在场景发生变化时泛化能力显著下降。一旦进入未见过的新场景,模型的几何与语义预测性能往往会迅速退化。而当前具备高质量占据真值标注的室内具身场景数据集,仍主要局限于基于 ScanNet 构建的 OccScanNet 与 EmbodiedOcc-ScanNet,数据资源极为稀缺。

因此,监督学习范式下的端到端占据预测,始终面临两座难以跨越的大山:

1.三维标注成本极高:高质量占据真值需要经过三维重建、体素化与逐体素语义标注等复杂流程,其成本远高于传统二维图像标注,难以大规模扩展。

2.跨环境泛化能力不足:监督学习方法容易过拟合特定数据集中的相机内参、尺度分布、外观风格以及标签体系。一旦迁移到新的场景或传感器配置,语义与几何预测都会出现明显退化。

FreeOcc 的核心思想正是:不再训练一个面向特定数据集的占据预测神经网络模型,而是构建一个能够让智能体 “无需训练” 即可在任意环境中在线预测占据地图与开放词汇语义的通用感知系统。

作为首个无需训练的通用开放词汇占据预测框架,FreeOcc 在系统设计与评估过程中面临一系列挑战:

1.3DGS 表达与占据预测目标之间存在较大差异:FreeOcc 采用 SLAM 作为定位与建图主干。现有耦合式 3DGS-SLAM 方法在效率与建图精度之间往往难以兼顾,而继承点云 SLAM 全局一致性的解耦式 3DGS-SLAM,则更关注多视角渲染质量,而非体素空间中的几何一致性。若直接将现有 3DGS 表示用于体素级占据预测,会出现几何边界不稳定、局部结构漂移以及全局拓扑不规整等问题。如何将面向渲染的 3DGS 表达转化为面向空间推理的三维占据表示,成为一个新的研究问题。

2.缺乏适用基于占据的 SLAM 系统的统一评估机制:基于 SLAM 的系统评估通常需要进行 Sim (3) 或 SE (3) 对齐。然而,在标准 3DGS 优化过程中,系统会联合更新位置 (x,y,z)、旋转、尺度、透明度、颜色、球谐系数(SH)以及 densify / split / prune 等参数。优化后的高斯场几何已经不再是单纯 “由相机位姿驱动” 的刚性或相似结构,而是被优化器不断局部重塑的自由场。当轨迹、尺度或坐标系发生变化时,仅施加群变换虽然在数学上成立,却往往无法完全吸收训练过程中累积的局部补偿误差,通常仍需进一步重优化。

3.缺乏能够评估开放世界泛化能力的数据基准:目前具身场景中的占据预测评测主要依赖 EmbodiedOcc-ScanNet 与 OccScanNet。然而,OccScanNet 在构建过程中将大量类别合并为 “furniture” 与 “objects”,导致现有评测难以真正量化开放词汇场景中的语义理解能力,尤其难以准确评估开放类别下的 mIoU。仅依赖传统数据集与封闭类别评测,已经无法衡量下一代开放词汇占据系统的真实能力。

为此,FreeOcc 建立了统一框架:既能够继承 SLAM 的全局一致性几何,又能够利用 3DGS 的稠密表达能力,同时融合开放词汇语义理解,并支持可对齐、可泛化、可量化的评估机制。

FreeOcc 框架介绍

打开网易新闻 查看精彩图片

FreeOcc 将在线开放词汇占据预测拆解为四层模块化地图表示,并在机器人观测过程中持续进行联合更新:

1.点云地图:基于视觉定位与建图系统(SLAM),从单目或 RGB-D 图像序列中估计相机位姿,并构建全局一致的半稠密点云。

2.3DGS 地图:以 SLAM 点云为几何锚点初始化并更新 3D 高斯,通过连续场表示补充稀疏几何结构。

3.语义地图:利用预训练视觉语言模型提取开放词汇语义特征,并将语言对齐特征关联到高斯基元(Gaussian primitives)。

4.占据地图:通过概率式 高斯至占据(Gaussian-to-Occupancy) 投影,将带语义的高斯表达转换为稠密体素占据地图,从而支持任意文本查询。

(1)SLAM 提供全局一致的几何锚点

FreeOcc 首先利用 SLAM 系统处理输入图像序列,实时估计相机位姿并重建三维点云。正文采用 DROID-SLAM,利用其在单目输入条件下较强的全局几何一致性。补充实验中还进一步验证了 MASt3R-SLAM 与 VGGT-SLAM 作为骨干模型时的性能表现。SLAM 输出的相机轨迹与点云,为后续高斯地图提供统一坐标系,为占据地图的长期一致性构建几何基础。

(2)几何一致的 3D 高斯构建

传统 3DGS-SLAM 方法更擅长把图像渲染正确,却未必真正把几何结构建精准。由于 3DGS 的优化目标主要服务于新视角渲染,只要最终渲染出的 RGB 与深度结果足够合理,高斯的位置、尺度与透明度往往可能存在多种等价解。这种几何歧义在新视角合成任务中并不明显,但一旦用于三维占据预测,就会直接导致几何边界模糊、薄结构漂移、全局空间结构不稳定以及体素语义分布不连续等问题。

针对这一挑战,FreeOcc 提出了几何感知初始化(Geometry-aware Initialization,G-ini)与几何锚定高斯更新(Geometrically Anchored Gaussian Updates,GAGU)。不再允许高斯在优化过程中自由漂移,而是始终将高斯的几何中心锚定在 SLAM 重建得到的三维点上。在初始化阶段,系统进一步沿观测射线方向对高斯进行各向异性展开,使其形状天然符合真实成像几何,而不仅仅服务于渲染误差最小化。通过这一设计,FreeOcc 构建出的高斯地图能够实现高质量渲染,更能够保持长期稳定的几何一致性,从而适用于体素级空间推理与开放词汇占据预测。

(3)开放词汇语义关联

FreeOcc 并不训练固定类别的语义分类头,直接利用预训练开放词汇视觉语言模型,从二维图像中提取语言对齐语义特征。系统基于 SLAM 提供的几何对应关系,将二维像素级语义嵌入提升到三维高斯基元(Gaussian primitives)上,从而形成携带语言信息的语义高斯基元(language-embedded Gaussians)。

因此,每一个高斯基元不仅包含位置、尺度、不透明度和颜色等几何与外观属性,同时还携带开放词汇语义特征。当用户输入任意文本类别时,系统即可通过文本编码器生成对应的查询语义向量(query embedding),并与三维空间中的语言特征进行相似度匹配,实现文本驱动的三维语义定位。

(4)高斯基元到占据地图的概率投影

FreeOcc 将连续的高斯地图投影到离散体素网格中,从而生成最终的三维占据地图。对于每一个体素位置,系统都会检索其邻域范围内的高斯体,并根据高斯体的空间支持范围计算该体素被占据的概率。同时,系统通过局部高斯混合模型(Gaussian mixture)的后验责任传播语义特征,使语义信息能够稳定映射到三维体素空间。

最终输出同时包含两个部分:1)几何占据概率,即该体素是否被物体占据;2)开放词汇语义分数,即该体素与任意文本类别之间的匹配程度。FreeOcc 最终生成一张能够被任意自然语言查询的开放词汇三维占据地图。

实验结果

论文从 EmbodiedOcc-ScanNet、ReplicaOcc、三维高斯泼溅 SLAM 主干对比、组件消融实验、开放词汇查询以及真实机器人部署等多个角度,对 FreeOcc 的性能进行了系统验证。

(1)在 EmbodiedOcc-ScanNet 上,无需训练即可超过自监督方法两倍以上

打开网易新闻 查看精彩图片

在 EmbodiedOcc-ScanNet 数据集上,现有自监督方法 GaussianOcc 与 GaussTR 虽不依赖语义占据监督,但仍需要真实相机位姿作为输入,分别取得 10.17/4.34 与 15.63/4.95 的 IoU/mIoU 性能。FreeOcc 在完全不使用占据真值标注、语义标注以及真实相机位姿作为输入的情况下,依然取得更好性能:单目输入达到 31.29 IoU / 13.86 mIoU,RGB-D 输入达到 34.40 IoU / 15.84 mIoU。无论在几何 IoU 还是语义 mIoU 指标上,均超过现有自监督基线两倍以上,展示了无需训练(training-free)范式在开放世界占据预测中的潜力。

(2)构建 ReplicaOcc 基准数据集,验证跨数据集零样本泛化能力

为了进一步验证模型是否真正具备跨环境泛化能力,论文构建了 ReplicaOcc Benchmark。该数据集基于 Replica 场景构建,采用与 ScanNet 类似的 RGB-D 序列组织方式,并提供全局占据真值,用于评估开放词汇具身占据预测。

打开网易新闻 查看精彩图片

与 EmbodiedOcc-ScanNet 中仅包含 11 个粗粒度类别不同,ReplicaOcc 引入了更加细粒度的语义类别体系,因此能够更有效地检验模型的开放词汇语义理解能力。论文展示了 8 个 ReplicaOcc 场景的可视化结果。

打开网易新闻 查看精彩图片

(3)在 ReplicaOcc 上,学习式方法迁移失败,而 FreeOcc 保持强泛化能力

打开网易新闻 查看精彩图片

在零样本(Zero-shot)跨数据集迁移设定下,学习式方法从 EmbodiedOcc-ScanNet 迁移到 ReplicaOcc 后出现明显性能崩溃。监督方法 EmbodiedOcc 的语义 mIoU 几乎降为 0,而自监督方法 GaussianOcc 与 GaussTR 几乎无法生成有效语义占据结果。

相比之下,FreeOcc 由于不依赖特定数据集训练,能够直接迁移至全新环境,并保持稳定性能。其中,单目输入达到 46.81 IoU / 16.93 mIoU,RGB-D 输入达到 55.65 IoU / 20.90 mIoU。说明,FreeOcc 减少了三维标注成本,避免了学习式占据预测模型对单一数据集、固定标签体系以及特定场景分布的过拟合。

(4)几何一致高斯更新优于现有 3DGS SLAM

打开网易新闻 查看精彩图片

为便于对比,将不同 3DGS-SLAM 系统生成的高斯地图统一转换为占据体,并在 ReplicaOcc 和 EmbodiedOcc-ScanNet-mini 上评估几何 IoU。FreeOcc 在单目和 RGB-D 设置下均取得最佳平均 IoU:

  • 单目平均 IoU:39.34,优于 Photo-SLAM、MonoGS、DROID-Splat;
  • RGB-D 平均 IoU:45.24,优于 SplaTAM、GS-ICP、RTG-SLAM、MonoGS、DROID-Splat 等方法。

FreeOcc 的高斯更新策略并不是简单复用 3DGS-SLAM,围绕 “占据预测” 这一目标,重新设计了更加稳定且适用于空间推理的高斯几何表示。

(5)消融实验

打开网易新闻 查看精彩图片

消融实验显示,如果移除几何锚定高斯更新(GAGU)和 几何感知初始化(G-ini),系统在精度和效率上都出现明显下降。在 RGB-D 设置下:

  • 无 GAGU、无 G-ini:27.98 IoU / 11.20 mIoU / 8.8 FPS
  • 加入 GAGU:40.18 IoU / 16.03 mIoU / 25.0 FPS
  • 完整 FreeOcc:45.03 IoU / 18.37 mIoU / 24.6 FPS

这表明GAGU 提升了长期几何一致性以及建图效率,使 FPS 从8.8 提升到 25.0;而G-ini进一步改善高斯初始化质量,在几乎不牺牲运行速度的情况下,将占据预测精度进一步提升到45.03 IoU / 18.37 mIoU。

(6)开放词汇查询,支持任意文本的三维目标定位

打开网易新闻 查看精彩图片

FreeOcc 具备三维场景开放词汇查询能力,能响应任意自然语言文本,并在三维占据地图中定位对应目标。例如,在 ReplicaOcc 场景中,系统可以根据 “篮子”“时钟”“室内绿植”“挂画” 等文本查询,在三维占据地图中准确定位对应区域。这些尺寸较小、语义粒度细、类别开放的目标,而传统封闭类别的占据预测方法难以覆盖。

进一步在 ReplicaOcc 数据集上进行定量评估。FreeOcc 在开放词汇 top-10 类别上取得了 31.06 mIoU;当词汇表进一步扩展到 top-20、top-30 和 top-40 类别时,仍达到 23.02、16.57 和 12.01 mIoU。随着语义类别规模不断扩大,FreeOcc 依然能保持较好的开放词汇语义理解能力,展现更强的可扩展性。

打开网易新闻 查看精彩图片

(7)可视化结果:几何和语义预测更完整

打开网易新闻 查看精彩图片

可视化结果显示,跨数据集时,现有学习式占据预测方法往往会生成不完整、破碎,甚至接近空白的占据地图;而 FreeOcc 则能够保持更加连贯的房间结构、更稳定的空间边界以及更加合理的语义占据分布。相较于现有 3DGS SLAM 方法,FreeOcc 在物体边界、薄结构恢复以及整体空间完整性方面也展现更强的稳定性。

真实场景部署

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

FreeOcc 直接部署到真实 RGB-D 传感器数据流中。使用 Intel RealSense D435i 深度相机进行在线数据采集,在 Intel i9-14900KF + RTX 5090 平台上运行完整系统。整套系统直接接收实时 RGB-D 数据流,无需预录轨迹、真实相机位姿、封闭类别标签或离线优化。

打开网易新闻 查看精彩图片

在真实室内与室外场景中,FreeOcc 能够持续构建三维高斯地图,并将开放词汇语义稳定投影到占据地图中。为获得场景级开放词汇标签,在真实部署过程中进一步引入 Qwen3-VL 多模态视觉语言模型,从输入 RGB 图像中自动生成可见物体类别,再将这些语义线索接入 FreeOcc 系统重,实现开放词汇语义地图构建。

细粒度真实场景实验,面对桌面上外观相似但颜色不同的多个杯子,FreeOcc 能够根据 “红色杯子”“黄色杯子”“蓝色杯子” 等自然语言查询,准确区分并定位对应目标。

打开网易新闻 查看精彩图片

在线增量建图过程

随着机器人持续观测,FreeOcc 不断更新的多层地图表示。 论文展示了 ScanNet 与真实室外场景中的在线增量建图过程:随着输入图像不断增加,点云地图逐渐补全,三维高斯地图变得更加稠密,语义地图持续融合新的开放词汇特征,最终占据地图逐步形成更加完整、全局一致的三维空间表达。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

展望与意义

FreeOcc 开创了一条不同于传统端到端学习占据预测模型的新路线。FreeOcc 不依赖大规模三维占据标注,也不要求推理阶段输入真实相机位姿,而是有效结合 SLAM 几何与位姿、连续三维高斯表示、开放词汇视觉语言模型以及体素占据投影,使机器人能够从第一视角观测中持续构建全局一致的开放词汇三维占据地图。

FreeOcc 的开放词汇占据地图不仅让机器人看见环境几何结构,更进一步支持机器人理解环境。例如,当用户提出 “台灯在哪里”“红色杯子在哪里” 等自然语言问题时,机器人能够直接在三维空间中定位目标区域,并进一步将结果用于导航、避障、抓取以及人机交互等下游任务。未来,当机器人进入一个全新房间时,不再需要重新训练或调整占据预测模型权重,而是直接依靠自身传感器,在线增量构建三维占据地图,并逐步理解环境中的物体与空间关系。

作者与机构

江泽宇:香港科技大学(广州)博士生,主要研究方向为高效的空间物理智能体,专注于将通用空间智能注入现实开放环境的具身应用场景。

周常青:香港科技大学(广州)博士生,致力于高效且稳定的三维场景理解方法研究,当前重点关注端到端轨迹生成模型,以及面向导航任务的高效世界模型构建。

左星星:阿联酋穆罕默德・本・扎耶德人工智能大学(MBZUAI)机器人系助理教授。研究方向为移动机器人感知、3D 计算机视觉、具身智能、多传感器融合等。受邀当选为机器人领域顶刊 T_RO 和著名期刊 RA-L 的编委 (Associate Editor),和机器人顶会 RSS, IROS, ICRA 的编委。

陈昶昊(通讯作者):香港科技大学(广州)智能交通学域和人工智能学域助理教授,博士生导师,香港科技大学跨学科学院联署助理教授,从事具身智能感知、导航与交互研究,组建港科大(广州)PEAK-Lab 课题组并担任独立 PI。