RoboRefer：面向机器人视觉语言模型的空间推理|单步|推理|机器人|模态|深度思考模型|真实世界|语言模型

RoboRefer：面向机器人视觉语言模型的空间参考推理

RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

https://arxiv.org/pdf/2506.04308

摘要
空间指代（Spatial referring）是具身机器人与三维物理世界交互的一项基本能力。然而，即便借助强大的预训练视觉语言模型（VLMs），现有方法仍难以准确理解复杂的3D场景，并动态推理出指令所指示的交互位置。为此，我们提出了 RoboRefer——一种具备3D感知能力的视觉语言模型。该模型首先通过监督微调（SFT）集成一个解耦但专用的深度编码器，实现精确的空间理解。此外，RoboRefer 还通过强化微调（RFT）推进通用的多步空间推理能力，其中采用了专为空间指代任务设计的、对度量敏感的过程奖励函数。

为支持 SFT 和 RFT 训练，我们构建了 RefSpatial 数据集——一个大规模数据集，包含 2000 万条问答对（是先前工作的2倍），涵盖 31 种空间关系（此前仅15种），并支持复杂的推理过程（最多5步）。此外，我们提出了 RefSpatial-Bench——一个具有挑战性的评测基准，填补了当前在多步推理场景下评估空间指代能力的空白。

实验表明，经 SFT 训练的 RoboRefer 在空间理解方面达到当前最优水平，平均成功率达 89.6%。经 RFT 训练的 RoboRefer 更是以显著优势超越所有基线模型，甚至在 RefSpatial-Bench 上的平均准确率比 Gemini-2.5-Pro 高出 17.4%。值得注意的是，RoboRefer 可与多种控制策略集成，在杂乱的真实世界场景中，驱动多种机器人（如 UR5、G1 人形机器人）执行长时程、动态任务。

1 引言
开放世界的空间智能对具身人工智能（embodied AI）至关重要，因为机器人必须理解并推理3D场景，才能在复杂环境中有效交互。作为空间智能与具身AI之间的桥梁，空间指代（spatial referring）通过形式化智能体如何解读并执行空间约束指令，已成为该领域的一个关键研究方向，并受到越来越多的关注。

具体而言，给定传感器观测（如 RGB 或 RGB-D 图像）和一条空间约束指令，空间指代任务旨在预测一个精确的点，该点需满足指令中描述的复杂空间关系。这一预测点可服务于多种下游具身功能，如导航航点、操作目标或放置位置，从而赋能广泛的机器人应用（如图1所示）。

空间指代任务包含两个不同层次的复杂性：
(1) 单步空间理解（Single-step spatial understanding）：这是空间感知的基础，要求准确识别物体的空间属性（如位置、朝向）及其空间关系（如距离、方向）。当前大多数研究 [1–7] 集中于这一层次，为其提供必要的感知基础。
(2) 多步空间推理（Multi-step spatial reasoning）：该层次通过组合式推理，逐步解析复杂的空间指代，超越了基础理解。尽管对高级空间智能至关重要，这一能力仍鲜有探索。因此，本文尝试通过整合这两个层次，实现全面的空间指代。如图1所示，任务需先识别离观察者最近的盘子和目标酱油碟，再确定两者之间的空闲区域——随着空间约束增多，任务难度显著提升。

具体而言，现有基于视觉语言模型（VLMs）[8–11] 的方法主要聚焦于第一层次，即通过引入3D输入来增强单步空间理解。然而，这些方法要么依赖多视角图像的昂贵3D重建 [12, 13]，导致模态鸿沟；要么将深度图视为类似RGB的输入 [1, 3, 14]，通过共享图像编码器处理，易引发模态干扰，损害预训练图像编码器性能，还需额外的协同训练数据进行补偿。

相比之下，第二层次——即具备推理能力的多步空间指代——由于缺乏合适的高质量数据集而仍未被充分探索，限制了当前模型的能力，也阻碍了对“单步理解如何支撑多步推理”的深入研究。此外，当前 VLMs 主要依赖监督微调（SFT）进行隐式推理，容易记忆答案而非进行显式推理，从而在开放世界空间指代任务中损害泛化性与准确性。

在本研究中，我们提出 RoboRefer——一种具备3D感知能力的 VLM，不仅通过 SFT 获得精确的空间理解，还通过强化微调（RFT）展现出强大的通用推理能力。具体而言，在单步空间理解方面，RoboRefer 采用专用的深度编码器，在不干扰 RGB 分支的前提下增强精确的空间感知。为实现多步空间推理，我们在 SFT 之后设计了 RFT 阶段，并引入显式标注的推理过程。该阶段使 RoboRefer 能将复杂的空间指代任务分解为一系列分析步骤。在每一步中，RoboRefer 可利用 SFT 阶段获得的空间理解，并通过我们提出的对度量敏感的过程奖励函数（metric-sensitive process reward functions）优化中间推理精度，从而做出更准确的点预测。据我们所知，RoboRefer 是首个面向多步空间指代、具备显式推理能力的3D感知推理型 VLM。

为推动空间指代研究，我们构建了 RefSpatial 数据集——包含 250 万高质量样本、2000 万问答对（是先前工作 [3] 的2倍）。该数据集融合了来自2D、3D和仿真的多样化数据源，可自底向上地训练通用 VLM 实现空间指代：

2D 网络图像提供基础空间概念和广泛的深度感知（涵盖室内外场景）；
3D 具身视频细化机器人室内场景的细粒度空间理解；
带有真实推理过程标注的仿真数据则促进多步空间指代（最多5步）。

值得注意的是，RefSpatial 包含 31 种空间关系，远超此前数据集中的15种 [2, 3]，且每个样本均包含 RGB-D 数据，以支持 SFT 阶段的深度对齐。

我们在现有单步空间推理基准（如 CVBench [15]、BLINK [16]）上评估了经 SFT 训练的模型，取得了当前最优性能，平均成功率达 89.6%。

为弥补多步空间指代评测基准的缺失，我们提出了 RefSpatial-Bench，包含 200 张真实世界图像，人工标注了物体定位与放置任务。其中超过 70% 的样本需要多步推理（最多5步），并配有精确的掩码标注。我们的模型在此基准上持续超越所有基线，平均准确率甚至比 Gemini-2.5-Pro 高出 17.4%。此外，如图1和第4.4节所示，RoboRefer 能在杂乱的真实世界场景中，结合多种控制策略执行长时程、动态任务，在不同机器人（如 UR5、G1 人形机器人）和任务（如操作、导航）上均展现出强大的泛化能力。

我们的主要贡献总结如下：
(1) 提出 RoboRefer——一种3D感知 VLM，采用 SFT-RFT 串行训练策略，并结合对度量敏感的过程奖励函数，实现空间指代；
(2) 构建 RefSpatial 数据集——专为空间指代任务设计，支持 SFT 与 RFT 训练；并提出 RefSpatial-Bench 评测基准，填补了多步推理空间指代评估的空白；
(3) 大量实验表明，RoboRefer 泛化能力强，在空间理解与带推理的空间指代任务上均超越基线，并能在真实世界中高效控制多种机器人执行多样化任务。

2 相关工作

基于视觉语言模型（VLMs）的空间理解。空间理解 [16–23] 聚焦于以物体为中心的属性（如位置、朝向）以及物体间的关系（如距离、方向），而空间推理 [24–35] 则在此类信息基础上进行更高层次的推断。近期视觉语言模型（VLMs）[8–11, 36–51] 的进展通过两种范式增强了这两种能力：(1) 基于工具的方法 [7, 14, 52–56]，将 VLM 与视觉基础模型 [57–65] 相结合，以提取并推理空间线索；(2) 数据驱动方法，通过使用伪3D标注 [1, 6]、真实世界3D数据集 [2, 3] 或仿真数据 [4, 66] 对 VLM 进行微调。然而，现有数据集缺乏对空间指代任务至关重要的多步推理标注，且尚无用于评估此类能力的基准。因此，我们专门为空间指代任务构建了一个新数据集和新基准。

面向机器人任务的 VLM 指代研究。指代（Referring），亦称指代表达理解（Referring Expression Comprehension, REC）[67–74]，利用无歧义的描述在图像中定位唯一的区域或点，并借助 VLMs [75–80] 取得了显著进展。与短语定位（Phrase Localization）[81–83] 和广义视觉定位（Generalized Visual Grounding）[84–88]（处理模糊或多目标指代）不同，REC 聚焦于单一目标——这一特性对机器人至关重要，尤其在需要精确识别物体及其目标位置的抓取与放置任务中 [89–93]。尽管 2D REC 依赖物体属性（如颜色）和图像平面定位（如“图像右上角”），但机器人在真实场景中需要3D 空间推理才能准确定位（例如区分“近”与“远”）。虽然 RoboPoint [5] 等工作 [94–96] 尝试通过图像引入基础空间线索以满足此类需求，但在复杂环境和空间指代所需的复杂指令面前仍显不足。因此，我们提出了 RoboRefer——一个具备 3D 感知能力的框架，通过多步推理确保机器人任务中精确的空间指代。

视觉语言模型的强化微调（RFT）。强化微调（Reinforcement Fine-tuning, RFT）[97–101] 是一种后训练策略，通过反馈将模型与人类偏好或特定目标对齐，是对监督微调（SFT）[102, 103]（使用任务导向数据适配预训练模型）的有效补充。近期基于大语言模型（LLM）的推理研究进展 [101, 104, 105] 已将强化学习（RL）在 VLM 中的应用拓展至视觉推理 [106–109]、定位（grounding）[110–112]、分割 [113] 和轨迹预测 [114] 等领域。然而，大多数方法仅依赖 2D 感知，难以处理需要 3D 空间推理的空间指代任务。为解决此问题，我们提出一种两阶段训练策略：(1) 在 SFT 阶段引入深度信息以增强空间理解；(2) RFT 阶段则利用 SFT 提供的中间感知输出，实现具备推理能力的多步空间指代。

3 方法

我们首先对空间指代任务进行形式化定义（第3.1节）。随后，详细阐述 RoboRefer，包括其架构与训练策略（第3.2节）。最后，描述 RefSpatial 数据集的构建过程（第3.3节）以及 RoboRefer 所需的训练细节（第3.4节）。

3.1 问题形式化

我们将空间指代任务形式化为：给定来自传感器的视觉输入 O（例如 RGB 或 RGB-D 图像）和一条文本指令 L，在图像空间中预测一个单一的二维点 (x,y)，以指定目标位置或目的地。该指令不仅包含单步空间属性，例如尺寸（如“大”、“小”）、位置（如相对位置或序数位置）、朝向（如“正对前方”）和空间关系（如距离、方向），还可能要求进行多步空间推理。例如，“将物体放在笔筒和键盘之间，并与杯子上的标志对齐。”（见图2）随着多个空间约束的组合，任务复杂度显著增加。

与基于区域的二维指代方法 [75, 80, 88] 不同，这种基于点的表述方式对机器人任务而言更具适用性和泛化能力。相较于二维边界框（bbox），点可通过深度信息自然映射到三维坐标，提供精确的空间锚点。通过将预测点用于导航、抓取或放置，该表述方式支持多任务学习与执行。此外，在遮挡场景中，它能准确定位可见的物体局部，而二维边界框往往包含无关物体。

3.2 RoboRefer：面向空间指代的3D感知推理型视觉语言模型

VLM 架构。如图2所示，RoboRefer 采用独立的 RGB 编码器和深度编码器分别提取特征，随后通过投影模块（projectors）将这些特征与大语言模型（LLM）对齐，用于视觉问答（VQA）或点预测。由于三维线索对空间理解至关重要，仅在 RGB 数据上预训练的二维 VLM 缺乏准确的三维感知能力。近期方法 [1, 3, 14] 通过将深度图视为类图像模态并共享 RGB 编码器来避免显式的三维表示，但这会导致模态干扰，损害预训练编码器性能，并需额外的 RGB 协同训练进行补偿。

为解决此问题，我们提出一种简单而有效的方法：使用专用的深度编码器和投影模块，其初始参数从对应的 RGB 组件复制而来。值得注意的是，在联合进行 RGB 与 RGB-D 训练时，图像编码器不会受到深度输入的影响，而深度编码器则独立更新。该设计不仅避免了模态干扰，在无需大量纯 RGB 协同训练的情况下保持了通用 VQA 性能，还通过增强对深度线索（如距离、远近关系、基于透视的尺寸变化）的感知，提升了空间理解能力。详见附录 C.1。

监督微调（Supervised Fine-tuning）。我们采用 NVILA [37] 作为基础视觉语言模型（VLM）；然而，其仅基于二维图像的预训练限制了空间理解能力。为解决此问题，我们提出一个两步监督微调（SFT）策略：(1) 深度对齐。在图2中，我们首先训练一个深度投影器，将新引入的深度空间与文本空间对齐，利用 RefSpatial 数据集中的 RGB-D 标注（详见第3.3节）。在此步骤中，仅更新深度投影器。(2) 空间理解增强。我们在 RefSpatial 数据集上微调所有参数，包括单步细粒度标注和包含显式推理过程的多步推理数据，以及额外的指令跟随数据集 [74, 115, 116]。因此，该模型同时在 RGB 和 RGB-D 输入上进行优化，并分别更新图像编码器和深度编码器。这一过程不仅通过新增的深度模态增强了单步空间理解，还通过包含显式推理过程的数据强化了隐式的多步推理能力，为后续的 RFT 阶段提供了“冷启动”基础。因此，经过 SFT 训练的模型在多步空间指代任务上展现出更强的能力。详情请参见附录 C.3。

3.3 RefSpatial 数据集

3.3.1 概述

RefSpatial 是一个综合性数据集，整合了来自 OpenImages [117] 的 2D 图像、来自 CA-1M [118] 的 3D 具身视频，以及使用 Objaverse [120] 资产构建的 Infinigen [119] 模拟场景（见图 3(a)）。RefSpatial 的关键特性包括：(1) 细粒度标注。以往的空间数据集 [2, 3] 为简化物体指代，通常限制每个场景中每个类别仅包含一个实例；而 RefSpatial 包含同一类别下的多个物体。此外，每个物体均配有层次化描述文本——从宽泛类别（如“杯子”）到精确的空间指代表述（如“从左数第三个杯子”、“离相机最近的杯子”）——从而在杂乱环境中实现无歧义的空间指代。(2) 多维性。除基础空间概念、关系、点坐标和点深度预测外，该数据集还通过标注详细的推理过程（全部为模拟数据），支持多步骤空间推理，弥补了现有数据集的不足。(3) 高质量。我们对数据进行了严格筛选以保证质量：从 OpenImages 的 170 万张图像中保留了 46.6 万张包含可文本指代且空间相关的物体的图像；从 CA-1M 的 200 万帧中采样了 10 万帧带有文本可识别 3D 边界框的帧；并对 Objaverse-LVIS 的 4.6 万个资产中手动检查并标注了 3 千个带有语义朝向标签的资产。(4) 大规模。该数据集包含 250 万个样本和 2,000 万对问答（QA）对，涵盖定性视觉问答（VQA）、关于物体属性/关系的定量查询，以及点坐标预测（见图 3(b)）。(5) 丰富多样性。RefSpatial 覆盖室内外场景，包含常见的具身场景，并整合了 31 种不同的空间关系（见图 3(c)），有助于在监督微调（SFT）阶段促进模型对空间关系的精确理解。(6) 易于扩展。我们的数据构建流程可无缝扩展空间指代数据，兼容多种来源，包括 2D 图像、带边界框的 3D 视频以及模拟资产。更多数据集细节请参见附录 A。

3.3.2 数据构建流程

如图 3 所示，我们提出了一种数据构建流程，逐步整合 2D、3D 和模拟数据，使通用视觉语言模型（VLM）能够适应空间指代任务，从而增强自下而上的空间理解与推理能力。(1) 2D 网络图像旨在赋予模型核心空间概念，并在室内外场景中建立全面的深度感知能力。为缓解室内外场景在深度尺度和类别分布上的差异，我们利用大规模、多样化的 2D 网络图像数据集 OpenImages [117]。然而，直接从中提取 3D 感知的空间信息具有挑战性。受先前工作 [1, 35] 启发，我们将 2D 图像转换为伪 3D 场景图。具体而言，在高质量筛选（从 170 万张减少至 46.6 万张图像）后，我们进一步利用 Qwen2.5-VL [11] 和一种启发式方法生成层次化区域描述文本，既包含粗粒度标签，也包含细粒度空间指代，这使我们的方法区别于以往工作。随后，我们通过目标检测/分割、深度估计和相机内参估计构建场景图，其中以物体描述为节点，空间关系为边。最后，我们通过模板驱动或大语言模型（LLM）驱动的方法生成问答对，并结合从标注描述中导出的物体-位置问答进行增强。(2) 3D 具身视频旨在为模型提供对室内场景的聚焦式空间理解，以及对空间关系和概念的更细粒度感知。为此，我们利用标注丰富的 CA-1M [118] 数据集。在细粒度过滤（从 200 万帧减少至 10 万帧）后，我们构建了包含更多样空间关系的 3D 场景图，这得益于 3D 边界框相比 2D 方法提供的更高精度。此外，我们生成了自上而下的占据地图（occupancy maps），编码物体的位置、朝向和度量距离（例如“椅子右侧 10 厘米处”），从而实现对物体放置的精确空间指代。(3) 模拟数据旨在赋予模型具备多步骤指代能力的空间推理能力。虽然 2D 和 3D 数据支持单步空间理解，但在需要推理的多步骤空间指代任务上可扩展性有限。因此，我们利用程序化生成的场景布局 [119]，并使用经过人工验证的资产 [120]（从 4.6 万减少至 3 千个），这些资产带有语义朝向标注 [7]。我们专门设计任务以促进多步骤空间指代，并生成相应数据。我们假设生成的代码反映了最优推理过程，将每一行代码转化为文本形式，并将中间结果（如坐标、距离）填入结构化格式中（如图 2、图 3 及附录 C.4.2 所示），从而生成带有推理标注的问答对。更多 RefSpatial 的示例请参见附录 E。

3.4 训练细节

我们采用 NVILA [37]（2B/8B 参数版本）作为基础模型，并通过监督微调（SFT）获得 RoboRefer-SFT。受限于计算资源，仅对 2B 模型应用了强化微调（RFT），得到 RoboRefer-RFT。SFT 分为两个阶段：第一阶段仅使用 RefSpatial 数据；第二阶段则在 RefSpatial、指令微调数据（规模为 RefSpatial 问答对数量的 1/20）[115, 116] 以及指代数据集 [74] 的混合数据上进行训练。值得注意的是，在第二阶段中，RefSpatial 数据同时以 RGB 和 RGB-D 输入形式重复使用，以促使图像编码器学习超越深度线索的空间理解能力。因此，最终模型同时支持仅 RGB 输入和 RGB-D 输入的推理，其中深度信息可选择性地通过相对深度估计模型 [59] 推断获得。最后，RFT 阶段使用 RefSpatial 中的多步骤推理数据进行训练。详细信息请参见附录 C。

4 实验

4.1 单步空间理解

我们在公开的单步空间理解基准上进行评估，包括 CV-Bench [15]、BLINK [16] 的验证集、RoboSpatial [2] 的配置部分、SAT [4] 以及 EmbSpatial [22]。更多评估细节请参见附录 D.2。以下部分将呈现我们的分析。

SFT 阶段实现了强大的空间理解能力。如表 1 所示，仅在 RefSpatial 上训练的 RoboRefer-SFT 在这些基准测试中超越了所有专用的空间理解模型，甚至在平均性能上比 Gemini-2.5-Pro 高出 5%（绝对值）。此外，我们的 2B 版本相比 NVILA-2B 提升了 21.7%（绝对值）。

推理时引入深度输入可提升 3D 空间理解能力。如表 1 所示，我们发现，在推理过程中加入深度信息后，模型在 3D 基准测试上的表现相比 2D 基准测试相对提升了 1.5%。尽管如此，得益于在 SFT 第二阶段同时使用 RGB 和 RGB-D 输入对 RefSpatial 数据集进行训练，我们的模型仅使用 RGB 输入时已展现出强大的空间理解能力。

4.2 多步空间指代
我们首先在当前的机器人指代基准上进行评估，包括 RoboRefIt [121]（定位任务）以及 Where2Place [5] / RoboSpatial [2]（放置任务），这些基准均限制在最多 2 步推理。为评估更复杂的多步空间指代能力，我们提出了 RefSpatial-Bench——一个基于真实世界杂乱场景的具有挑战性的基准。该基准包含两个子集：定位（Location）和放置（Placement），每个子集包含 100 张图像。值得注意的是，其中 77 张图像涉及在 RefSpatial 中未出现过的空间关系组合。超过 70% 的样本需要多步推理（最多达 5 步），并提供精确的真值掩码（ground-truth masks）。在评估指标方面，我们报告预测点落在掩码区域内的平均成功率。更多细节请参见附录 D.3。

RFT 阶段提升了模型的推理能力。如表 2 所示，2B-RFT 版本在所有基线模型中表现最佳，在 RefSpatial-Bench 上比此前的 SOTA 模型（Gemini-2.5-Pro [9]）高出 17.4%（绝对值）。我们发现，尽管 Gemini-2.5-Pro 在 2D 指代任务（例如颜色识别、图像空间定位）上表现优异，但在涉及距离的 3D 空间关系（例如识别“第二远的物体”）上存在困难，当多个空间约束条件组合时，其整体性能显著下降。图 4 展示了来自 RefSpatial-Bench 的复杂多步空间推理案例及不同模型的对比结果。

RFT 阶段提供了强大的泛化能力。在表 2 的 “RefSpatial-Bench -Unseen” 行中，我们评估了在 SFT/RFT 训练过程中未出现的新型空间关系组合。2B-RFT 模型比 2B-SFT 模型高出 9.1%（绝对值），表明 SFT 模型对训练分布存在过拟合，而 RFT 模型通过利用所学的空间知识实现了更好的泛化能力，这与先前的研究发现一致 [122]。图 4 展示了不同模型在这些未见过的空间关系组合上的结果。

4.3 公共视觉-语言基准测试

RefSpatial 提升了 2D 通用指代能力。我们还在 ReCOCO/+/g [74] 上评估了模型的 2D 指代能力。由于我们的模型预测的是单个点，若该点落在真值边界框内，则视为预测正确。由于该评估方式不同于标准的视觉定位（visual grounding）协议，我们还额外评估了 Qwen-2.5VL-72B [11]，将其预测点或预测框的中心作为基线进行比较。如表 3 所示，我们的方法优于这些基线，表明我们的数据集不仅支持 3D 空间指代，还能提升 2D 指代性能。

联合 RGB 与 RGB-D 训练保留了常识知识。在表 4 中，我们通过将 RoboRefer-2B-SFT 与在标准 VQA 数据集上训练的基线模型 NVILA-2B [37] 进行对比，评估空间和深度信息对整体 VQA 性能的影响。我们的模型取得了相当甚至略优的结果，这与 SpatialVLM [6] 和 SpatialRGPT [1] 的发现一致。这些结果表明，尽管视觉语言模型（VLMs）通常在空间推理方面存在困难，但通过针对性的空间 VQA 训练——尤其是结合 RGB 和 RGB-D 数据，并辅以通用视觉指令数据集——可以在不损害整体 VQA 性能的前提下增强空间理解能力。

4.4 机器人领域的仿真与真实世界评估

RoboRefer 可作为实用工具集成到机器人系统中。我们在 Open6DOR [53] V2 位姿赛道上对模型进行了评估，与基于 VLA 的基线方法（预训练的 Octo [123]、在 LIBERO 上微调的 OpenVLA [124]）以及 SoFar [7]（集成 Florence-2 [80]、SAM [65]、GPT-4o 和 GSNet）进行比较。RoboRefer 作为 Florence-2 和 GPT-4o 在物体定位与放置任务上的轻量级替代方案，通过预测单个目标点，在遮挡情况下缓解了 2D 检测的歧义性，使成功率绝对提升了 6.8%（见表 5）。其紧凑的模型规模还使执行时间相比 GPT-4o 减少了 27.5%。详见附录 D.4。

RoboRefer 提供的空间指代能力对真实世界机器人至关重要。如表 6 所示，只有我们的方法能够处理在杂乱且动态环境中需要复杂多步空间指代的长时程任务。这类任务极具挑战性，因为机器人必须精确识别物体及其放置位置，以满足可能随时间变化的空间约束。在图 5 中，将 RoboRefer 与开环策略结合后，系统可实现 2.5 Hz 的快速更新。例如，当离相机最近的杯子被移动后，机器人会自适应地抓取离杯子新位置最近的汉堡；同时，在泰迪熊旋转 90° 后，机器人也能重新调整放置位置，以保持正确的空间对齐。值得注意的是，空间指代将操作（manipulation）与导航（navigation）统一于同一框架之下。这使得 G1 人形机器人能够在执行具有空间约束的抓取与放置动作的同时进行导航（见图 1），从而完成更复杂的长时程任务。更多细节请参见附录 D.5。

4.5消融研究

数据构建流程对 SFT 训练至关重要。表 7 中的消融实验结果表明，结合 2D、3D 和模拟数据可获得最佳性能。如第 3.3 节所述，2D 数据覆盖室内外场景，支持跨尺度的深度学习；若移除 2D 数据，模型在以室外场景为主的 BLINK [16] 基准上性能显著下降。同时，3D 数据捕捉了具身化的室内环境，有助于缓解仿真到现实（Sim2Real）的差距，从而提升在以室内场景为主的 CV-Bench [15] 上的表现。最后，模拟数据拓展了空间关系的多样性。因此，这种三元数据构成是实现高效 SFT 训练的关键。

专用深度编码器有助于保留图像理解能力。我们在 SFT 阶段对比了专用图像-深度编码器与共享编码器。如表 4 所示，在 RGB-only 数据有限（仅为 RefSpatial 问答对数量的 1/20）的情况下，专用编码器能更好地维持图像理解能力，而共享编码器则损害了整体性能。尽管先前工作 [1] 采用了共享编码器，但其（1）在联合训练中所需的 RGB-only 数据量超过空间相关数据两倍以上；（2）针对的是区域级深度，而我们的方法采用全图深度估计，二者存在差异。

深度编码器同时提升了空间理解与推理能力。近期的视觉语言模型（VLMs）[3, 94] 表明，大规模空间训练可使模型仅从图像中隐式学习 3D 理解能力（例如深度、距离、3D 边界框）。为验证这一点，我们在不使用深度编码器的情况下，仅用 RefSpatial 对 NVILA-2B [37] 进行微调，随后继续进行 RFT。结果表明，引入深度信息可提升单步空间理解能力，这与 MM-Spatial [3] 的结论一致；并且在多步空间指代任务中带来更大的性能增益。我们认为原因在于：（1）空间指代任务需要精确的坐标预测，而不同于 VQA 的多项选择形式；（2）多步推理过程中，深度线索的作用会随步骤累积而被放大。

过程奖励（process reward）提升了中间感知步骤的准确性。表 7 显示，引入过程奖励后性能提升了 5 个百分点。该方法利用 RefSpatial 中的关键步骤标注，对逐步感知过程进行优化，从而在涉及复杂空间关系时预测出更准确的目标点。

5 结论
本文提出了 RoboRefer，一种新颖的具备 3D 感知能力的视觉语言模型（VLM），通过结合单步精准的空间理解与多步空间推理，有效解决了空间指代问题。具体而言，我们通过监督微调（SFT）引入独立的深度编码器以增强 3D 感知能力，并通过强化微调（RFT）结合我们提出的度量敏感型过程奖励函数，实现了通用的多步空间指代能力。我们还发布了 RefSpatial——一个大规模、精心构建的数据集，专为 SFT 和 RFT 训练设计，并配套提出了 RefSpatial-Bench 基准，专门用于评估空间指代性能。大量实验验证了 RoboRefer 的有效性，并凸显了其在广泛机器人应用场景中的潜力。

原文链接：https://arxiv.org/pdf/2506.04308