Spatial Mental Modeling from Limited Views
从有限视角构建空间心理模型
https://arxiv.org/pdf/2506.21458
重点概述
本文探讨了视觉-语言模型(Vision-Language Models, VLMs)如何从有限的视觉输入中构建空间心理模型(Spatial Mental Models),以实现对不可见空间、视角转换和动态模拟的推理。论文受认知科学启发,认为人类通过整合碎片化观察形成灵活的“认知拼贴”(cognitive collages)而非精确地图,从而在不完整信息下进行空间推理。VLMs 在此类任务上表现极差(接近随机),本文通过引入新基准和认知启发式支架(scaffolds)来诊断问题并提出改进方案。
主要贡献
- 提出 MINDCUBE 基准
:一个专门评估 VLMs 在有限视图下空间心理建模能力的基准数据集。
- 位置认知映射
(cognitive mapping):推理不可见物体位置。
- 朝向与视角采取
(perspective-taking):从自身或其他视角描述场景。
- 动态心理模拟
(mental simulation):“what-if”场景,如代理旋转或移动后可见物体变化。
包含976 个多视图组、3,268 张图像、21,154 个问答题。
数据来源:ArkitsScenes、DL3DV-10K 和自采集数据。
问题类型覆盖:
相机运动类型:ROTATION(原地旋转)、AMONG(在物体间环绕)、AROUND(围绕物体环绕)。
问题涉及遮挡、复杂关系(agent-agent、agent-object、object-object)、序列动态等。
提供 MINDCUBE-TINY 子集(1,050 个问题)用于快速实验。
资源公开:网站、代码、数据集(Hugging Face)、模型检查点。
- 评估现有 VLMs 的表现
测试了 17 个主流 VLMs(包括开源如 DeepSeek-VL2-Small,闭源如 GPT-4o,专用空间模型如 SpaceMantis)。
最佳模型准确率仅47.62%(DeepSeek-VL2-Small),多数接近随机水平。
人类表现:94.55%。
分析发现:遮挡、非线性相机运动、高角度视图等显著降低性能;纯文本描述输入进一步恶化结果;VLMs 在属性一致性、数量推理上不稳定。
- 提出三种认知启发式支架(Scaffolds)
,模拟人类空间认知过程:
- 增强版(Augmented CGMap)
:包含相机位置和朝向。
- 简版(Plain CGMap)
:仅物体位置和朝向。
- 视图插值(View Interpolation)
:在输入视图间插入合成中间帧(使用 Stable Virtual Camera 等工具),试图动态更新心理模型。实验证明几乎无帮助。
- 自由形式推理(Free-Form Reasoning, Chain-of-Thought)
:让模型逐步推理(先单视图观察 → 跨视图整合 → 问题引导推理)。轻微提升(+2.7%)。
- 认知地图(Cognitive Maps)
:让模型生成结构化 2D 鸟瞰图(10x10 网格,JSON 格式),记录物体位置和朝向。
关键发现:单纯输入预计算地图无效;“先地图后推理”(map-then-reason)组合最有效——模型先生成地图,再基于地图进行自由推理。
- 模型训练与优化
奖励设计:地图有效 +1 分,答案正确 +5 分。
从 SFT 检查点启动,进一步提升到70.67%(总提升 +32.9% 从基线)。
从零开始 RL 效果有限,说明 SFT 初始化至关重要。
使用 10,000 条模板生成的认知地图和 10,000 条推理链进行训练。
单独训练地图或推理效果有限;联合“map-then-reason”提升显著(从 52.28% 到60.76%,+8.48%)。
生成地图质量高(相似度 >90%,同构率 >89%)。
- 基模型
:Qwen2.5-VL-3B-Instruct。
- 监督微调(SFT)
- 强化学习(RL,使用 VAGEN + GRPO)
瓶颈分析:语言模型部分是主要限制,视觉编码器微调无额外增益。
冻结模型下:外部支架(如插值)无效,内部生成+推理组合最佳(+3.62%)。
训练后:内部结构化表示(认知地图)+灵活推理协同作用远超单一方法。
地图评估指标:有效性(Valid Rate)、方向相似度、朝向相似度、整体相似度、同构率(Isomorphic Rate)。
失败案例:模型常在复杂遮挡、旋转敏感性、关系推理上出错。
核心洞见:
VLMs 缺乏内在空间模型,过度依赖直接视觉输入。
- 内部自生成表示 + 主动推理
是提升不可见空间理解的关键。
外部辅助(如插值帧或预计算地图)不如让模型主动构建内部表示有效。
强化学习可进一步精炼 SFT 学到的支架。
论文强调,VLMs 当前的空间推理仍远低于人类,MINDCUBE 基准暴露了这一差距。通过让模型学习生成并利用认知地图进行推理,可以显著逼近人类式的空间心理建模。未来方向包括:更大规模高质量地图/推理数据、更好 RL 策略、引入几何先验等新型范式,实现“1+1>2”的空间智能涌现。
总体而言,本文将认知科学中的空间心理模型理论成功迁移到 VLMs,提供了诊断工具(基准)、解释性分析和实用改进路径(map-then-reason + SFT/RL),对多视图理解、具身智能、3D 推理等领域具有重要参考价值。
视觉语言模型(VLMs)能否仅从几个视角就想象出完整的场景,就像人类一样?人类会形成空间心理模型,即对未见空间的内部表征,用于推理布局、视角和运动。我们的新基准测试M I N D C U B E包含3,268张图像上的21,154个问题,揭示了现有VLMs在这方面的关键差距,其表现近乎随机。通过M I N D C U B E,我们系统地评估了VLMs在构建稳健空间心理模型方面的能力,包括表示位置(认知制图)、方向(视角转换)和动态(用于“假设”运动的心理模拟)。我们还探索了三种方法来帮助VLMs近似空间心理模型,包括未见中间视角、自然语言推理链和认知地图。最大的改进来自一种协同方法“先制图后推理”,该方法联合训练模型首先生成认知地图,然后在此基础上进行推理。通过训练模型在这些内部地图上进行推理,我们将准确率从37.8%提高到60.8%(+23.0%)。加入强化学习后,性能进一步提升至70.7%(+32.9%)。我们的关键见解是,通过积极构建和利用内部结构化空间表征,并结合灵活的推理过程来构建空间心理模型,可以显著提高对不可观测空间的理解。
1. 引言
为了让视觉语言模型(VLMs)[1, 2, 3, 4] 超越被动感知 [5, 6, 7],能够在部分可观测的环境中进行交互 [8, 9, 10],从有限视角推断未见空间关系是至关重要的。想想人类是如何轻松地通过几次以自我为中心的观察来推断房间的布局或家具后面的隐藏物体的。例如,如图1中的第二个视角所示,人类可以轻松推断出“植物”后面的未见物体是“纸巾盒”和“洗手液”,包括它们的位置、姿态以及与不可同时看见的物体之间的关系。我们人类会构建并更新周围环境的心理模型,即使物体不在视野内。这得益于一种核心认知功能,称为空间心理模型 [11, 12]:一种内部环境表征,允许对空间进行连贯的理解和推理,而与当前视角无关。
尽管视觉语言模型取得了令人印象深刻的进展,但它们在从有限视角综合空间信息、跨视角保持空间一致性以及推理未直接可见的物体方面仍存在困难 [13, 14, 15, 16]。
这一差距需要专门的评估设置,必须包括:(a)使用部分观测进行推理,其中物体被遮挡或不在视野内(例如图1中第二个视角中的“洗手液”);(b)在变化的视角之间保持跨视角一致性(例如通过锚点物体“植物”);(c)心理模拟以推断隐藏的空间关系(例如“如果向左转并向前移动”)。为了填补这一空白,我们引入了M I N D C U B E,它包含21,154个问题和3,268张图像,通过各种类型的视角变换(即图2中的R O T A T I O N、A M O N G、A R O U N D)组织成976个多视角组。我们专注于在当前查询视角中不可见的物体来标注问题。
如图2所示,我们系统地设计了需要从给定视角进行“假设”心理模拟的问题类型(例如“如果向左转”)、视角转换(例如“如果从沙发的视角看”)以及复杂关系推理查询(涉及代理或其它物体)。
我们对17种最先进的视觉语言模型(VLMs)在M I N D C U B E上的广泛评估揭示了一个事实:无论是开放权重模型还是闭源模型,其表现仅略好于随机猜测。这种糟糕的表现激发了一个核心问题:我们如何帮助VLMs从部分观测中进行推理?
受空间认知的启发,空间认知通过视觉图像、语言推理或明确的认知地图来构建不同视角下连贯的空间意识,我们研究了三种方法,以确定中间表征是否可以帮助VLMs近似心理模型。视图插值通过记录的视频在给定观测之间生成中间视图,但出乎意料的是,这种方法并无帮助,这凸显了直接从有限视角进行推理的重要性。自由形式的自然语言推理将心理模拟过程转化为语言表达,实现了性能提升(+2.7%)。结构化的认知地图从一个以自我为中心(鸟瞰)的角度模拟全局空间记忆,并带有方向和视角增强。有趣的是,直接向模型提供用于回答问题的真实认知地图并不能带来显著改进(-5.81%),只有积极地利用地图进行推理才能实现显著改进(+3.62%)。尽管在地图上的推理是有效的,但VLMs在准确构建心理模型的内在能力上存在显著瓶颈,这从生成过程中与真实地图的同构率低(<10%)中得到了证实。
鉴于这一限制,我们通过构建10,000条推理链和10,000张真实认知地图来训练VLMs,研究如何通过注入这些训练信号来有效地引导它们的思维过程。在认知地图上的自监督微调(SFT)显著提高了同构相似性,从增强设置的0.1%提升到46.0%,从普通设置的7.4%提升到73.8%。尽管在自由形式的推理链上进行SFT被证明更有效,提升了1.2%,但引导模型首先构建认知地图,然后在它们之上进行自由形式推理,实现了显著更好的性能,总提升达到+8.5%,这证明了通过积极构建和利用内部结构化空间表征,并结合灵活的推理过程来构建空间心理模型是非常有效的。
我们使用强化学习(RL)进一步提升SFT后的性能,通过在RL训练之前注入结构化思维来引导模型构建和推理认知地图,使用我们的SFT模型。这种方法带来了显著的改进,将任务准确率从37.8%的基础水平提升到70.7%。我们的实证证据证实了一个关键发现:与传统的视图插值或外部提供的地图等方法相比,VLMs在空间推理任务中表现出色,当它们自主生成并利用内部心理表征时。
2. M I N D C U B E基准测试与评估 2.1. M I N D C U B E基准测试
概述
我们介绍了M I N D C U B E,这是一个用于评估视觉语言模型(VLMs)在部分观测和动态视角下的空间推理能力的基准测试。M I N D C U B E包含多视角图像组和空间推理问题,能够对空间建模性能进行细致分析。它针对的关键挑战包括在不同视角下保持物体一致性以及对被遮挡或不可见元素进行推理。表1(左侧)总结了基准测试的整体数据分布。基准测试的设计、分类和策划的详细信息在附录A和B中提供。
分类
为了对VLM的空间推理能力进行细致分析,我们引入了一个分类体系,系统地对M I N D C U B E中的挑战进行分类(如图2所示)。该分类体系涵盖五个关键维度:1)相机运动:我们主要收集了三种类型的相机运动:R O T A T I O N(保持原位但旋转以环顾四周)、A R O U N D(围绕被评估物体做圆形运动)和A M O N G(在被评估物体之间做圆形运动)。2)视觉模式:这描述了物体的空间配置,包括空间线性或非线性排列。3)“假设”动态:对代理视角应用的假设性变换,例如平移、旋转或它们的组合(同时和顺序)。4)关系查询:被查询的空间关系类型,包括代理-物体、代理-代理或物体-物体。5)视角转换:空间推理是否基于感知者自身的视角(自我)或涉及采用另一个实体的视角(其他)。详细定义可在附录A中找到。
2.2. 数据集策划
M I N D C U B E数据集是通过一个流程创建的:我们首先选择了符合我们分类体系的运动模式(图2)和空间标准的多视角图像组。然后,我们对这些图像组进行了关键空间信息的标注。最后,我们通过算法生成了与分类体系对齐的问题,并加入了针对性的干扰项。详细信息包含在附录A.1中。
3. 哪种框架最适合指导未改变的VLMs进行空间思考?
为解决已识别的差距,我们首先评估了在有限视角下,通过近似空间心理模型,结构化数据形式是否可以作为未改变的VLMs进行空间推理的框架。
3.1. 数据结构作为空间心理模型的认知框架
我们研究了某些数据结构是否可以作为认知框架,帮助VLMs从有限的视觉观察中形成空间心理模型。在认知科学中,空间心理模型是内部表征,编码物体和视角的相对配置。它们并非精确的度量地图,而是示意性的、可操作的构建,支持跨越碎片化观察和未见视角的推理 [12, 31, 32, 33]。例如,人类可以心理模拟转动或推断背后的东西,这表明这种表征是灵活的、不完整的,但功能上是有效的。借鉴这些文献,我们在下面定义了三种数据结构(详细介绍可在附录C.1中找到),每种结构针对空间心理模型的不同认知属性(整合、转换、推理),并在图3中提供了具体示例:
视图插值。在稀疏的相机视图之间进行插值,引入了感知连续性,呼应了心理动画的过程 [34],并支持内部转换,例如想象中的旋转。这种结构支撑了空间心理模型的动态更新能力。图3展示了一个单帧插入的示例,用以替换原始问题图像。
增强型认知地图。认知地图是空间中物体布局的二维示意性表征。这种地图类似于Tversky的认知拼贴 [31],它们捕捉局部连贯但碎片化的结构。最近关于基于VLM的空间智能的研究 [8, 35] 通常采用一种仅在俯视图中编码物体位置的普通形式。我们提出了一个增强型变体,它结合了离散视图,物体和视图都通过位置和方向进行标注,从而接近空间心理模型的关系一致性。
自由形式推理。开放式的、逐步的自然语言推理提供了空间模型构建和查询的过程性近似。与地图式结构相比,这种推理较为灵活,但它反映了空间心理模型的推理功能,尤其是在模糊或不完整的观察下 [32]。
我们进行控制实验,使用固定的输入格式来测试结构化框架是否可以在不重新训练的情况下提供帮助。每种条件引入不同的结构,以支持在有限视角下的内部建模。
模型和评估数据
我们使用Qwen2.5-VL-3B-Instruct [3] 进行所有实验。我们的评估在M I N D C U B E - T I N Y上进行,这是从M I N D C U B E中抽样的一个诊断子集,总共包含1,050个问题。详细统计数据如下:600个来自A M O N G,250个来自A R O U N D,200个来自R O T A T I O N。
配置
每个实验由两个正交轴定义:输入结构(VLMs接收到的空间证据)和输出格式(所需响应类型)。作为本文的实验基础,我们从表2中列出的十种可能配置开始,从中调查一个代表性子集。具体来说,我们的增强型认知地图是使用第2.1节中描述的物体排列注释生成的,所有配置的示例均在附录C.3中提供。在未改变的VLMs评估设置中,我们排除了Aug-CGMap-Out和Plain-CGMap-Out设置,因为即使被指示不要混淆,VLMs也倾向于将地图生成与推理混为一谈。
评估指标
我们使用问答准确率来评估任务表现。对于生成的认知地图,我们引入了一套明确定义的图指标:(1)有效认知地图率,表明输出是否符合预期的模式;(2)总体相似度,一个结合方向一致性和朝向一致性的加权分数;(3)同构率,衡量在最优对齐下,所有成对物体关系是否与真实值匹配。完整定义在附录C.2中提供。
3.3. 框架能否在无需训练的情况下改善空间推理?
我们在表2中定义的七种输入配置下,评估了这些配置在有限视角下对VLMs空间推理的支持效果,且不进行任何模型更新。结果如表3(左侧)所示。
仅靠结构能走多远?我们从基线开始:原始输入视图和直接回答(Raw-QA),其准确率为37.81%。加入插值视图,我们希望借此模拟更平滑的感知过渡,但并没有带来实质性的提升(↑0.09%)。同样,将预先计算好的增强型认知地图作为直接输入(Aug-CGMap-In)会严重降低性能,降至32.00%。相比之下,仅启用自由形式推理(FF-Rsn)或与其他设置结合(Aug-CGMap-FFR-Out、Plain-CGMap-FFR-Out、CGMap-In-FFR-Out)则显著提升了准确率,达到41.33%。这些结果表明:仅靠结构本身,无论是视觉结构还是空间结构,都是不够的。如果不进行推理,VLMs很难利用即使是良好构建的空间线索。
我们能否引导模型进行空间思考?答案似乎是肯定的。提示模型在回答之前生成认知地图(Aug-CGMap-FFR-Out、Plain-CGMap-FFR-Out),相较于仅进行自由形式推理(FF-Rsn),准确率从40.48%提升至41.43%。这表明生成地图可能会促使模型首先形成对场景的全局理解,从而支持更结构化的推理。两种地图形式都具有很强的格式遵循能力,但在生成准确地图方面却表现不佳。总体而言,增强型地图表现更差。在表3(右侧),尽管两种格式的地图在语法上都是有效的,但与真实地图的相似度很低(<50%),反映出有限的地图生成能力。值得注意的是,增强型地图和平面地图的同构率都很低(0.10%、7.43%)。增强型地图设置的同构率近乎为零,可能是因为添加的视图级细节增加了生成错误。详细的案例示例可在附录D中找到。
4. 我们能否教会VLMs构建和利用空间表征?
到目前为止,通过外部框架(如插值视图或认知地图)提示冻结的VLMs只取得了有限的收益。这些技术未能解决核心限制:VLMs无法有效形成内部空间表征或通过空间进行推理。为了更进一步,我们想知道:监督式微调(SFT)能否教会VLMs从内部构建和利用空间模型?
4.1. 设计一个稳健的实验框架
为了确保一致性和可比性,我们继承了第3.1节和第3.2节中详细描述的实验配置。具体来说,我们保留了:(1)两种有效的数据结构——认知地图(仅物体 / 物体 + 相机)和自由形式推理,(2)基础模型Qwen2.5-VL-3B-Instruct,(3)评估基准M I N D C U B E - T I N Y,以及(4)所有既定的评估指标。由于在早期验证中表现有限,视图插值被排除在我们的微调实验之外。在这一SFT阶段的主要修改包括调整了训练超参数(详细信息见附录E.2)和输入输出配置。
SFT任务配置
借鉴第3.3节的见解,我们使用表2中选定的配置来评估认知地图生成和自由形式推理在SFT中的增量影响。这些配置包括没有明确推理的基线问答(Raw-QA)、仅由生成的地图引导的推理(Plain-CGMap-Out、Aug-CGMap-Out)、推理增强提示(FF-Rsn)以及一个完全集成的设置,要求VLMs同时生成地图和推理(Aug-CGMap-FFR-Out和Plain-CGMap-FFR-Out)。
基于真实数据的认知地图生成
基于真实数据的认知地图不仅在第3.2节中作为冻结VLMs的Aug-CGMap-In和CGMap-In-FFR-Out设置的输入,而且在SFT中也作为训练和比较数据。我们通过基于模板的方法策划这些基于真实数据的认知地图,始终选择我们注释中的前视图作为“上方”方向。详细的注释算法可在附录E.1.1中找到。
基于真实数据的自由形式推理链生成
我们使用详细的图像注释和结构化的问题模板设计基于真实数据的推理链。这些链通过基于模板的方法手动构建,确保逻辑连贯并清晰地基于可观察的空间关系(见图3中的示例)。这产生了精确且可解释的监督信号,帮助VLMs学习稳健的空间推理表征。详细的基于真实数据的推理数据生成流程在附录E.1.2中展示。
4.2. VLMs是否真正从空间推理的显式训练中受益?
我们探索了几种监督式微调(SFT)配置(结果见表4),这些问题由一系列核心问题指导。直接在原始问答对上进行微调,而没有空间监督,准确率从37.81%提升到52.28%。这表明VLMs可以从问答数据本身吸收一些空间线索。我们使用这种设置作为评估显式引入空间结构方法的基线。
仅靠心智模型的结构化近似能否显著提升性能?如表2所示,对明确的认知地图(无论是增强型还是普通型)进行监督式微调,可以显著提升图结构的质量,在总体相似度和同构率方面都有超过30%的提升。然而,对最终任务准确率的影响仍然有限。增强型地图(54.19%)和平面地图(54.38%)相比微调后的原始问答(52.28%)只有小幅提升。同样,直接进行自由形式推理(FF-Rsn)也只带来了微小的提升(51.09%)。这意味着仅靠框架本身不足以自动转化为性能提升。
生成认知地图和自由形式推理是最有效的近似方法。
在所有配置中,生成普通地图然后进行推理的组合(Plain-CGMap-FFR-Out)取得了突出的性能提升(60.76%,相比Raw QA-SFT提升了8.48%),超过了仅依赖地图生成或单独推理的模型。这表明结构化的空间建模与自然语言推理之间存在强大的协同作用。为什么这种组合效果如此之好?首先,任务准确率的提升伴随着高质量的空间表征。例如,表现最佳的Plain-CGMap-FFR-Out模型实现了出色的地图质量(88.79%的相似度和73.81%的同构率),显示出其增强的准确率与其内部空间模型之间的强关联。此外,训练动态揭示了一个关键的权衡,解释了这种协同作用。如图4(b、c)所示,仅在地图生成上训练的模型(Plain-CGMap-Out)非常迅速地学会了目标结构,迅速达到近乎完美的相似度和同构率。然而,它们的问答准确率很快趋于平稳(图4a),这表明模型学会了结构,但没有完全掌握其功能用途。相比之下,表现最佳的Plain-CGMap-FFR-Out模型学习地图结构的速度更慢,且从未达到相同的结构完美程度。然而,其问答准确率持续上升,最终超过了所有其他配置。这表明推理任务的联合压力迫使模型不仅仅复制一个结构,而是构建一个功能有效的空间表征,这种表征是为了下游推理而优化的。
关键要点:教会视觉语言模型(VLMs)进行空间推理
联合认知地图和推理设置通过协同效应产生最佳性能。
推理塑造了空间表征的功能实用性,而不仅仅是结构上的完美。
无论是地图生成还是推理单独进行,都未能大幅超越监督式微调问答(SFT QA)的基线。
5. 强化学习能否进一步优化空间思维过程?
虽然监督式微调(SFT)为空间推理建立了强大的基线,但像DeepSeek R1 [36, 37]这样的模型的新兴证据表明,强化学习(RL)可以通过结果驱动的反馈优化行为,从而提供额外的收益。我们提出问题:奖励引导的精细化能否帮助视觉语言模型(VLMs)构建更精确的空间模型并更有效地进行推理?
5.1. 实验设置
我们采用VAGEN框架[38]进行视觉语言模型策略优化,使用组相对策略优化(GRPO)[39]作为核心算法。为了管理计算成本,我们每个配置只训练0.5个周期。为了公平比较,RL设置保留了SFT阶段的所有关键组件,包括基础模型、空间输入格式、基准数据集(M I N D C U B E - T I N Y)和评估指标,详见第3.1节和第3.2节。更多细节见附录F.1。
任务配置和奖励设计
我们评估了三种RL变体:(1)RL-FF-Rsn(从头开始),训练Qwen2.5-VL-3B-Instruct生成自由形式推理链;(2)RL-Aug-CGMap-FFR-Out(从头开始),训练模型联合生成认知地图和推理;(3)RL-Aug-CGMap-FFR-Out(从SFT开始),从最强的SFT检查点初始化。奖励函数是稀疏但有针对性的:结构有效输出+1分,正确答案+5分。
5.2. 强化学习能否释放近似空间心理建模的力量?
强化学习(RL)让模型通过奖励感受到其空间思维的后果,但仅凭这种反馈是否足以锻造出真正的“心理地图”,还是我们必须首先教会模型地图的样子?表5总结了三个关键设置,并分两部分回答了这个问题。
在真空中进行RL是不够的。从零开始训练,使用稀疏奖励,对于构建稳健的空间表征提供的指导不足。当要求模型产生自由形式推理(从零开始的RL-FF-Rsn)时,模型的整体准确率仅为50.57%。虽然这个结果比初始基线有所提高,但证实了仅靠任务级别的奖励本身过于无结构,无法有效地教授空间抽象。
从头开始学习时,结构化输出提供了适度的好处。引入认知地图结构供策略生成,为其推理提供了框架。从头开始时,更简单的RL-Plain-CGMap-FFR-Out配置(53.71%)在问答准确率上略胜其增强型对应配置(52.19%)。然而,在这两种情况下,模型都无法学习到有意义的几何结构,相似度得分低,同构率接近零。这表明,如果没有“好”地图的先验概念,RL很难利用所提供的结构格式,即使它能学会有效地填充它。
当站在SFT构建的框架上时,RL大放异彩。最显著的改进发生在从最优SFT检查点热启动RL时。RL-Plain-CGMap-FFR-Out(从SFT开始)及其增强版本都达到了相同的、令人印象深刻的70.67%整体问答准确率。这代表了比最佳SFT模型绝对提高了9.91%,比最佳从零开始的RL方法提高了16.96%。至关重要的是,尽管两个模型都达到了相同的峰值准确率,但它们潜在的空间表征却有所不同。Plain-CGMap变体产生了几何上更优越的地图,具有更高的整体相似度(85.79%)和高得多的同构率(71.52%对比58.86%)。这表明,尽管RL微调可以引导不同的初始模型达到相同的推理熟练度,但从更干净、更简单的SFT框架(Plain)开始,可以让RL更好地保留和完善几何上合理的内部地图。
这些结果强烈表明,RL在这里的主要作用是(1)打磨和完善在SFT期间学到的强先验,以及(2)提高SFT的性能上限,使模型能够突破以前的瓶颈,达到接近神谕级别的性能。
关键要点:空间推理的强化学习
结合认知地图与推理始终能一致性地改善所有学习成果。
从头开始,强化学习(RL)对空间推理仅提供边际增益;当建立在强大的监督式微调(SFT)基础上时,其真正力量才会被释放。
6. 相关工作
空间认知
空间认知包括心理旋转、空间可视化和物体组装等技能,对于在二维和三维环境中感知和操作空间关系至关重要 [40, 19, 41]。这些能力的核心是空间心理模型(SMMs)[11, 12],它们是内部表征,允许对空间有一致的理解。最近,许多努力致力于评估VLMs中的空间认知 [42, 13, 18, 43]。此外,一些方法被提出以增强空间理解,如坐标感知提示 [44]、思维链(CoT)推理 [10, 45]、显式空间表征对齐 [46, 29] 和基于RL的方法 [47]。然而,现有的基准测试 [18, 42, 48, 49, 43, 13, 17, 50, 51, 8, 52] 和方法往往忽视了支撑人类认知的心理层面的空间推理,留下了机器与人类能力之间的差距。为了弥合这一差距,需要一种新的方法,训练VLMs不仅通过视觉数据,而且通过心理层面的空间推理来推理空间,更紧密地与人类空间认知对齐。
多视角理解
多视角空间理解利用多个视角重建三维结构,克服单视角限制。高效的技术优化视角处理,而重建方法[53, 54, 55, 56]、视角合成方法[57, 58, 59]和多视角等变学习[60]增强几何一致性。拓扑表示如[61]编码对象关系以进行整体推理,而框架如[62]通过神经场和视觉语言融合,从多视角数据中推进开放词汇概念学习。增强了多视角输入的LMMs[63, 30, 64, 65, 18, 66, 67]在空间任务如几何理解和视角转换方面表现出显著的改进,但它们仍然在多视角一致性理解方面挣扎,由于碎片化推理和二维到三维投影的歧义,留下了稳健空间AI的关键差距。
7. 结论和未来影响
我们引入了M I N D C U B E来研究VLMs如何从有限视角近似空间心理模型,这是在部分可观测环境中推理的核心认知能力。超越基准测试,我们探索了如何通过结构化数据和推理来支撑内部表征。我们的关键发现是,构建和推理自生成的认知地图,而不是依赖视图插值或外部提供地图,是在所有引导方法(输入输出配置、监督式微调和强化学习)中对空间心理模型最有效的近似。
从一个训练有素的SFT检查点初始化RL进一步优化了这一过程,将空间推理性能推向了新的极限。
未来影响
我们的工作确立了结合认知地图生成与推理来模拟空间信息是最有效的。我们相信,一旦为认知地图生成和推理建立了高质量的SFT数据集,就可以利用RL进一步推动性能边界。我们期待探索旨在释放更大协同效应的新型训练范式,从而在空间智能上实现“1+1>2”的影响。
原文链接:https://arxiv.org/pdf/2506.21458
热门跟贴