谢赛宁、李飞飞「空间智能」新作：多模态大模型仍难突破空间推理|推理|李飞飞|模态|空间智能|谢赛宁

人类拥有视觉空间智能，可以通过连续的视觉观察记忆空间。然而，在百万规模的视频数据集上训练的多模态大语言模型（MLLMs）也能从视频中进行“空间思维”吗？

今日凌晨，纽约大学计算机科学助理教授谢赛宁团队联合“AI 教母”、斯坦福大学首位红杉讲席教授李飞飞和耶鲁大学计算机科学与经济学本科生 Rilyn Han，在一项名为“空间思维”（Thinking in Space）的研究中，探索了 MLLM 如何看见、记忆和回忆空间。

他们发现，虽然空间推理能力仍然是 MLLM 达到更高基准性能的主要瓶颈，但在这些模型中确实出现了局部世界模型和空间意识。

谢赛宁在 X 上发文称，“在视觉方面，人类处理空间，但很少推理；多模态大语言模型思考，但往往忽略空间逻辑。然而，作为人类，从进行心智旋转测验到为新家挑选家具，人类都依赖于空间和视觉思维，但这些思维并不总能很好地转化为语言。”

先看看官方给出的 demo：

视频以 2 倍速播放

基于以上视频中的情景，研究团队测试了 Gemini-1.5 Pro 的空间智能能力，结果发现，Gemini-1.5 Pro 无一答对。以下是一些问答案例：

问：如果我站在冰箱旁，面对着洗衣机，那么炉子在我的左边、右边还是后面？如果我至少要转 135 度才能面对一个物体，那么它就在我的后面。

问：从每个物体的最近点测量，哪个物体（桌子、凳子、沙发、炉子）离电视最近？

问：以下类别在视频中的首次出现顺序是什么：毯子、垃圾桶、微波炉、植物？

值得注意的是，目前流行的语言推理技术（如思维链、自洽性、思维树）无法提高空间推理能力，而在问答过程中明确生成认知地图可提高 MLLM 的空间距离能力。

据介绍，研究团队通过研究涵盖各种视觉空间智能任务（包括关系任务和度量任务）的新基准来探索这一问题。视频是一种天然的媒介——它反映了人类体验世界的方式，并要求较长形式的推理（以及世界建模）。

那么，他们究竟是如何获得数据和标注的呢？在先前计算机视觉工作的基础上，他们重新利用了现有的空间扫描视频，并利用其 ground-truth 标注自动生成 VQA 问题。人类仍在环路中进行质量控制。

他们提出了一个新颖的基于视频的视觉空间智能基准（VSI-Bench），通过 5000 多个问答对，他们发现 MLLM 显示出具有竞争力的视觉空间智能，尽管仍低于人类。Gemini Pro 模型表现最佳，但与人类的表现仍有差距。虽然这对人类来说也并非易事（我们有时确实会迷失方向），但人类可以调整和完善我们的心智模型，而目前的 LLM 却无法做到这一点。