谢赛宁：Thinking in Space

AI寒武纪

2024-12-23 11:36 ·江苏

视频理解被视为人工智能领域的新前沿，但你是否想过，并非所有视频都是一样的？纽约大学谢赛宁（Saining Xie）在最新研究中提出了一个令人耳目一新的视角：我们的日常空间——那些我们与未来的AI助手共同体验和探索的地方——是否也能被人工智能真正理解？答案或许隐藏在他们的最新研究 “Thinking in Space” 中

空间智能：人类的天赋，AI的短板

在视觉领域，人工智能已经能够“处理”空间，但它们很少“推理”。而多模态大语言模型（MLLMs）虽然善于推理，却常常忽略了空间逻辑。相比之下，人类在日常生活中无时无刻不依赖空间和视觉思维：从旋转脑海中的家具布局到为新家挑选合适的沙发，这种能力是我们天生的本领，但对于AI来说却是一个未解的谜题

打造新基准：用视频重新定义空间推理

为了探索这一难题，谢赛宁团队构建了一个全新的基准，涵盖多种视觉-空间智能任务，包括关系推理和测量推理。他们选择视频作为研究媒介，因为视频最贴近人类感知世界的方式，同时也对AI提出了更高的长时推理和世界建模要求

数据从何而来？研究团队别出心裁地利用现有的空间扫描视频（原用于3D重建），并通过这些视频的真实标注数据自动生成视觉问答（VQA）问题。尽管生成过程自动化程度高，研究者仍引入人工质检，确保问题的质量。最终，他们获得了超过5000对问答数据，为AI模型提供了一个全新的挑战

AI的表现如何？

测试结果显示，尽管当前的MLLMs在视觉-空间智能上表现出色，但仍未达到人类水平。其中，Gemini Pro模型表现最佳，但与人类的能力仍有明显差距。这并不意外：即便是人类，在面对复杂空间任务时也可能迷失方向，但我们能够通过调整心智模型来克服这些挑战，而AI目前还做不到

AI的短板：空间推理的瓶颈

研究的一大亮点是分析AI在空间任务中的具体弱点。实验表明，空间推理而非物体识别或语言能力，才是MLLMs的主要瓶颈。例如，模型在处理视角转换、从自我视角到全局视角的转变，以及长时间跟踪物体时表现不佳

此外，常见的语言提示技术（如链式推理或多数投票）在这些任务中反而适得其反， 进一步证明了语言智能与视觉-空间智能的本质区别

空间记忆的挑战：局部模型与整体认知的断层

团队还通过一个创新实验让模型在笛卡尔网格上“可视化”其记忆，结果显示，MLLMs在处理空间信息时，会构建一系列局部化的世界模型，而非一个连贯的整体模型。当问题涉及距离较远的物体时，模型的表现迅速下降。这一发现揭示了未来研究的关键方向：开发更有效的空间记忆机制

参考：

https://vision-x-nyu.github.io/thinking-in-space.github.io/

https://arxiv.org/abs/2412.14171

https://github.com/vision-x-nyu/thinking-in-space

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴