打开网易新闻 查看精彩图片

视频理解被视为人工智能领域的新前沿,但你是否想过,并非所有视频都是一样的?纽约大学谢赛宁(Saining Xie)在最新研究中提出了一个令人耳目一新的视角:我们的日常空间——那些我们与未来的AI助手共同体验和探索的地方——是否也能被人工智能真正理解?答案或许隐藏在他们的最新研究 “Thinking in Space”

打开网易新闻 查看精彩图片

空间智能:人类的天赋,AI的短板

在视觉领域,人工智能已经能够“处理”空间,但它们很少“推理”。而多模态大语言模型(MLLMs)虽然善于推理,却常常忽略了空间逻辑。相比之下,人类在日常生活中无时无刻不依赖空间和视觉思维:从旋转脑海中的家具布局到为新家挑选合适的沙发,这种能力是我们天生的本领,但对于AI来说却是一个未解的谜题

打开网易新闻 查看精彩图片

打造新基准:用视频重新定义空间推理

为了探索这一难题,谢赛宁团队构建了一个全新的基准,涵盖多种视觉-空间智能任务,包括关系推理和测量推理。他们选择视频作为研究媒介,因为视频最贴近人类感知世界的方式,同时也对AI提出了更高的长时推理和世界建模要求

数据从何而来?研究团队别出心裁地利用现有的空间扫描视频(原用于3D重建),并通过这些视频的真实标注数据自动生成视觉问答(VQA)问题。尽管生成过程自动化程度高,研究者仍引入人工质检,确保问题的质量。最终,他们获得了超过5000对问答数据,为AI模型提供了一个全新的挑战

打开网易新闻 查看精彩图片

AI的表现如何?

测试结果显示,尽管当前的MLLMs在视觉-空间智能上表现出色,但仍未达到人类水平。其中,Gemini Pro模型表现最佳,但与人类的能力仍有明显差距。这并不意外:即便是人类,在面对复杂空间任务时也可能迷失方向,但我们能够通过调整心智模型来克服这些挑战,而AI目前还做不到

打开网易新闻 查看精彩图片

AI的短板:空间推理的瓶颈

研究的一大亮点是分析AI在空间任务中的具体弱点。实验表明,空间推理而非物体识别或语言能力,才是MLLMs的主要瓶颈。例如,模型在处理视角转换、从自我视角到全局视角的转变,以及长时间跟踪物体时表现不佳

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

此外,常见的语言提示技术(如链式推理或多数投票)在这些任务中反而适得其反, 进一步证明了语言智能与视觉-空间智能的本质区别

打开网易新闻 查看精彩图片

空间记忆的挑战:局部模型与整体认知的断层

团队还通过一个创新实验让模型在笛卡尔网格上“可视化”其记忆,结果显示,MLLMs在处理空间信息时,会构建一系列局部化的世界模型,而非一个连贯的整体模型。当问题涉及距离较远的物体时,模型的表现迅速下降。这一发现揭示了未来研究的关键方向:开发更有效的空间记忆机制

打开网易新闻 查看精彩图片

参考:

https://vision-x-nyu.github.io/thinking-in-space.github.io/

https://arxiv.org/abs/2412.14171

https://github.com/vision-x-nyu/thinking-in-space