最近一篇论文让我反复观看,那就是李飞飞联合西北大学教授做了一个测试,将ChatGPT、Claude、DEEPSEEK等主流一线模型做了一个基线测试。

“Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces”

研究团队设计了一个 空间推理测试集 VSI-Bench ,包含:

  • 5000+ 视频空间问答任务

  • 需要模型理解:

    • 物体位置

    • 空间移动

    • 距离关系

    • 环境结构


测试模型

论文测试了多种大模型,例如:

  • GPT 系列

  • 多模态模型

  • 视觉语言模型

从而得出结论

  1. LLM的空间理解能力远低于人类

  2. 语言推理技巧(CoT、Tree-of-Thought)几乎无帮助

  3. 模型缺乏真正的 “world model / 空间认知结构”

并且语言推理技巧也几乎完全落后人类

  • 语言推理技巧(CoT、Tree-of-Thought)几乎无帮助

  • 模型缺乏真正的 “world model / 空间认知结构”

LLM模型无法做空间的底座

为什么现在的AI模型无法生成空间系统了,因为他就没有办法去理解空间操作能力,这就导致我们现在做vision Pro的开发,当程序员想用AI编码工具生成,几乎无法完成。

打开网易新闻 查看精彩图片

被迫只能手动写代码,在现在空间计算里面,因为他们记不住在视频里面的内容,也很难分辨出空间里面的物体。

在论文里举例,如果现在的常识是在3D图形旋转一圈之后,看下AI模型能不能识别,而这种只是拿着标准答案来测试;于是他们用真实的家庭识别来测试,或者工厂或者办公室。

打开网易新闻 查看精彩图片

空间智能有4个能力,分别是视觉能力、语言能力、时间处理、空间推理,其中

1.视觉感知(visual perception)

模型需要:

  • 识别物体

  • 识别形状

  • 识别位置

例如:

桌子、椅子、门、窗户

2.语言能力(linguistic intelligence)

模型要理解问题。

例如:桌子在沙发左边还是右边?

3.时间处理(temporal processing)

视频是:

时间序列

模型要理解:

  • 物体移动

  • 相机移动

  • 人的路径

4.空间推理(spatial reasoning)

这是最难的部分。

模型要理解:

  • 距离

  • 方向

  • 相对位置

例如:

桌子在椅子前面

而这点现在大模型做不到,主要是因为大模型现在只有tokens sequence,所以LLM不会真正理解房间结构、路径、距离。

最后就是通过空间智能之后,加上时间的维度就是空间记忆,比如在记忆里面人类可以记住物体的位置,完整的房间布局结构。

打开网易新闻 查看精彩图片

而机器人要想能够自主运动,就是需要空间模型,而当前时间是没有空间模型的,都是LLM,这也是为什么vision Pro与AndroidXR会成为下一代革命,当真正使用空间设备的人多了之后,就可以快速生成更多高质量的空间数据,就可以完成空间智能模型的训练了。

今天的分享就到这里