李飞飞一篇论文，ChatGPT、Claude全部是”智障”

Kevin改变世界的点滴

2026-03-10 23:09 ·广东 ·优质互联网领域创作者

最近一篇论文让我反复观看，那就是李飞飞联合西北大学教授做了一个测试，将ChatGPT、Claude、DEEPSEEK等主流一线模型做了一个基线测试。

” “Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces”

研究团队设计了一个 空间推理测试集 VSI-Bench ，包含：

5000+ 视频空间问答任务
需要模型理解：
- 物体位置
- 空间移动
- 距离关系
- 环境结构

测试模型

论文测试了多种大模型，例如：

GPT 系列
多模态模型
视觉语言模型

从而得出结论

LLM的空间理解能力远低于人类
语言推理技巧（CoT、Tree-of-Thought）几乎无帮助
模型缺乏真正的 “world model / 空间认知结构”

并且语言推理技巧也几乎完全落后人类

语言推理技巧（CoT、Tree-of-Thought）几乎无帮助
模型缺乏真正的 “world model / 空间认知结构”

LLM模型无法做空间的底座

为什么现在的AI模型无法生成空间系统了，因为他就没有办法去理解空间操作能力，这就导致我们现在做vision Pro的开发，当程序员想用AI编码工具生成，几乎无法完成。

被迫只能手动写代码，在现在空间计算里面，因为他们记不住在视频里面的内容，也很难分辨出空间里面的物体。

在论文里举例，如果现在的常识是在3D图形旋转一圈之后，看下AI模型能不能识别，而这种只是拿着标准答案来测试；于是他们用真实的家庭识别来测试，或者工厂或者办公室。

空间智能有4个能力，分别是视觉能力、语言能力、时间处理、空间推理，其中

1.视觉感知（visual perception）

模型需要：

识别物体
识别形状
识别位置

例如：

桌子、椅子、门、窗户

2.语言能力（linguistic intelligence）

模型要理解问题。

例如：桌子在沙发左边还是右边？

3.时间处理（temporal processing）

视频是：

时间序列

模型要理解：

物体移动
相机移动
人的路径

4.空间推理（spatial reasoning）

这是最难的部分。

模型要理解：

距离
方向
相对位置

例如：

桌子在椅子前面

而这点现在大模型做不到，主要是因为大模型现在只有tokens sequence，所以LLM不会真正理解房间结构、路径、距离。

最后就是通过空间智能之后，加上时间的维度就是空间记忆，比如在记忆里面人类可以记住物体的位置，完整的房间布局结构。

而机器人要想能够自主运动，就是需要空间模型，而当前时间是没有空间模型的，都是LLM，这也是为什么vision Pro与AndroidXR会成为下一代革命，当真正使用空间设备的人多了之后，就可以快速生成更多高质量的空间数据，就可以完成空间智能模型的训练了。

今天的分享就到这里

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴