1983 年,心理学家设计了一个简单实验:Sally 把弹珠放进篮子然后离开,Anne 趁她不注意把弹珠挪到盒子里。问题是,Sally 回来后,会去哪里找弹珠?

四岁孩子能答对:去篮子,因为 Sally 不知道弹珠被移走了。三岁以下的孩子会答错,他们分不清“自己知道”和“别人知道”的区别。这就是发展心理学里著名的 Sally-Anne 测试,它标定了人类认知发展的一道重要分水岭。这种能力被称为“心智理论”(Theory of Mind)。

打开网易新闻 查看精彩图片

(动图来源:受访者)

四十多年后,美国斯坦福大学李飞飞教授和美国西北大学李曼玲教授团队把这个实验搬到了 AI 面前,只不过这次考察的是物理世界。他们设计了一套叫“空间理论”(Theory of Space)的评估框架,目的是想弄清楚一件事:当大模型必须自己去探索、去发现、去拼凑信息时,它的空间智能究竟进化到了哪一级?

图 | 从左到右:李飞飞、李曼玲(来源:资料图)
打开网易新闻 查看精彩图片
图 | 从左到右:李飞飞、李曼玲(来源:资料图)

从被动答题到主动探索,AI 掉了好几个台阶

传统测试 AI 空间能力的方式,有点像开卷考试。给一张图,问里面物体的位置关系,模型答对了就算过关。前沿模型在这种测试里得分都不错,让人以为它们已经挺懂空间了。

李飞飞李曼玲团队觉得这还不够。真实世界不是开卷考,没有人会把所有信息一次性摆在你面前。你推开一扇门只看到客厅一角,走过走廊瞥见卧室一角,要理解整个房子的布局,你得把这些碎片拼起来,还得知道自己还有什么没看到,下一步该往哪看。

研究中,他们设计了一套测试环境,有文本版和视觉版两种,让模型在多个房间里主动探索,收集信息,构建脑海中的认知地图。过去评估只看最终答对答错,这篇工作第一次能给 AI 大脑拍 X 光,他们让模型显式探测这张认知地图,在每个时间步输出自己认为物体都在什么位置。

打开网易新闻 查看精彩图片

(动图来源:受访者)

结果发现,模型在被动模式下表现尚可,一旦切换到主动探索模式,性能应声而落。以视觉世界为例,GPT-5.2 从 57.1% 掉到 46.0%,Gemini-3 Pro 从 60.5% 掉到 57.3%,而这就是他们所说的主动被动差距。

(来源:https://theory-of-space.github.io/paper/Theory_of_S)
打开网易新闻 查看精彩图片
(来源:https://theory-of-space.github.io/paper/Theory_of_S)

差距从哪来?他们用一套精细的诊断工具来逐层拆解模型的认知过程。

第一个问题是效率低。规则代理平均 9 步就能覆盖整个环境,基础模型往往需要 14 步以上,而且覆盖率更低。GPT-5.2 有个毛病,一看到门就冲过去,经常忘了把当前房间看完。Gemini-3 Pro 好一些,会先原地旋转观察再移动,但也没有规则代理高效。

第二个问题更致命。他们设计了一个错误信念测试,在模型完成初次探索后,悄悄移动或旋转几个物体。当模型再次经过并直接观察到新布局时,一个令人不安的现象出现了:GPT-5.2 在视觉世界中的朝向惯性高达 68.9%,即近七成的情况下仍然坚持报告物体的旧朝向。同一模型在文本世界中惯性只有 5.5%。

(来源:https://theory-of-space.github.io/paper/Theory_of_S)
打开网易新闻 查看精彩图片
(来源:https://theory-of-space.github.io/paper/Theory_of_S)

其实这就是信念惯性,模型亲眼看到变化,但内部表征缺乏足够的可塑性来完成旧信念到新信念的覆写,也就是它无法更新自己的认知。这和 Sally-Anne 测试里三岁幼儿的失败何其相似,只不过幼儿失败是因为认知能力尚未发育,模型失败是因为内部机制存在缺陷。

认知地图会漂移,视觉世界更高难

他们还发现一个叫信念漂移的现象。那就是模型在初次观察物体时的感知误差虽然存在,不过还没严重到影响整体判断。真正的问题是,这份初始保真度无法在后续步骤中维持。随着探索推进、信息增多,那些早先正确的记忆开始悄然退化,被后续步骤的错误更新覆盖,或者在拼接不同房间的信息时产生内部矛盾。

打开网易新闻 查看精彩图片

(动图来源:受访者)

最终认知地图的低准确率,在很大程度上来自拼不住。模型缺乏稳定维护长程空间信息的机制,新的观察不仅没有巩固已有认知,反而在不断侵蚀它。这个特点可能人类也存在,比如笔者曾去参观故宫,一个宫殿接一个地观看,而这些宫殿又很相似,那么就很有可能看了下一个、忘记了上一个。

(来源:https://theory-of-space.github.io/paper/Theory_of_S)
打开网易新闻 查看精彩图片
(来源:https://theory-of-space.github.io/paper/Theory_of_S)

但是,这些问题在视觉世界中会被放大。人类被试在视觉世界中的准确率高达 96.4%(使用简单工具后达 99.0%),在文本世界中是 86.7%。模型却正好相反,文本表现远好于视觉。视觉信息对人类而言是天然、直觉的空间认知通道,而当前多模态模型尚未学会从像素中高效提取空间结构。

尤其是物体朝向识别,模型几乎接近随机猜测。这解释了为什么它们在视角推理任务(如 Perspective Taking)上得分惨淡,大约只有 36% 的准确率。

而这套评估框架的价值,在于它把空间智能从会不会答这道题的二元判定,变成了一个可以逐级诊断的连续过程。它告诉我们的不只是模型还差多远,更是它具体在哪一级开始失灵。

如果模型连“记住刚才看到的沙发在哪”都做不到,那指望它在一个真实环境里主动导航,比如在灾区搜救中定位幸存者,还有很长的路要走。

(来源:https://theory-of-space.github.io/paper/Theory_of_S)
打开网易新闻 查看精彩图片
(来源:https://theory-of-space.github.io/paper/Theory_of_S)

目前,相关论文已被机器学习顶级会议 ICLR 2026 接收。论文、代码和数据集都已开源。该研究由西北大学、斯坦福大学、华盛顿大学与康奈尔大学联合完成。研究团队里集齐了多位《麻省理工科技评论》“35 岁以下科技创新 35 人”的入选者,李曼玲教授是 2025 年全球入选者,美国斯坦福大学的吴佳俊教授和美国华盛顿大学的 Ranjay Krishna 教授分别入选了 2024 与 2025 年度亚太区名单。

参考资料:

相关论文 https://theory-of-space.github.io/paper/Theory_of_Space.pdf

https://limanling.github.io/

https://profiles.stanford.edu/fei-fei-li

运营/排版:何晨龙