ImageNet之后,李飞飞再出手!

李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。

打开网易新闻 查看精彩图片

过去的空间智能评测默认给模型最优观测,而ESI-Bench第一个把观察者变成行动者,闭合了感知-行动回路。

它为具身空间智能领域提供了一个系统性的评测框架,覆盖人类核心空间认知能力的四大维度。

论文的核心结论是:现在的AI看图很厉害,但离「会动、会摸、会主动找答案」的空间智能还差得远

打开网易新闻 查看精彩图片

ESI-Bench是什么

ESI-Bench发布的背景,是由于目前的空间智能benchmark,测的都是「被动感知」。

把一张或几张图片扔给模型,问「A物体在B物体的左边还是右边」「这个杯子能装多少水」「抽屉里有没有东西」,这样的题目测出来的是模型的视力,而非空间推理能力。

反观人类是怎么做的?人类会站起来绕到物体背后去看,会把抽屉拉开,会把水倒出来量一量。

这就是ESI-Bench的核心立场:把观察者变成行动者

打开网易新闻 查看精彩图片

现实世界里,智能体必须像人类一样,主动决定行动、获取证据,再基于新观测做下一步判断。团队把它称为「感知-行动回路」(Perception-Action Loop)。

ESI-Bench就是这样一套超越现有基准的空间智能新评测基准,它包含10个任务类别,29个子类别,3081个任务实例,全部在OmniGibson仿真平台上构建,场景素材来自BEHAVIOR-1K场景库。

打开网易新闻 查看精彩图片

所有任务围绕Spelke的四大核心知识系统设计,也就是人类婴儿天生就具备的空间直觉:物体表征、布局与几何、数量表征、目标导向行动。

它的关键设定在于行动强制。每一道题,AI智能体必须主动行动才能拿到足够信息作答。模型不能坐在原地等图片,它要决定往哪走、看什么、拿什么、怎么操作。

打开网易新闻 查看精彩图片

举几个具体的例子:

比如评测中有一道「刚性容纳」题:给定几个容器和几个物体,要求把物体全部装进去。有的容器开口小、有的内部有隔板、有的盖子需要掀开才能看到真实容量。

模型必须走近、俯身、甚至把容器拿起来从底部观察,才能判断能不能装得下。

打开网易新闻 查看精彩图片

还有「液体体积」题:两个杯子,从外观看不出容量差异,模型需要把水倒进去测试,或者直接拿起来掂量。

这么一说,大家应该也能直观感受到这套评测基准的设计理念:

正确答案不在任何单张图片里,智能体必须主动行动并推理出正确结果

团队特别指出,与此前工作相比,ESI-Bench在三个地方有所超越:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

从空间感知到空间能力:在这里,智能体不仅根据他们能感知到什么来评估,还根据他们是否知道部署哪些具体能力来解决空间任务来评估;

选择性感知:智能体必须确定哪些观察值得获取,优先考虑与任务相关的信息而不是冗余或无信息的输入;

解决感知歧义:智能体必须通过误导性观察进行推理,以推断隐藏的空间结构和超越直接观察的潜在物理约束。

测完发现了啥?3个核心结论

团队拿当前最强的多模态大模型做了全面测试,包括GPT-5和Gemini系列。

打开网易新闻 查看精彩图片

这是最主要的实验结果图,包含了ESI-Bench在被动感知、主动探索、Oracle三种范式下的各项任务准确率,涵盖2D+VLM、3D+LLM及人类基线。

核心结论有3个。

第一,感知不是瓶颈,行动才是

好消息是,主动探索确实有效。在没有额外指令的情况下,智能体自发涌现出多种空间策略。

比如绕到物体背后观察(move-behind)、切换俯视角度(top-down)、把物体拿起来(pick-up)、把水倒出来验证(pour-out)。

打开网易新闻 查看精彩图片

Gemini 3.1在「部分遮挡」任务上,如果给到最佳观察视角,准确率从14.6%暴涨到95.1%。

这说明,模型本身的感知能力是好的,只要给对视角,它就能看得懂。

打开网易新闻 查看精彩图片

但问题在于,模型自己找不到那个对的视角。

更糟糕的问题在于,被动多视角策略不仅没用,反而有害。

让GPT-5多看几张随机角度的图片,空间距离任务的准确率从53.9%降到49.1%。图看得多了,分反而低了。

GPT-5和Gemini 3.1在主动探索中达到正确答案所需的平均步数

打开网易新闻 查看精彩图片

团队把这个现象命名为「动作盲视」(Action Blindness),一个差动作导致一个差视角,差视角触发更差动作,形成不可逆的级联失败。

在结构围合任务上,主动探索策略和上帝视角的差距高达49.7%。

打开网易新闻 查看精彩图片

也就是说,空间智能的卡点不在于视觉模型不够强,而是行动策略几乎为零

第二,3D重建不是万能药,不完美的3D比2D更坑。

既然2D被动看图不行,那上3D呢?这也是当前很多具身智能团队的路子,先重建三维场景,再在场景图上做推理。

结果发现,如果给的是真值3D(上帝视角的完美几何),那确实很强。

Gemini在材质透明任务上,2D版本得分44.0%,3D版本得分60.4%,提升16.4个百分点。在需要精确深度信息的任务上,3D grounding有天然优势。

但如果是真实重建呢?团队用当前最先进的VGGT模型做场景重建,再把重建结果喂给推理模型。

结果那叫一个惨不忍睹:几何配置任务上,2D基线得分27.5%,VGGT重建后的场景图得分只有9.9%。

打开网易新闻 查看精彩图片

这说明,不完美的3D不是中性失败,它是负向失败。几何伪影、遮挡补全错误、深度估计偏差,把这些失真信息编码成场景图,就等于给推理模型喂了一份「有毒」的输入。

相比之下,2D虽然信息少,但至少不失真;3D如果重建质量不过关,比2D还不如。

第三,元认知缺陷:模型不知道自己看没看够。

论文里还有一组对比实验,探讨了智能体和人类的空间推理能力究竟还有多大差距。

结果发现,尽管人类与模型之间存在感知差距,但该差距可能比普遍认为的要小。

在部分类别中,模型的被动表现甚至能与人类持平或超越人类。

在真实轨迹条件下,Gemini在部分遮挡任务上达到88.4%的准确率,而人类为87.4%;GPT-5在材质透明度任务上达到96.3%,人类则为97.2%。

打开网易新闻 查看精彩图片

然而在主动探索场景下,二者的差距急剧显现。

人类凭借明确的观察目标和停止时机,表现远超模型,且主动探索的表现更接近真实轨迹下的被动表现。

例如在物理接触任务中,人类准确率为88.3%,而 GPT-5仅为 64.2%;在材质透明度任务中,人类准确率为93.6%,Gemini 3.1则为52.3%。

通过分析模型与人类的探索轨迹,团队发现人类表现出更强的认知谨慎性:在做出判断前会收集更多观测,主动寻找可能证伪当前假设的视角,并在模糊情境下降低置信度。

而模型则会过早停止探索,即便证据存在模糊性,也仅在少数步骤后就以高置信度做出判断,进而产生与场景状态相悖的空间幻觉。

打开网易新闻 查看精彩图片

模型的过度自信,还因动作选择的方向偏差而加剧:模型不会探查正交角度或寻找能推翻初始印象的视角,而是反复向同一方向移动,积累的是冗余信息而非有效观测。

团队把它定性为元认知(metacognition)缺陷:模型不知道自己不知道。

它缺乏一种内建的「怀疑机制」,无法评估当前信息是否充分,无法根据矛盾证据调整信念。

这个问题从根本上区别于感知能力,也是一个更加底层的挑战,仅靠更强的视觉编码器或更多的探索步骤无法解决。

论文作者

最后,再介绍一下这项工作的作者团队。

打开网易新闻 查看精彩图片

一作是Yining Hong

Yining Hong,斯坦福大学的博士后,导师为Yejin Choi教授,同时受到Leonidas Guibas教授、吴家俊教授和李飞飞教授的密切指导。

打开网易新闻 查看精彩图片

她曾在UCLA获得计算机科学博士学位,本科就读于上海交通大学电子工程系。

此外,她还是一名职业音乐家,平时会和乐队一起巡演,同时也是CVPR 2026的社交主席,负责组织CVPR招待会和音乐表演。

Jiageng Liu(刘家耕),加州大学洛杉矶分校(UCLA)Mobility Lab的博士生。

打开网易新闻 查看精彩图片

其本科就读于浙江大学竺可桢荣誉学院及计算机科学与技术学院的图灵班,获人工智能学士学位。

Han Yin,清华大学本科生,斯坦福大学Intern,专业为计算机科学与技术。

打开网易新闻 查看精彩图片

李飞飞、吴佳俊(Jiajun Wu)、Yejin Choi,三位斯坦福教授,也同时出现在作者列表里。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

另外还有来自西北大学的Manling Li教授和斯坦福的Leonidas Guibas教授参与。

[1]https://arxiv.org/abs/2605.18746
[2]https://esi-bench.github.io/