打开网易新闻 查看精彩图片

去年冬天,一位斯坦福研究员在实验室里盯着屏幕,看着自家训练的机器人把脏杯子放进洗碗机——然后反复开关门三次,就是不肯按开始键。问题不是机械故障,而是机器人"看不见":它没意识到洗碗机里已经塞满了盘子,再塞杯子会卡住。

这种尴尬每天都在全球数百个具身智能实验室上演。AI能识别物体、规划路径、抓取物品,却在最简单的"看情况调整"上栽跟头。AI2(艾伦人工智能研究所)最新发布的AsgardBench基准测试,把这个问题量化了:当前主流视觉语言模型在动态调整任务计划上的成功率,最高只有47%

为什么老测试测不出真本事

为什么老测试测不出真本事

具身智能的评测一直有个"作弊漏洞"。传统基准把感知、导航、操控打包测试,环境又太听话——杯子永远放在固定位置,水槽永远空着,机器人背下地图就能通关。

这就好比考驾照只考直线加速,不考变道反应。研究者分不清模型是真懂环境,还是靠死记硬背过关。AI2团队想拆穿这层窗户纸:如果机器人发现杯子已经干净了,它会不会换个任务?如果水槽被占用了,它能不能先挪东西?

AsgardBench的设计像一场"突然袭击"。测试基于AI2-THOR仿真环境,但做了关键手脚:机器人开局就站在目标物体旁边,不用找路;动作精简到find(查找)、pickup(拾取)、put(放置)、clean(清洁)、toggle_on/off(开关)五种。导航和操控的复杂度被剥离,只剩一件事——根据看到的东西,实时改计划

每轮交互,机器人要提交完整任务计划,但环境只执行第一步。然后给它新画面和简单反馈:成,或败。它得重新看、重新想、重新报下一步。循环往复,直到任务完成或踩到步数上限。

杯子里的咖啡,计划外的变量

杯子里的咖啡,计划外的变量

打开网易新闻 查看精彩图片

测试场景全是家务琐事,但埋了雷。同一道指令"洗杯子",实际状态可能有四种变体:杯子干净、杯子脏、杯子有咖啡、水槽被占。机器人得在第一步"find"之后,从画面里读出这些差异,再决定是跳过清洁、先倒咖啡、还是清理水槽。

AI2团队举了个典型失败案例。某模型接到"把脏杯子放进洗碗机"的指令,计划写得漂亮:find→pickup→put→toggle_on。它找到杯子,拾取成功,放进洗碗机——然后卡住。因为洗碗机里早有盘子,杯子塞不进去。模型没在执行"put"前重新观察洗碗机内部,而是按原计划硬怼。

更隐蔽的失败是"幻觉式坚持"。有的模型发现杯子已经干净,却坚持执行clean动作,因为训练数据里"杯子+指令=清洁"的关联太强。这就像服务员明明看见客人杯子里还有水,非要续杯,因为"看到杯子就倒"写进了肌肉记忆。

测试还设置了"动作历史"陷阱。机器人能记住自己做过什么,但这份记忆可能变成包袱——它可能基于过时的观察坚持错误计划,也可能被连续失败搞懵,在"再试一次"和"换条路"之间摇摆。

47%背后的模型众生相

47%背后的模型众生相

AI2测试了多个视觉语言模型,结果形成鲜明对比。表现最好的模型在完整任务链上达到47%成功率,最差的不到15%。差距主要来自两个能力:一是从单帧图像提取状态细节(杯子脏不脏、水槽满不满),二是把观察转化为计划修正。

小模型往往在第一步就崩。它们能识别"这是个杯子",但读不出"杯壁有咖啡渍"或"洗碗机门开着"。大模型的问题更微妙:它们能描述画面,却把这种描述当终点,而不是决策输入。一个模型在内部独白里写"我看到水槽里有盘子",下一步计划依然是"把杯子放进水槽"——观察到了,但没用起来。

团队还发现一个反直觉现象:给模型更多"思考时间"(允许更长的推理链)不一定更好。某些模型在精简模式下反应更快、错误更少,因为复杂推理容易陷入过度解读,从画面里"看出"不存在的问题。

打开网易新闻 查看精彩图片

反馈机制的设计也暴露短板。环境只告诉模型"动作成功/失败",不解释为什么。模型得自己猜:是没对准?被挡住了?还是物体状态不对?这种"最小反馈"设定贴近真实机器人部署——家用机器人不会配备故障诊断专家跟在后面喊话。

从仿真到厨房:还有几道坎

从仿真到厨房:还有几道坎

AsgardBench目前还是纯仿真测试,但AI2团队的设计选择明显指向真实场景。剥离导航和操控,是因为这些有成熟解决方案;聚焦"看-想-改"循环,是因为这是当前最痛的短板。

一位参与项目的研究员在论文附录里写道:「我们见过太多演示视频,机器人流畅完成整套家务,但仔细看会发现环境是预置的,物体位置是标记好的,失败镜头被剪掉了。」AsgardBench想做那个"不剪辑"的考官。

不过仿真与现实的鸿沟仍在。AI2-THOR的图像渲染再逼真,也没有真实相机的噪点、运动模糊和光照突变。模型在仿真里练出的"看",迁移到真实机器人眼中有多少失真,还需要实体验证。

另一个未解问题是"失败恢复"的深度。当前测试里,计划修正只涉及下一步动作选择。但如果机器人连续三步都错,它是能层层回溯找根源,还是只会原地打转?这关系到更复杂的长期任务——比如做一顿饭,中间某个环节出错后,能否重新规划而非全盘放弃。

AI2把AsgardBench开源了,包括测试环境、任务集和评估脚本。团队说希望这能成为"计划适应性"的标准考场,就像ImageNet之于图像识别。但他们也承认,47%的最高分说明这题还太难,可能需要新的训练范式,而不是更大规模的旧方法。

那个在洗碗机前开关门三次的斯坦福机器人,后来怎么样了?项目组没公开后续。但AsgardBench的 leaderboard 上,新模型的分数每周都在跳动——有人正在教它,下一次开门前先探头看一眼里面。