机器人连碗都洗不好？AI2新基准让47%模型现了原形|thor|操控|机器人|杯子|水槽|洗碗机

去年冬天，一位斯坦福研究员在实验室里盯着屏幕，看着自家训练的机器人把脏杯子放进洗碗机——然后反复开关门三次，就是不肯按开始键。问题不是机械故障，而是机器人"看不见"：它没意识到洗碗机里已经塞满了盘子，再塞杯子会卡住。

这种尴尬每天都在全球数百个具身智能实验室上演。AI能识别物体、规划路径、抓取物品，却在最简单的"看情况调整"上栽跟头。AI2（艾伦人工智能研究所）最新发布的AsgardBench基准测试，把这个问题量化了：当前主流视觉语言模型在动态调整任务计划上的成功率，最高只有47%。

为什么老测试测不出真本事

具身智能的评测一直有个"作弊漏洞"。传统基准把感知、导航、操控打包测试，环境又太听话——杯子永远放在固定位置，水槽永远空着，机器人背下地图就能通关。

这就好比考驾照只考直线加速，不考变道反应。研究者分不清模型是真懂环境，还是靠死记硬背过关。AI2团队想拆穿这层窗户纸：如果机器人发现杯子已经干净了，它会不会换个任务？如果水槽被占用了，它能不能先挪东西？

AsgardBench的设计像一场"突然袭击"。测试基于AI2-THOR仿真环境，但做了关键手脚：机器人开局就站在目标物体旁边，不用找路；动作精简到find（查找）、pickup（拾取）、put（放置）、clean（清洁）、toggle_on/off（开关）五种。导航和操控的复杂度被剥离，只剩一件事——根据看到的东西，实时改计划。

每轮交互，机器人要提交完整任务计划，但环境只执行第一步。然后给它新画面和简单反馈：成，或败。它得重新看、重新想、重新报下一步。循环往复，直到任务完成或踩到步数上限。

杯子里的咖啡，计划外的变量

测试场景全是家务琐事，但埋了雷。同一道指令"洗杯子"，实际状态可能有四种变体：杯子干净、杯子脏、杯子有咖啡、水槽被占。机器人得在第一步"find"之后，从画面里读出这些差异，再决定是跳过清洁、先倒咖啡、还是清理水槽。

AI2团队举了个典型失败案例。某模型接到"把脏杯子放进洗碗机"的指令，计划写得漂亮：find→pickup→put→toggle_on。它找到杯子，拾取成功，放进洗碗机——然后卡住。因为洗碗机里早有盘子，杯子塞不进去。模型没在执行"put"前重新观察洗碗机内部，而是按原计划硬怼。

更隐蔽的失败是"幻觉式坚持"。有的模型发现杯子已经干净，却坚持执行clean动作，因为训练数据里"杯子+指令=清洁"的关联太强。这就像服务员明明看见客人杯子里还有水，非要续杯，因为"看到杯子就倒"写进了肌肉记忆。

测试还设置了"动作历史"陷阱。机器人能记住自己做过什么，但这份记忆可能变成包袱——它可能基于过时的观察坚持错误计划，也可能被连续失败搞懵，在"再试一次"和"换条路"之间摇摆。

47%背后的模型众生相

AI2测试了多个视觉语言模型，结果形成鲜明对比。表现最好的模型在完整任务链上达到47%成功率，最差的不到15%。差距主要来自两个能力：一是从单帧图像提取状态细节（杯子脏不脏、水槽满不满），二是把观察转化为计划修正。

小模型往往在第一步就崩。它们能识别"这是个杯子"，但读不出"杯壁有咖啡渍"或"洗碗机门开着"。大模型的问题更微妙：它们能描述画面，却把这种描述当终点，而不是决策输入。一个模型在内部独白里写"我看到水槽里有盘子"，下一步计划依然是"把杯子放进水槽"——观察到了，但没用起来。

团队还发现一个反直觉现象：给模型更多"思考时间"（允许更长的推理链）不一定更好。某些模型在精简模式下反应更快、错误更少，因为复杂推理容易陷入过度解读，从画面里"看出"不存在的问题。

反馈机制的设计也暴露短板。环境只告诉模型"动作成功/失败"，不解释为什么。模型得自己猜：是没对准？被挡住了？还是物体状态不对？这种"最小反馈"设定贴近真实机器人部署——家用机器人不会配备故障诊断专家跟在后面喊话。

从仿真到厨房：还有几道坎

AsgardBench目前还是纯仿真测试，但AI2团队的设计选择明显指向真实场景。剥离导航和操控，是因为这些有成熟解决方案；聚焦"看-想-改"循环，是因为这是当前最痛的短板。

一位参与项目的研究员在论文附录里写道：「我们见过太多演示视频，机器人流畅完成整套家务，但仔细看会发现环境是预置的，物体位置是标记好的，失败镜头被剪掉了。」AsgardBench想做那个"不剪辑"的考官。

不过仿真与现实的鸿沟仍在。AI2-THOR的图像渲染再逼真，也没有真实相机的噪点、运动模糊和光照突变。模型在仿真里练出的"看"，迁移到真实机器人眼中有多少失真，还需要实体验证。

另一个未解问题是"失败恢复"的深度。当前测试里，计划修正只涉及下一步动作选择。但如果机器人连续三步都错，它是能层层回溯找根源，还是只会原地打转？这关系到更复杂的长期任务——比如做一顿饭，中间某个环节出错后，能否重新规划而非全盘放弃。

AI2把AsgardBench开源了，包括测试环境、任务集和评估脚本。团队说希望这能成为"计划适应性"的标准考场，就像ImageNet之于图像识别。但他们也承认，47%的最高分说明这题还太难，可能需要新的训练范式，而不是更大规模的旧方法。

那个在洗碗机前开关门三次的斯坦福机器人，后来怎么样了？项目组没公开后续。但AsgardBench的 leaderboard 上，新模型的分数每周都在跳动——有人正在教它，下一次开门前先探头看一眼里面。

机器人连碗都洗不好？AI2新基准让47%模型现了原形

为什么老测试测不出真本事

杯子里的咖啡，计划外的变量

47%背后的模型众生相

从仿真到厨房：还有几道坎

热搜

热门跟贴

为什么老测试测不出真本事

杯子里的咖啡，计划外的变量

47%背后的模型众生相

从仿真到厨房：还有几道坎

热搜

热门跟贴

相关推荐

男人每天虐待自家的机器人

车厢里的杯子为啥能空中对接？从神奇现象揭秘皮卡的省油原理

乌军机器人45天孤守

美女为了让老公更有体验感，竟然把嘴当成杯子，最后成品惊艳了

25.98万元起！掀翻天花板，智己LS8的决心和野心

竟然可以这样做杯子

你TM劈我杯子是吧

爱吃巧克力的女生很难拒绝这只杯子

荒野生存小技巧，一起来看看

师傅给桌子装上水管，让桌上的金蟾能自动吐水，网友：水槽的水要怎么换

妻子买的杯子，飞流直下三千尺，然后直接双目失明！

火焰点燃杯子后迅速盖在水面上，液体瞬间就被吸进杯子里

女子喝酒时发现酒杯不对劲，同样大小的杯子容量差了一倍，网友：难怪有的人那么能喝

中关村论坛变赛博世界，机器人餐吧正式营业

俄乌战场出现持枪机器人！这不是电影，是真事

独特的水力提电机

男生表白被拒砸食堂，有台咖啡机十几万！网友：幸亏女生没答应！

732M模型超越7B！机器人操控新范式：从视频中「悟」物理

机器狼群巷战首公开，三类分工复刻我军经典战术

中国机器狼群巷战画面首次公开