机器人学洗碗学了3年，MIT这次把考场换了|mit|thor|机器人学|洗碗|真实世界|视觉

2024年，全球具身智能（Embodied AI，即能在真实环境中感知并行动的AI系统）融资额突破47亿美元。但一个尴尬的事实是：多数机器人进了厨房，连杯子洗没洗干净都判断不了。

MIT、艾伦人工智能研究所（AI2）和华盛顿大学的研究团队最近放出一组数据：在现有主流评测中，78%的"成功"任务其实不需要真正理解视觉信息——机器人靠死记硬背环境布局就能蒙混过关。这相当于让考生提前知道考题，然后夸他"学习能力强"。

老评测的漏洞：机器人靠"作弊"拿高分

传统具身智能基准测试（Benchmark）的设计逻辑，是把感知、导航、物理控制打包成一道大题。AI2-THOR、Habitat、Matterport3D这些主流平台，测的是机器人从客厅走到厨房、打开冰箱、取出牛奶的完整流程。

问题出在哪？任务路径太固定了。研究者发现，只要环境布局不变，机器人可以预编一整套动作脚本，闭着眼睛执行。它根本不需要"看"——冰箱门朝哪开、牛奶盒在几号货架，训练时早就记死了。

更麻烦的是反馈机制。多数测试给机器人的信息太丰富了：精确坐标、物体边界框、甚至"最优动作建议"。这不像教小孩洗碗，倒像给GPS导航仪配了个遥控手柄。

「我们想要的不是导航专家，而是能根据眼前情况调整计划的系统。」论文通讯作者、MIT CSAIL的Yoon Kim说。他的团队追踪了2021-2023年顶会论文中的评测数据，发现标注为"视觉推理"的任务里，61%的模型得分波动与环境随机性无关——换句话说，换张图它们根本注意不到。

一个典型场景：机器人接到指令"洗杯子"。训练环境里杯子永远在台面上，它学会了"找杯子→开水龙头→冲水"的固定流程。但测试时杯子已经在水槽里，或者水槽被碗碟占满，机器人继续执行预编脚本，结果要么重复洗同一个杯子，要么把碗碟冲得满地都是。

这种失败被传统评测归类为"执行误差"，而非"规划错误"。但Kim团队认为，这正是核心能力缺失：机器人没有建立"我看到什么→我需要怎么改"的反馈闭环。

AsgardBench的设计：把"视力表"换成"动态视力测试"

新基准的名字AsgardBench取自北欧神话，但设计哲学很接地气——像考驾照的科目三，不是背路线，而是看应变能力。

底层仍用AI2-THOR的3D仿真环境，但做了三处关键改造。第一，机器人开局就被传送到目标物体旁边，导航和视角选择直接出局。第二，动作集被压缩到5个：查找（find）、拾取（pickup）、放置（put）、清洁（clean）、开关（toggle_on/off）。第三，也是最关键的：每一步只执行计划中的第一个动作，然后强制重新规划。

这相当于把"写一篇作文"改成"写一句，给老师看一句，再写下一句"。机器人没法一次性编完整个剧本，必须根据执行后的新图像调整下一步。

反馈信号被刻意压缩到极简：动作成功或失败，没有原因说明，没有替代建议。机器人要自己从图像里找线索——杯子是脏是干净？水槽有没有空间？上次开的灯这次还亮着吗？

论文里有个对比案例。指令是"把脏杯子放进洗碗机"。场景A：杯子在台面，干净；场景B：杯子在水槽，脏但堆在碗碟下面；场景C：杯子在台面，脏，但洗碗机已满。三个场景需要完全不同的动作序列，但传统评测里机器人可能用同一套脚本"碰巧"完成其中一两个。

在AsgardBench里，这种碰巧被消灭。因为每一步都要重新提案，机器人必须在当前图像里确认杯子位置、状态、容器可用性，然后生成下一步。计划与感知的绑定被强制化，没有空子可钻。

首批测试结果：大模型的"幻觉"进了物理世界

团队测试了6类模型，包括纯视觉模型、大语言模型（LLM，Large Language Model）、以及两者结合的视觉-语言模型（VLM，Vision-Language Model）。结果呈现出有趣的断层。

纯视觉模型（如CLIP-based规划器）在物体识别上表现稳定，但缺乏任务推理能力。给它"洗杯子"的指令，它能找到杯子，却理解不了"洗"需要先到水槽、再开水龙头、再确认干净。得分卡在23%-31%之间，瓶颈明显。

大语言模型（GPT-4、Claude-3等）反过来：任务分解很流畅，但容易" hallucination（幻觉）"——编造不存在的物体位置。在纯文本模式下，GPT-4假设"杯子通常在台面"，生成"去台面找杯子"的计划，但图像里杯子明明在水槽。这种错误在传统评测中被导航能力掩盖，在AsgardBench里直接暴露。

视觉-语言模型被寄予厚望，但表现分化严重。GPT-4V（带视觉能力的GPT-4）在简单场景达到67%成功率，复杂场景骤降至41%。Claude-3 Opus类似，简单场景61%，复杂场景38%。问题集中在两类：一是"视觉锚定失败"——模型描述了图像内容，但没把描述和动作计划挂钩；二是"历史遗忘"——前几步的失败信号没被纳入当前决策。

一个细节很能说明问题。当机器人连续两次"拾取"失败（比如目标物体被遮挡），GPT-4V有34%的概率在第三次尝试同一动作，而不是切换策略（如先"查找"确认位置）。这种固执在人类看来很荒谬，但源于训练数据中的动作频率偏差——"拾取"在成功轨迹中出现最多，模型学会了优先尝试。

表现最好的是专门微调过的模型。团队用AsgardBench的训练集微调了一个7B参数的VLM，复杂场景成功率提升到54%。但论文作者之一、华盛顿大学的Ludwig Schmidt提醒：「这个数字仍然意味着近一半的任务失败。考虑到这是仿真环境，真实世界的噪声会再砍一刀。」