2024年,全球具身智能(Embodied AI,即能在真实环境中感知并行动的AI系统)融资额突破47亿美元。但一个尴尬的事实是:多数机器人进了厨房,连杯子洗没洗干净都判断不了。
MIT、艾伦人工智能研究所(AI2)和华盛顿大学的研究团队最近放出一组数据:在现有主流评测中,78%的"成功"任务其实不需要真正理解视觉信息——机器人靠死记硬背环境布局就能蒙混过关。这相当于让考生提前知道考题,然后夸他"学习能力强"。
老评测的漏洞:机器人靠"作弊"拿高分
传统具身智能基准测试(Benchmark)的设计逻辑,是把感知、导航、物理控制打包成一道大题。AI2-THOR、Habitat、Matterport3D这些主流平台,测的是机器人从客厅走到厨房、打开冰箱、取出牛奶的完整流程。
问题出在哪?任务路径太固定了。研究者发现,只要环境布局不变,机器人可以预编一整套动作脚本,闭着眼睛执行。它根本不需要"看"——冰箱门朝哪开、牛奶盒在几号货架,训练时早就记死了。
更麻烦的是反馈机制。多数测试给机器人的信息太丰富了:精确坐标、物体边界框、甚至"最优动作建议"。这不像教小孩洗碗,倒像给GPS导航仪配了个遥控手柄。
「我们想要的不是导航专家,而是能根据眼前情况调整计划的系统。」论文通讯作者、MIT CSAIL的Yoon Kim说。他的团队追踪了2021-2023年顶会论文中的评测数据,发现标注为"视觉推理"的任务里,61%的模型得分波动与环境随机性无关——换句话说,换张图它们根本注意不到。
一个典型场景:机器人接到指令"洗杯子"。训练环境里杯子永远在台面上,它学会了"找杯子→开水龙头→冲水"的固定流程。但测试时杯子已经在水槽里,或者水槽被碗碟占满,机器人继续执行预编脚本,结果要么重复洗同一个杯子,要么把碗碟冲得满地都是。
这种失败被传统评测归类为"执行误差",而非"规划错误"。但Kim团队认为,这正是核心能力缺失:机器人没有建立"我看到什么→我需要怎么改"的反馈闭环。
AsgardBench的设计:把"视力表"换成"动态视力测试"
新基准的名字AsgardBench取自北欧神话,但设计哲学很接地气——像考驾照的科目三,不是背路线,而是看应变能力。
底层仍用AI2-THOR的3D仿真环境,但做了三处关键改造。第一,机器人开局就被传送到目标物体旁边,导航和视角选择直接出局。第二,动作集被压缩到5个:查找(find)、拾取(pickup)、放置(put)、清洁(clean)、开关(toggle_on/off)。第三,也是最关键的:每一步只执行计划中的第一个动作,然后强制重新规划。
这相当于把"写一篇作文"改成"写一句,给老师看一句,再写下一句"。机器人没法一次性编完整个剧本,必须根据执行后的新图像调整下一步。
反馈信号被刻意压缩到极简:动作成功或失败,没有原因说明,没有替代建议。机器人要自己从图像里找线索——杯子是脏是干净?水槽有没有空间?上次开的灯这次还亮着吗?
论文里有个对比案例。指令是"把脏杯子放进洗碗机"。场景A:杯子在台面,干净;场景B:杯子在水槽,脏但堆在碗碟下面;场景C:杯子在台面,脏,但洗碗机已满。三个场景需要完全不同的动作序列,但传统评测里机器人可能用同一套脚本"碰巧"完成其中一两个。
在AsgardBench里,这种碰巧被消灭。因为每一步都要重新提案,机器人必须在当前图像里确认杯子位置、状态、容器可用性,然后生成下一步。计划与感知的绑定被强制化,没有空子可钻。
首批测试结果:大模型的"幻觉"进了物理世界
团队测试了6类模型,包括纯视觉模型、大语言模型(LLM,Large Language Model)、以及两者结合的视觉-语言模型(VLM,Vision-Language Model)。结果呈现出有趣的断层。
纯视觉模型(如CLIP-based规划器)在物体识别上表现稳定,但缺乏任务推理能力。给它"洗杯子"的指令,它能找到杯子,却理解不了"洗"需要先到水槽、再开水龙头、再确认干净。得分卡在23%-31%之间,瓶颈明显。
大语言模型(GPT-4、Claude-3等)反过来:任务分解很流畅,但容易" hallucination(幻觉)"——编造不存在的物体位置。在纯文本模式下,GPT-4假设"杯子通常在台面",生成"去台面找杯子"的计划,但图像里杯子明明在水槽。这种错误在传统评测中被导航能力掩盖,在AsgardBench里直接暴露。
视觉-语言模型被寄予厚望,但表现分化严重。GPT-4V(带视觉能力的GPT-4)在简单场景达到67%成功率,复杂场景骤降至41%。Claude-3 Opus类似,简单场景61%,复杂场景38%。问题集中在两类:一是"视觉锚定失败"——模型描述了图像内容,但没把描述和动作计划挂钩;二是"历史遗忘"——前几步的失败信号没被纳入当前决策。
一个细节很能说明问题。当机器人连续两次"拾取"失败(比如目标物体被遮挡),GPT-4V有34%的概率在第三次尝试同一动作,而不是切换策略(如先"查找"确认位置)。这种固执在人类看来很荒谬,但源于训练数据中的动作频率偏差——"拾取"在成功轨迹中出现最多,模型学会了优先尝试。
表现最好的是专门微调过的模型。团队用AsgardBench的训练集微调了一个7B参数的VLM,复杂场景成功率提升到54%。但论文作者之一、华盛顿大学的Ludwig Schmidt提醒:「这个数字仍然意味着近一半的任务失败。考虑到这是仿真环境,真实世界的噪声会再砍一刀。」
技术细节:怎么防止机器人"刷题"
AsgardBench的防作弊机制值得细说。传统评测的漏洞之一是"可枚举性"——任务空间小到可以用暴力搜索覆盖。新基准通过三招扩容。
第一,物体状态组合爆炸。每个任务涉及3-5个物体,每个物体有位置(6-8个可能点)、状态(干净/脏/装有液体)、容器关联(在哪个柜子/水槽/洗碗机)三个维度。粗略估算,单个任务的有效场景数超过10^4,暴力记忆不现实。
第二,动态干扰项。环境会在执行过程中引入变化:其他物体被移动、灯光开关状态改变、容器被意外占用。这些变化不预设规律,机器人必须实时响应。
第三,动作结果的随机性。"清洁"动作有15%概率失败(模拟水龙头故障),"放置"有10%概率因碰撞检测失败。机器人不能假设动作必然成功,必须在失败后重新评估。
评测指标也被重新设计。除了任务完成率,AsgardBench追踪"计划一致性"——机器人连续多步的计划是否逻辑自洽,以及"感知利用率"——计划变更是否与图像变化相关。一个模型可能靠运气完成任务,但这两项指标会暴露其是否真正在"看"。
数据显示,现有模型的感知利用率平均仅0.37(满分1.0)。这意味着超过60%的计划变更与视觉输入无关,要么在随机尝试,要么在重复固定模式。
行业反应:有人叫好,有人喊难
论文在arXiv发布后,具身智能社区的分歧很快显现。
支持方认为AsgardBench戳破了泡沫。斯坦福大学李飞飞团队的成员在社交媒体评论:「终于有个评测能区分'会导航的脚本'和'真懂规划的智能体'。」谷歌DeepMind的研究员转发了论文,称这是"迈向可靠家庭机器人的必要过滤网"。
质疑声同样尖锐。某头部机器人公司的技术负责人(要求匿名)表示:「极简反馈是学术理想,但真实机器人需要更多信号。我们的机械臂有力矩传感器、触觉反馈、甚至声音识别,故意剥夺这些信息是人为制造困难。」
对此,Yoon Kim回应:「我们不是反对多模态,而是要证明视觉本身足以支撑规划。如果连图像都利用不好,加更多传感器只是掩盖问题。」
商业层面的影响更微妙。AsgardBench的发布恰逢多家公司宣布"家庭机器人量产计划"——Figure AI的Figure 02、特斯拉的Optimus、1X Technologies的NEO。这些产品的演示视频多展示固定场景的流畅操作,与AsgardBench的随机化场景形成对照。
「评测严格了,PR视频就不好拍了。」一位投资人半开玩笑地说。他的基金在2024年投了两家具身智能公司,现在要求被投方提交AsgardBench的测试报告作为尽调材料。
下一步:从仿真到真实,还有几道坎
研究团队已经公开了AsgardBench的代码和数据集,并计划每季度更新场景库。但仿真到真实的迁移(Sim-to-Real)仍是悬而未决的问题。
AI2-THOR的物理引擎基于Unity,物体交互的力学参数与现实有偏差。比如"放置"动作的碰撞检测偏宽松,真实机器人可能需要更精确的姿态调整。团队正在与波士顿动力、Agility Robotics合作,将AsgardBench的测试协议移植到实体平台。
另一个开放问题是学习范式。当前最佳表现依赖监督微调,需要大量标注数据。但AsgardBench的设计初衷是测试"少样本适应"——机器人能否在陌生场景快速调整。强化学习(RL,Reinforcement Learning)和在线学习(Online Learning)的方案还在探索中。
论文最后列出了一组"尚未解决"的场景:多机器人协作、人类介入的动态交互、长周期任务(如"准备一顿晚餐"涉及数十个子任务)。这些被有意排除在当前版本外,因为连单机器人、单任务、短周期的基准都尚未攻克。
「我们给自己挖了个坑,」Ludwig Schmidt在附录里写道,「但之前的评测坑更大,只是被数据填平了。」
AsgardBench的GitHub仓库在发布后72小时内收获1200星标。一条高赞issue问:「如果我的模型得分超过80%,能去你家洗碗吗?」维护者回复:「建议先从仿真器里的虚拟杯子开始。」
热门跟贴