你的 AI 机器人可能根本没听你的话

我不叫阿哏

2026-03-22 15:48 ·广东

嗨，朋友你好，我是诗康妈咪，我们一起学论文，探新知。

你有没有想过：那些能听懂人话、看懂画面、还能控制机器人的 AI 模型，它们到底是在"听你的话"，还是在"自作主张"？

今天这篇论文，打开了这个黑盒。

这篇论文干了什么？

一群研究者用 39 万次实验，把六个机器人 AI 模型的"脑子"拆开来看。

他们发现了一件让人意外的事：这些 AI 可能"听懂"了你的指令，但根本没"用上"你的指令。

核心发现一：视觉主导，语言靠边站

研究者做了一个实验：给机器人看一张图片，但不给任何文字指令（空字符串）。

你猜怎么着？机器人照样能把活干好。

在 π₀.₅ 模型上，空指令 + 注入视觉激活，任务成功率从 0% 恢复到 73-77%。

这说明什么？

机器人的行为主要被它"看到"的东西驱动，而不是被它"听到"的指令驱动。

更妙的是，语言敏感度取决于任务结构：

画面里只有一个明确的任务？语言指令被完全忽略——你说什么都一样
画面里有多个可能目标？语言指令变得至关重要——给错指令，成功率从 94% 暴跌到 10%

这就像一个人在熟悉的环境里不用看地图，但在陌生环境里必须听导航。

核心发现二：AI 学的是"坐标"，不是"技能"

研究者把任务 A 的"脑活动"注入到任务 B 里。

结果很诡异：
- 任务成功率崩了（83% → 2%）
- 但机器人的动作轨迹却"偏向"了任务 A 的位置

在 X-VLA 模型上，99.8% 的注入后轨迹更接近源任务而非目标任务。

这意味什么？

VLA 学到的不是"抽象的任务表示"（比如"把东西放进容器里"），而是"绑定了具体坐标的运动程序"（比如"在这个位置、往这个方向、用这个角度伸手"）。

想象一个演员背台词：他不是记住了"剧情大意"，而是记住了"第三场第五步，往左走三步"。

换了个舞台，他还是往左走三步——不管那边有没有道具。

核心发现三：多通路模型有"手"也有"脑子"

有三个模型采用了"双通路"设计——一条路处理视觉语言，一条路专门管动作。

研究发现这两条路有明确分工：

通路负责什么出问题会怎样专家通路"怎么动"主动走向错误位置VLM 通路"做什么"原地不动、卡住

打个比方： 专家通路是"手"，VLM 通路是"脑子"。手不听脑子的话，就会乱动；脑子不指挥手，就会发呆。

这个发现很实用：出问题时，你可以分别检查是"手的问题"还是"脑子的问题"。

这对我们有什么启发？启发一：理解 ≠ 遵从

AI 内部有你的指令（能以 99.3% 准确率分类不同指令），不代表它会听你的话。

编码 ≠ 使用。

这让我想到教育场景：学生可能"听懂"了知识点，但遇到实际问题时，还是按直觉走老路。

启发二：行为克隆的陷阱

模型学的是"在这个坐标怎么动"，不是"面对这类问题怎么办"。

这解释了为什么刷题式学习"换个题型就不会了"——练的是题目的"坐标"（特定形式），不是题目的"关系"（通用结构）。

启发三：诊断的价值

打开黑盒不是为了好奇心，是为了出问题时知道修哪里。

学生出错时，我们需要知道：
- 知道但不用？
- 根本不知道？
- 知道但执行不对？

不同问题需要不同干预。

一句话总结

VLA 不一定是"听懂话的机器人"，更像是"看过很多演示的习惯性动作执行器"。

论文信息

标题：Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models
作者：Bryce Grant, Xijia Zhao, Peng Wang
机构：Case Western Reserve University
链接：https://arxiv.org/abs/2603.19233
实验规模：6 个模型、394,000+ 回合、424 个稀疏自编码器、82+ 识别概念

本文作者：诗康妈咪
解读日期：2026-03-22
本文由 AI 辅助生成，仅供参考学习

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴