嗨,朋友你好,我是诗康妈咪,我们一起学论文,探新知。

你有没有想过:那些能听懂人话、看懂画面、还能控制机器人的 AI 模型,它们到底是在"听你的话",还是在"自作主张"?

今天这篇论文,打开了这个黑盒。

这篇论文干了什么?

一群研究者用 39 万次实验,把六个机器人 AI 模型的"脑子"拆开来看。

他们发现了一件让人意外的事:这些 AI 可能"听懂"了你的指令,但根本没"用上"你的指令。

核心发现一:视觉主导,语言靠边站

研究者做了一个实验:给机器人看一张图片,但不给任何文字指令(空字符串)。

你猜怎么着?机器人照样能把活干好。

在 π₀.₅ 模型上,空指令 + 注入视觉激活,任务成功率从 0% 恢复到 73-77%。

这说明什么?

机器人的行为主要被它"看到"的东西驱动,而不是被它"听到"的指令驱动。

更妙的是,语言敏感度取决于任务结构:

  • 画面里只有一个明确的任务?语言指令被完全忽略——你说什么都一样
  • 画面里有多个可能目标?语言指令变得至关重要——给错指令,成功率从 94% 暴跌到 10%

这就像一个人在熟悉的环境里不用看地图,但在陌生环境里必须听导航。

核心发现二:AI 学的是"坐标",不是"技能"

研究者把任务 A 的"脑活动"注入到任务 B 里。

结果很诡异:
- 任务成功率崩了(83% → 2%)
- 但机器人的动作轨迹却"偏向"了任务 A 的位置

在 X-VLA 模型上,99.8% 的注入后轨迹更接近源任务而非目标任务。

这意味什么?

VLA 学到的不是"抽象的任务表示"(比如"把东西放进容器里"),而是"绑定了具体坐标的运动程序"(比如"在这个位置、往这个方向、用这个角度伸手")。

想象一个演员背台词:他不是记住了"剧情大意",而是记住了"第三场第五步,往左走三步"。

换了个舞台,他还是往左走三步——不管那边有没有道具。

核心发现三:多通路模型有"手"也有"脑子"

有三个模型采用了"双通路"设计——一条路处理视觉语言,一条路专门管动作

研究发现这两条路有明确分工:

通路负责什么出问题会怎样专家通路"怎么动"主动走向错误位置VLM 通路"做什么"原地不动、卡住

打个比方: 专家通路是"手",VLM 通路是"脑子"。手不听脑子的话,就会乱动;脑子不指挥手,就会发呆。

这个发现很实用:出问题时,你可以分别检查是"手的问题"还是"脑子的问题"。

这对我们有什么启发?启发一:理解 ≠ 遵从

AI 内部有你的指令(能以 99.3% 准确率分类不同指令),不代表它会听你的话。

编码 ≠ 使用。

这让我想到教育场景:学生可能"听懂"了知识点,但遇到实际问题时,还是按直觉走老路。

启发二:行为克隆的陷阱

模型学的是"在这个坐标怎么动",不是"面对这类问题怎么办"。

这解释了为什么刷题式学习"换个题型就不会了"——练的是题目的"坐标"(特定形式),不是题目的"关系"(通用结构)。

启发三:诊断的价值

打开黑盒不是为了好奇心,是为了出问题时知道修哪里。

学生出错时,我们需要知道:
- 知道但不用?
- 根本不知道?
- 知道但执行不对?

不同问题需要不同干预。

一句话总结

VLA 不一定是"听懂话的机器人",更像是"看过很多演示的习惯性动作执行器"。

论文信息

  • 标题:Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models
  • 作者:Bryce Grant, Xijia Zhao, Peng Wang
  • 机构:Case Western Reserve University
  • 链接:https://arxiv.org/abs/2603.19233
  • 实验规模:6 个模型、394,000+ 回合、424 个稀疏自编码器、82+ 识别概念

本文作者:诗康妈咪
解读日期:2026-03-22
本文由 AI 辅助生成,仅供参考学习