这篇李飞飞、Jim Fan联手发表的论文，揭示了具身领域的最新方向|机器人|李飞飞|灵巧手|视觉|触觉|论文

当李飞飞、Jim Fan、Pieter Abbeel、Trevor Darrell这几个名字同时出现在一篇论文的作者栏里，你大概得停下来看一眼。

6月15日，就有一篇这样的论文挂上了 arXiv，它叫《T-Rex：Tactile-Reactive Dexterous Manipulation（T-Rex：带实时触觉反馈的机器人灵巧操作）》，作者有足足 34 人，来自 UC伯克利、英伟达、斯坦福大学、松下等团队。

它的作者阵容堪称豪华：有AI教母李飞飞、 NVIDIA 具身智能团队的核心研究负责人Jim Fan、Yuke Zhu。

还有UC 伯克利的Pieter Abbeel和Trevor Darrell ，他们分别是 Berkeley 机器人实验室的掌门级人物，以及计算机视觉领域被引用最多的学者之一；此外，还有具身领域知名的年轻学者徐丹飞等等。

这篇大佬云集论文，在讨论现在很火热的触觉问题。

论文给出了一个反直觉的结论：在用灵巧手执行的任务中，给现有 VLA（ Vision-Language-Action，视觉 - 语言 - 动作模型）直接加上触觉，不仅没用，还会让性能大幅下降。

他们举了开源 VLA 模型π0.5（Physical Intelligence 的模型）的实验数据来解释这个结论：原始π0.5进行12个触觉相关任务的平均成功率为17%，而在“未加修饰”的直接加上触觉输入后，任务成功率跌到了 6%。

从这个发现出发，论文聚焦起机器人的灵巧手操作。接下来，论文展开讲了三件事：为什么加触觉会越加越差？这篇论文的主角 —— T-Rex 怎么解决这个问题？以及，T-Rex 离真正有用还差多远？

加了触觉，怎么反而更笨了？

先说现状。

当前具身智能领域的主流基础模型范式是 VLA，即Vision-Language-Action，视觉-语言-动作模型。

简单来说，这类模型把视觉感知（看懂环境）、语言理解（听懂指令）、动作生成（输出机器人可执行的控制信号）三类能力整合在一个大模型里，目标是让机器人像人类一样看懂场景、听懂指令、自主完成操作任务。

它们有一个共同特点：活在一个能"看"但很难"摸"的世界里。这会影响机器人执行精细的操作任务。

好比说，执行拿杯子、推箱子、把物品从 A 点搬到 B 点这类大动作，纯视觉反馈还能用。但如果遇到需要接触力控制的任务，就抓瞎了。

像擦盘子这个任务，如果力度太大会直接把盘子推飞，力度太小又擦不掉污渍；还有机器人翻书页，也必须精准感知纸张刚好翘起的临界点，稍用力就会一次翻好几页，力不够又根本掀不起纸；就连拿生鸡蛋这种小事，可能要么捏碎蛋壳，要么没拿稳掉下去。

于是一个想法很自然地产生了：给机器人加上触觉传感器不就行了？

T-Rex 团队做了这个实验。他们给 π0.5 接上了 22 自由度的 Sharpa Wave 多指灵巧手。这款灵巧手自带高分辨率触觉阵列，可以输出每个指尖的接触形变深度 + 6 维力 / 力矩信号。

结果令人震惊：不加触觉，π0.5 平均成功率 17%。加了触觉，跌到 6%。

也就是说，触觉信号没有帮上忙，反而成了噪音。

关于这个有些吊诡的现象，论文用三个原因做了解释。我翻译成大白话理解：

第一，视觉和触觉的 “刷新率” 天生不一样，硬塞在一起一定会打架。

T-Rex 团队指出，现有 VLA 处理视觉信息的频率大约是 5Hz，但触觉反馈需要在更快的、至少 20Hz 的频率中才能发挥作用。把一个 20Hz 的高频信号硬塞进只能跑 5Hz 的模型里，关键的接触瞬间全丢了，快速跳变的触觉数据也打乱了视觉模型的注意力，连原本能做对的视觉决策也难以做对。

另一个问题是，VLA 从预训练开始就 “没见过触觉”。一直在海量视觉、语言数据上中学习，弄明白的是“视觉 - 语言 - 动作”，突然塞一堆陌生的触觉信号，会造成干扰。

最后还有编码问题。现有的触觉编码器大多只处理单帧的静态触觉数据，相当于只拍了一张"触觉照片"，但真正关键的接触信息藏在力随时间变化的动态过程里。像手指刚碰到物体、力度逐渐加大、开始发生滑动，这些时序变化被静态编码器直接丢掉了，模型拿到的只是残缺信息。

所以，问题的本质不是说触觉不应该加，是"现有的 VLA 在数据、架构和编码方式上都还没准备好接入触觉。"

这是 T-Rex 这篇论文真正要解决的事。

T-Rex 的"快与慢"

T-Rex 的解法是：将触觉作为一条独立的控制条件，最终确定动作该如何执行，而不是仅仅视为一种新模态的信号输入。

具体是怎么做的呢？

他们将机器人“大脑”分成了“慢”和“快”的三层：

第一层是潜在专家（Latent Expert）模块，它负责处理机器人接收到的视觉数据和语言指令，然后预测未来可能发生什么，为后续动作生成提供时间连贯的上下文信息。它给到的信息全程可复用，运行频率是 5Hz 左右，和现有 VLA 一样。

第二层是动作专家（Action Expert），同样也是以 5Hz 频率运行，在潜在专家处获取上下文之后，它负责粗粒度的动作规划，生成半成品动作，确定整段动作的大体走向，比如手去哪、怎么抓物体，不处理细微接触力调整。

第三层就到了快的部分，即 Tactile Expert 触觉专家，它以约 20 Hz的频率运行，作用是在接收动作专家（Action Expert）输出半完成的动作中间结果后，不重新跑视觉模型，直接根据触觉传感器的实时力、接触形变数据，做高频的动作残差修正，把半成品的动作 "补完" 成最终可执行的指令。

比如动作专家输出了 "收拢手指抓鸡蛋" 的中间动作，触觉专家会在抓的过程中每秒被调用超 20 次检测指尖的受力和形变，实时微调：再松一点、再紧一点、角度偏了往左调一点，刚好把鸡蛋捏住但不捏碎。

这就像一个公司的战略部和执行部分开办公。战略部每周开一次会定大方向，执行部每天盯现场做具体调整。

这套架构在论文里叫 MoT（Mixture-of-Transformer-Experts，混合 Transformer 专家）。

这里的关键设计巧思是，Tactile Expert 并不重新推理，它会复用前面 Latent Expert 和 Action Expert 已经算好的视觉、语言上下文和中间动作状态的缓存。这意味着，它不需要重新"看"一遍环境、重新"理解"一遍指令，只需要在已有的理解基础上，专注处理触觉增量。这是它能快速运转的核心原因。

*T-Rex的结构

然后是解决触觉的编码问题。

之前的一些 VLA 模型，要么不接触觉，要么把触觉信号当静态特征处理，相当于给接触状态拍了张 "触觉照片"，只能看到某一瞬间哪里受力。

但 T-Rex 发现接触任务的关键信息不止在单帧里。翻一页纸的时候，核心信息不是某一刻手指压力多大，而是最近几十毫秒里力的变化过程 —— 先是接触纸面、然后纸张被顶起、再到开始滑动，这是一个连续的时序过程，不是一张静态快照能涵盖的。

所以 T-Rex 设计了一个时空触觉编码器，同时捕捉触觉力的时间变化，以及接触面形变的空间分布，相当于录了一小段触觉 "短视频"，把每个手指的力变化压缩成紧凑的离散 token；最终的触觉 token 里同时包含空间信息（哪根手指、哪个位置在受力等）和时间信息（力度是在变大还是变小、有没有发生滑动等）。

最后是训练方式。

T-Rex 的训练分三步：第一步，用 22889 小时的人类第一人称视频做预训练，让模型先学会"看人怎么用手"。这完全不涉及触觉专家。

第二阶段，用 100 小时的真实机器人双臂遥操作数据做 "中训练"（mid-training），这些数据全部带同步的多视角画面、触觉信号、本体状态和语言标注，覆盖 22 种基础运动基元、200 多种日常物体，这一阶段加入了触觉专家，让模型学会把视觉理解和触觉信号对齐，练出触觉反应能力。

第三步，针对具体下游任务，只用约 100 条任务演示做轻量微调，就能快速适配特定任务。