李飞飞 Jim Fan和徐丹飞联合重磅论文：机器人灵巧手可能走错了路|传感器|动作|机器人|李飞飞|触觉|论文

人类不只是用眼睛操控这个世界。

把一张薄卡片插进卡槽、拧开一把锁、从一叠纸杯中分出一个，这些动作之所以对人类毫不费力，靠的不是视觉，而是指尖传回大脑的那一点点压力与滑动信号。然而在机器人领域，触觉长期被当作"锦上添花"的附属模态，真正决定动作的始终是视觉。

过去两年，随着具身智能和 VLA 模型快速发展，机器人的任务开始从"看得见、拿得起"迈向"摸得准、做得细"。从 Physical Intelligence 的 π0，到 NVIDIA 的 GR00T，再到 UC Berkeley 的 EgoScale，越来越多研究开始挑战翻书、插卡、拧灯泡、分纸杯等接触密集型任务。

在一次次的任务中，研究者们开始发现，虽然视觉负责找到物体，但真正决定操作成败的，往往是接触发生后的那几十毫秒。于是，触觉开始重新进入它们的视野，并被尝试引入 Transformer 和 VLA 框架，希望让机器人拥有类似人类指尖的反馈能力。

但当研究者们尝试把触觉传感器接入系统时，一个尴尬的结果发生了：模型不仅没能学会更好的操作，反而更容易出现抓取失误、动作犹豫甚至任务失败。很多时候，触觉不如不加。

这个奇怪的现象引起了一支超级团队的注意。最近，来自 UC Berkeley、NVIDIA、斯坦福、松下等机构的研究者，其中包括斯坦福教授李飞飞、英伟达具身智能负责人 Jim Fan、佐治亚理工学院助理教授徐丹飞、Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell 等多位知名学者，联合发表了一篇题为“T-Rex: Tactile-Reactive Dexterous Manipulation”的论文，分析当前触觉融合方案的根本缺陷，并提出了一套全新的架构——T-Rex 来解决这个问题。

（来源：T-Rex）

加了触觉，反而更差了？

目前最强的机器人操作策略大多基于视觉-语言-动作模型（VLA），其核心是一个大型 Transformer 骨干网络。当研究者引入触觉时，最自然的做法就是把触觉信号编码成 token，和视觉、语言 token 一起喂进同一个 Transformer。这也是大多数现有工作采用的路线。

增加一种新的感知模态，按理说应该让机器人拥有更精准的操作能力。然而，论文中的实验却得出了相反的结果：在相同的实验平台和任务设置下，将触觉力信号直接拼接到预训练好的 π0.5 模型中，任务成功率从 17% 骤降至 6%。也就是说，加入触觉后，模型不仅没有表现得更好，反而更容易失败。

为什么会这样？论文指出，核心矛盾在于频率不匹配。视觉信号的更新频率通常在 5Hz 左右，而触觉反馈天然需要在 20Hz 甚至更高的频率下才能发挥作用。人在捏一个鸡蛋时，手指对力度的微调是毫秒级的。把这两种时间尺度完全不同的信号塞进同一个以低频运行的 Transformer，不仅无法发挥触觉的优势，反而会干扰视觉模态已经学好的表征，造成性能退化。

换句话说，过去的做法不是"加了触觉没用"，而是"加的方式不对"。

T-Rex 的核心创新，就是改变触觉输入的方式。把触觉从"另一种输入模态"重新定义为"另一条独立的控制通路"。

它采用了一种混合 Transformer 专家架构（Mixture-of-Transformer-Experts，MoT），将整个系统拆分为三个专家模块，各司其职：

第一个是潜在专家（Latent Expert），负责处理视觉和语言观测，预测未来的视觉表征，为后续动作提供语义上下文。可以把它理解为"看清楚当前场景并预判接下来会发生什么"的模块。

第二个是动作专家（Action Expert），以大约 5Hz 的低频运行，负责粗粒度的动作规划。它采用条件流匹配（Flow Matching）的方式，从纯噪声出发逐步去噪，生成一个中间状态的动作方案——相当于先画一个草图。

第三个也是最关键的，是触觉专家（Tactile Expert）。它以大约 20Hz 的高频运行，接收实时触觉信号，在动作专家产出的"草图"基础上进行快速修正。它不需要重新处理视觉和语言信息，而是直接复用前两个专家缓存的上下文，只关注触觉带来的即时反馈。

这种设计的精妙之处在于：视觉和触觉不再争抢同一个 Transformer 的注意力资源，而是在各自最合适的频率上独立运作，再通过级联去噪的方式协同配合。动作专家完成 10 步去噪中的前 6 步，输出一个部分去噪的动作；触觉专家接过来，用最新的触觉数据完成剩下的 4 步，输出最终可执行的动作。

一套新的触觉编码方式

除了架构创新，T-Rex 在触觉信号的编码和数据上也下了功夫。

论文提出了一种时空触觉编码器（Spatial-Temporal Tactile Encoder），同时捕捉两种互补的触觉信息：一是力的时间动态——通过一个 VQ-VAE（向量量化变分自编码器）将每根手指过去 16 帧的六维力向量压缩为一个紧凑的离散 token，既能捕捉力的变化趋势，又能有效抵抗传感器漂移；二是形变的空间分布——通过一个轻量级卷积网络提取指尖形变图的特征，捕捉接触面的边缘、滑移和剪切模式。

两种信号拼接后，构成触觉专家的完整输入。这种编码方式既保留了触觉的丰富信息，又将其压缩到了 Transformer 能高效处理的规模。

数据方面，团队构建了 T-Rex 数据集。其中包含 100 小时的双臂灵巧手遥操作数据，覆盖超过 200 种日常物品和 22 种运动基元（如抓取、挤压、插入、擦拭、折叠等），包含 7,700 余条轨迹。每条轨迹都同步记录了 RGB 图像、机器人状态、动作指令、触觉力信号和形变图。

与以往针对特定任务录制数据不同，T-Rex 数据集的设计思路是围绕"动词-名词"组合来组织。用 22 个动作原语搭配 200 多种物品，通过组合覆盖尽可能多样的接触行为。这种方式使得模型能够学到通用的触觉-动作对应关系，而非记忆特定任务的模式。

训练采用三阶段策略。第一阶段是大规模人类视频预训练：基于 EgoScale 的方案，在 22,889 小时的第一人称人类视频上预训练潜在专家和动作专家，获取广泛的视觉运动先验。第二阶段是触觉中间训练（mid-training）：在 100 小时的 T-Rex 数据集上，将动作专家适配到机器人平台，同时训练触觉专家。第三阶段是技能微调（post-training）：对特定任务使用约 100 条示范进行微调。

这种渐进式训练的好处在于：触觉能力不需要从头学，而是在视觉运动先验已经建立之后，以相对较少的数据"嫁接"进来。

12 项任务，平均领先 30 个百分点

对于 T-Rex 的最终效果，论文在 12 项需要精细力控和接触感知的真实世界任务上进行了评估。这些任务包括翻书页、转移鸡蛋、擦盘子、挤牙膏、分纸杯、分拣麻将、开锁、填药盒、酸碱中和滴定、抽卡片、发扑克牌和拧灯泡。每一个都需要机器人对接触力进行动态调节。

结果显示，T-Rex 在所有任务上均取得了最高的成功率，平均达到 65%，比最强基线 EgoScale 的 35% 高出了 30 个百分点。在翻书页、转移鸡蛋、分纸杯等任务上，T-Rex 分别达到了 96%、75%、78% 的成功率。

消融实验进一步证实了几个关键结论。去掉所有触觉输入后，平均成功率从 65% 降至 42%，下降了 23 个百分点，说明触觉信号确实至关重要。去掉异步执行机制（让触觉专家和动作专家以相同频率同步运行），性能下降 5 个百分点，验证了频率解耦的必要性。而在数据效率方面，经过触觉中间训练的模型在仅使用 10 条任务示范时就能达到可用水平，远优于未经中间训练的版本。

回过头看，T-Rex 的成功主要来自几个相互配合的设计。

首先是频率解耦。视觉以约 5 Hz 的频率运行，负责理解场景；触觉则以约 20 Hz 的频率持续更新，负责感知接触后的细微变化，两者互不干扰。这不仅更符合人类处理视觉和触觉的方式，也避免了高频触觉信号被低频模型“淹没”，难以发挥作用。

其次是分工明确。动作专家先规划整体动作，相当于先确定“大方向”；触觉专家再根据实时触觉反馈，对动作进行快速微调。这样一来，视觉负责“决定做什么”，触觉负责“决定怎么做得更准”，两者各自发挥优势。

第三是计算上的优化。触觉专家不需要每次都重新处理视觉和语言信息，而是直接利用动作专家已经计算好的结果，只专注于处理最新的触觉反馈。这既减少了计算量，也让触觉能够以 20 Hz 的频率实时运行，真正跟上机器人操作时的节奏。

局限与未来方向

不过，在结尾部分论文也坦承了当前的局限。对于需要更长时间、更高精度协调的任务，比如那些遥操作本身就很困难的场景。纯粹的行为克隆仍然受限于示范数据的分布，未来可能需要引入强化学习或在线交互来突破瓶颈。

硬件层面，触觉传感器本身的局限也是瓶颈：传感器漂移、设备间的标定差异、以及目前仅限于指尖而非全手掌的感知覆盖，都限制了系统的上限。论文建议未来探索跨异构传感器的统一表征，以及覆盖整个手掌的更密集触觉硬件。

T-Rex 这篇工作给出的核心启示或许可以用一句话概括：触觉不应该被当作视觉的附庸，而应该被当作一个独立的控制回路。

过去几年，机器人学习领域习惯了"万物皆 token"的思路——把所有模态统一编码、扔进同一个大模型。这个范式在视觉和语言上取得了巨大成功，但当触觉这种天然高频、需要即时响应的信号加入时，统一架构的弊端就暴露了出来。T-Rex 的 MoT 架构提供了一种更尊重信号物理特性的融合方式，也为未来多模态机器人系统的设计提供了新的思路。

论文链接：https://arxiv.org/abs/2606.17055

项目主页：https://tactile-rex.github.io/

运营/排版：何晨龙

注：封面/首图由 AI 辅助生成