人类不只是用眼睛操控这个世界。
把一张薄卡片插进卡槽、拧开一把锁、从一叠纸杯中分出一个,这些动作之所以对人类毫不费力,靠的不是视觉,而是指尖传回大脑的那一点点压力与滑动信号。然而在机器人领域,触觉长期被当作"锦上添花"的附属模态,真正决定动作的始终是视觉。
过去两年,随着具身智能和 VLA 模型快速发展,机器人的任务开始从"看得见、拿得起"迈向"摸得准、做得细"。从 Physical Intelligence 的 π0,到 NVIDIA 的 GR00T,再到 UC Berkeley 的 EgoScale,越来越多研究开始挑战翻书、插卡、拧灯泡、分纸杯等接触密集型任务。
在一次次的任务中,研究者们开始发现,虽然视觉负责找到物体,但真正决定操作成败的,往往是接触发生后的那几十毫秒。于是,触觉开始重新进入它们的视野,并被尝试引入 Transformer 和 VLA 框架,希望让机器人拥有类似人类指尖的反馈能力。
但当研究者们尝试把触觉传感器接入系统时,一个尴尬的结果发生了:模型不仅没能学会更好的操作,反而更容易出现抓取失误、动作犹豫甚至任务失败。很多时候,触觉不如不加。
这个奇怪的现象引起了一支超级团队的注意。最近,来自 UC Berkeley、NVIDIA、斯坦福、松下等机构的研究者,其中包括斯坦福教授李飞飞、英伟达具身智能负责人 Jim Fan、佐治亚理工学院助理教授徐丹飞、Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell 等多位知名学者,联合发表了一篇题为“T-Rex: Tactile-Reactive Dexterous Manipulation”的论文,分析当前触觉融合方案的根本缺陷,并提出了一套全新的架构——T-Rex 来解决这个问题。
(来源:T-Rex)
加了触觉,反而更差了?
目前最强的机器人操作策略大多基于视觉-语言-动作模型(VLA),其核心是一个大型 Transformer 骨干网络。当研究者引入触觉时,最自然的做法就是把触觉信号编码成 token,和视觉、语言 token 一起喂进同一个 Transformer。这也是大多数现有工作采用的路线。
增加一种新的感知模态,按理说应该让机器人拥有更精准的操作能力。然而,论文中的实验却得出了相反的结果:在相同的实验平台和任务设置下,将触觉力信号直接拼接到预训练好的 π0.5 模型中,任务成功率从 17% 骤降至 6%。也就是说,加入触觉后,模型不仅没有表现得更好,反而更容易失败。
为什么会这样?论文指出,核心矛盾在于频率不匹配。视觉信号的更新频率通常在 5Hz 左右,而触觉反馈天然需要在 20Hz 甚至更高的频率下才能发挥作用。人在捏一个鸡蛋时,手指对力度的微调是毫秒级的。把这两种时间尺度完全不同的信号塞进同一个以低频运行的 Transformer,不仅无法发挥触觉的优势,反而会干扰视觉模态已经学好的表征,造成性能退化。
换句话说,过去的做法不是"加了触觉没用",而是"加的方式不对"。
T-Rex 的核心创新,就是改变触觉输入的方式。把触觉从"另一种输入模态"重新定义为"另一条独立的控制通路"。
它采用了一种混合 Transformer 专家架构(Mixture-of-Transformer-Experts,MoT),将整个系统拆分为三个专家模块,各司其职:
第一个是潜在专家(Latent Expert),负责处理视觉和语言观测,预测未来的视觉表征,为后续动作提供语义上下文。可以把它理解为"看清楚当前场景并预判接下来会发生什么"的模块。
第二个是动作专家(Action Expert),以大约 5Hz 的低频运行,负责粗粒度的动作规划。它采用条件流匹配(Flow Matching)的方式,从纯噪声出发逐步去噪,生成一个中间状态的动作方案——相当于先画一个草图。
第三个也是最关键的,是触觉专家(Tactile Expert)。它以大约 20Hz 的高频运行,接收实时触觉信号,在动作专家产出的"草图"基础上进行快速修正。它不需要重新处理视觉和语言信息,而是直接复用前两个专家缓存的上下文,只关注触觉带来的即时反馈。
这种设计的精妙之处在于:视觉和触觉不再争抢同一个 Transformer 的注意力资源,而是在各自最合适的频率上独立运作,再通过级联去噪的方式协同配合。动作专家完成 10 步去噪中的前 6 步,输出一个部分去噪的动作;触觉专家接过来,用最新的触觉数据完成剩下的 4 步,输出最终可执行的动作。
一套新的触觉编码方式
除了架构创新,T-Rex 在触觉信号的编码和数据上也下了功夫。
论文提出了一种时空触觉编码器(Spatial-Temporal Tactile Encoder),同时捕捉两种互补的触觉信息:一是力的时间动态——通过一个 VQ-VAE(向量量化变分自编码器)将每根手指过去 16 帧的六维力向量压缩为一个紧凑的离散 token,既能捕捉力的变化趋势,又能有效抵抗传感器漂移;二是形变的空间分布——通过一个轻量级卷积网络提取指尖形变图的特征,捕捉接触面的边缘、滑移和剪切模式。
两种信号拼接后,构成触觉专家的完整输入。这种编码方式既保留了触觉的丰富信息,又将其压缩到了 Transformer 能高效处理的规模。
数据方面,团队构建了 T-Rex 数据集。其中包含 100 小时的双臂灵巧手遥操作数据,覆盖超过 200 种日常物品和 22 种运动基元(如抓取、挤压、插入、擦拭、折叠等),包含 7,700 余条轨迹。每条轨迹都同步记录了 RGB 图像、机器人状态、动作指令、触觉力信号和形变图。
与以往针对特定任务录制数据不同,T-Rex 数据集的设计思路是围绕"动词-名词"组合来组织。用 22 个动作原语搭配 200 多种物品,通过组合覆盖尽可能多样的接触行为。这种方式使得模型能够学到通用的触觉-动作对应关系,而非记忆特定任务的模式。
训练采用三阶段策略。第一阶段是大规模人类视频预训练:基于 EgoScale 的方案,在 22,889 小时的第一人称人类视频上预训练潜在专家和动作专家,获取广泛的视觉运动先验。第二阶段是触觉中间训练(mid-training):在 100 小时的 T-Rex 数据集上,将动作专家适配到机器人平台,同时训练触觉专家。第三阶段是技能微调(post-training):对特定任务使用约 100 条示范进行微调。
这种渐进式训练的好处在于:触觉能力不需要从头学,而是在视觉运动先验已经建立之后,以相对较少的数据"嫁接"进来。
12 项任务,平均领先 30 个百分点
对于 T-Rex 的最终效果,论文在 12 项需要精细力控和接触感知的真实世界任务上进行了评估。这些任务包括翻书页、转移鸡蛋、擦盘子、挤牙膏、分纸杯、分拣麻将、开锁、填药盒、酸碱中和滴定、抽卡片、发扑克牌和拧灯泡。每一个都需要机器人对接触力进行动态调节。
结果显示,T-Rex 在所有任务上均取得了最高的成功率,平均达到 65%,比最强基线 EgoScale 的 35% 高出了 30 个百分点。在翻书页、转移鸡蛋、分纸杯等任务上,T-Rex 分别达到了 96%、75%、78% 的成功率。
消融实验进一步证实了几个关键结论。去掉所有触觉输入后,平均成功率从 65% 降至 42%,下降了 23 个百分点,说明触觉信号确实至关重要。去掉异步执行机制(让触觉专家和动作专家以相同频率同步运行),性能下降 5 个百分点,验证了频率解耦的必要性。而在数据效率方面,经过触觉中间训练的模型在仅使用 10 条任务示范时就能达到可用水平,远优于未经中间训练的版本。
回过头看,T-Rex 的成功主要来自几个相互配合的设计。
首先是频率解耦。视觉以约 5 Hz 的频率运行,负责理解场景;触觉则以约 20 Hz 的频率持续更新,负责感知接触后的细微变化,两者互不干扰。这不仅更符合人类处理视觉和触觉的方式,也避免了高频触觉信号被低频模型“淹没”,难以发挥作用。
其次是分工明确。动作专家先规划整体动作,相当于先确定“大方向”;触觉专家再根据实时触觉反馈,对动作进行快速微调。这样一来,视觉负责“决定做什么”,触觉负责“决定怎么做得更准”,两者各自发挥优势。
第三是计算上的优化。触觉专家不需要每次都重新处理视觉和语言信息,而是直接利用动作专家已经计算好的结果,只专注于处理最新的触觉反馈。这既减少了计算量,也让触觉能够以 20 Hz 的频率实时运行,真正跟上机器人操作时的节奏。
局限与未来方向
不过,在结尾部分论文也坦承了当前的局限。对于需要更长时间、更高精度协调的任务,比如那些遥操作本身就很困难的场景。纯粹的行为克隆仍然受限于示范数据的分布,未来可能需要引入强化学习或在线交互来突破瓶颈。
硬件层面,触觉传感器本身的局限也是瓶颈:传感器漂移、设备间的标定差异、以及目前仅限于指尖而非全手掌的感知覆盖,都限制了系统的上限。论文建议未来探索跨异构传感器的统一表征,以及覆盖整个手掌的更密集触觉硬件。
T-Rex 这篇工作给出的核心启示或许可以用一句话概括:触觉不应该被当作视觉的附庸,而应该被当作一个独立的控制回路。
过去几年,机器人学习领域习惯了"万物皆 token"的思路——把所有模态统一编码、扔进同一个大模型。这个范式在视觉和语言上取得了巨大成功,但当触觉这种天然高频、需要即时响应的信号加入时,统一架构的弊端就暴露了出来。T-Rex 的 MoT 架构提供了一种更尊重信号物理特性的融合方式,也为未来多模态机器人系统的设计提供了新的思路。
论文链接:https://arxiv.org/abs/2606.17055
项目主页:https://tactile-rex.github.io/
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成
热门跟贴