当李飞飞、Jim Fan、Pieter Abbeel、Trevor Darrell这几个名字同时出现在一篇论文的作者栏里,你大概得停下来看一眼。
6月15日,就有一篇这样的论文挂上了 arXiv,它叫《T-Rex:Tactile-Reactive Dexterous Manipulation(T-Rex:带实时触觉反馈的机器人灵巧操作)》,作者有足足 34 人,来自 UC伯克利、英伟达、斯坦福大学、松下等团队。
它的作者阵容堪称豪华:有AI教母李飞飞、 NVIDIA 具身智能团队的核心研究负责人Jim Fan、Yuke Zhu。
还有UC 伯克利的Pieter Abbeel和Trevor Darrell ,他们分别是 Berkeley 机器人实验室的掌门级人物,以及计算机视觉领域被引用最多的学者之一;此外,还有具身领域知名的年轻学者徐丹飞等等。
这篇大佬云集论文,在讨论现在很火热的触觉问题。
论文给出了一个反直觉的结论:在用灵巧手执行的任务中,给现有 VLA( Vision-Language-Action,视觉 - 语言 - 动作模型)直接加上触觉,不仅没用,还会让性能大幅下降。
他们举了开源 VLA 模型π0.5(Physical Intelligence 的模型)的实验数据来解释这个结论:原始π0.5进行12个触觉相关任务的平均成功率为17%,而在“未加修饰”的直接加上触觉输入后,任务成功率跌到了 6%。
从这个发现出发,论文聚焦起机器人的灵巧手操作。接下来,论文展开讲了三件事:为什么加触觉会越加越差?这篇论文的主角 —— T-Rex 怎么解决这个问题?以及,T-Rex 离真正有用还差多远?
加了触觉,怎么反而更笨了?
先说现状。
当前具身智能领域的主流基础模型范式是 VLA,即Vision-Language-Action,视觉-语言-动作模型。
简单来说,这类模型把视觉感知(看懂环境)、语言理解(听懂指令)、动作生成(输出机器人可执行的控制信号)三类能力整合在一个大模型里,目标是让机器人像人类一样看懂场景、听懂指令、自主完成操作任务。
它们有一个共同特点:活在一个能"看"但很难"摸"的世界里。这会影响机器人执行精细的操作任务。
好比说,执行拿杯子、推箱子、把物品从 A 点搬到 B 点这类大动作,纯视觉反馈还能用。但如果遇到需要接触力控制的任务,就抓瞎了。
像擦盘子这个任务,如果力度太大会直接把盘子推飞,力度太小又擦不掉污渍;还有机器人翻书页,也必须精准感知纸张刚好翘起的临界点,稍用力就会一次翻好几页,力不够又根本掀不起纸;就连拿生鸡蛋这种小事,可能要么捏碎蛋壳,要么没拿稳掉下去。
于是一个想法很自然地产生了:给机器人加上触觉传感器不就行了?
T-Rex 团队做了这个实验。他们给 π0.5 接上了 22 自由度的 Sharpa Wave 多指灵巧手。这款灵巧手自带高分辨率触觉阵列,可以输出每个指尖的接触形变深度 + 6 维力 / 力矩信号。
结果令人震惊:不加触觉,π0.5 平均成功率 17%。加了触觉,跌到 6%。
也就是说,触觉信号没有帮上忙,反而成了噪音。
关于这个有些吊诡的现象,论文用三个原因做了解释。我翻译成大白话理解:
第一,视觉和触觉的 “刷新率” 天生不一样,硬塞在一起一定会打架。
T-Rex 团队指出,现有 VLA 处理视觉信息的频率大约是 5Hz,但触觉反馈需要在更快的、至少 20Hz 的频率中才能发挥作用。把一个 20Hz 的高频信号硬塞进只能跑 5Hz 的模型里,关键的接触瞬间全丢了,快速跳变的触觉数据也打乱了视觉模型的注意力,连原本能做对的视觉决策也难以做对。
另一个问题是,VLA 从预训练开始就 “没见过触觉”。一直在海量视觉、语言数据上中学习,弄明白的是“视觉 - 语言 - 动作”,突然塞一堆陌生的触觉信号,会造成干扰。
最后还有编码问题。现有的触觉编码器大多只处理单帧的静态触觉数据,相当于只拍了一张"触觉照片",但真正关键的接触信息藏在力随时间变化的动态过程里。像手指刚碰到物体、力度逐渐加大、开始发生滑动,这些时序变化被静态编码器直接丢掉了,模型拿到的只是残缺信息。
所以,问题的本质不是说触觉不应该加,是"现有的 VLA 在数据、架构和编码方式上都还没准备好接入触觉。"
这是 T-Rex 这篇论文真正要解决的事。
T-Rex 的"快与慢"
T-Rex 的解法是:将触觉作为一条独立的控制条件,最终确定动作该如何执行,而不是仅仅视为一种新模态的信号输入。
具体是怎么做的呢?
他们将机器人“大脑”分成了“慢”和“快”的三层:
第一层是潜在专家(Latent Expert)模块,它负责处理机器人接收到的视觉数据和语言指令,然后预测未来可能发生什么,为后续动作生成提供时间连贯的上下文信息。它给到的信息全程可复用,运行频率是 5Hz 左右,和现有 VLA 一样。
第二层是动作专家(Action Expert),同样也是以 5Hz 频率运行,在潜在专家处获取上下文之后,它负责粗粒度的动作规划,生成半成品动作,确定整段动作的大体走向,比如手去哪、怎么抓物体,不处理细微接触力调整。
第三层就到了快的部分,即 Tactile Expert 触觉专家,它以约 20 Hz的频率运行,作用是在接收动作专家(Action Expert)输出半完成的动作中间结果后,不重新跑视觉模型,直接根据触觉传感器的实时力、接触形变数据,做高频的动作残差修正,把半成品的动作 "补完" 成最终可执行的指令。
比如动作专家输出了 "收拢手指抓鸡蛋" 的中间动作,触觉专家会在抓的过程中每秒被调用超 20 次检测指尖的受力和形变,实时微调:再松一点、再紧一点、角度偏了往左调一点,刚好把鸡蛋捏住但不捏碎。
这就像一个公司的战略部和执行部分开办公。战略部每周开一次会定大方向,执行部每天盯现场做具体调整。
这套架构在论文里叫 MoT(Mixture-of-Transformer-Experts,混合 Transformer 专家)。
这里的关键设计巧思是,Tactile Expert 并不重新推理,它会复用前面 Latent Expert 和 Action Expert 已经算好的视觉、语言上下文和中间动作状态的缓存。这意味着,它不需要重新"看"一遍环境、重新"理解"一遍指令,只需要在已有的理解基础上,专注处理触觉增量。这是它能快速运转的核心原因。
*T-Rex的结构
然后是解决触觉的编码问题。
之前的一些 VLA 模型,要么不接触觉,要么把触觉信号当静态特征处理,相当于给接触状态拍了张 "触觉照片",只能看到某一瞬间哪里受力。
但 T-Rex 发现接触任务的关键信息不止在单帧里。翻一页纸的时候,核心信息不是某一刻手指压力多大,而是最近几十毫秒里力的变化过程 —— 先是接触纸面、然后纸张被顶起、再到开始滑动,这是一个连续的时序过程,不是一张静态快照能涵盖的。
所以 T-Rex 设计了一个时空触觉编码器,同时捕捉触觉力的时间变化,以及接触面形变的空间分布,相当于录了一小段触觉 "短视频",把每个手指的力变化压缩成紧凑的离散 token;最终的触觉 token 里同时包含空间信息(哪根手指、哪个位置在受力等)和时间信息(力度是在变大还是变小、有没有发生滑动等)。
最后是训练方式。
T-Rex 的训练分三步:第一步,用 22889 小时的人类第一人称视频做预训练,让模型先学会"看人怎么用手"。这完全不涉及触觉专家。
第二阶段,用 100 小时的真实机器人双臂遥操作数据做 "中训练"(mid-training),这些数据全部带同步的多视角画面、触觉信号、本体状态和语言标注,覆盖 22 种基础运动基元、200 多种日常物体,这一阶段加入了触觉专家,让模型学会把视觉理解和触觉信号对齐,练出触觉反应能力。
第三步,针对具体下游任务,只用约 100 条任务演示做轻量微调,就能快速适配特定任务。
*T-Rex团队采集了一套 100 小时的双手灵巧操作数据集:包含 200 多种日常物品、22 类基础手部动作,覆盖各式各样需要接触受力的操作行为。 每一条操作轨迹都同步记录五类数据:彩色摄像头画面、指尖触觉传感数据、机器人自身关节状态、机器人执行动作、配套语言指令。
这套设计里,2 万多小时的人类第一视角数据是公开的大规模操作数据集,获取成本低。真正采集成本高、需要机器人真机带触觉采集的数据是 100 小时。相当于用低成本的通用数据打地基,用高价值的触觉数据做专项对齐,最后用极少量任务数据做适配,把触觉 VLA 的训练成本拉到了可落地的水平。
65%:很强,但每三次还是有一次失败
那么,做了这么多的工作之后,T-Rex 效果怎么样?
这次 T-Rex 在 12 项真实世界触觉交互任务完成了实测,整套硬件采用 Dexmate Vega-1 固定底座双臂机器人,单臂 7 自由度,搭配两台 Sharpa Wave 22 自由度灵巧手;机器人指尖搭载厂商自研触觉模块,可同步输出 6 轴力矢量 + 指尖形变图。
这 12 项任务覆盖力敏感(转移鸡蛋、挤牙膏、药剂装填、酸碱中和滴管操作)、形变感知(翻书页、擦盘子、分叠纸杯、抽卡片)、双手协同(分拣麻将、开锁、发扑克牌、拧灯泡)三大类。
数据显示,T-Rex 全任务平均成功率 65%。其他模型的数据相对就低了很多,ViTacFormer 是3%、RDP 为6%、Tactile-VLA 达到了15%、π0.5 为17%、π0.5+tactile只有 6%,最高的是英伟达面向灵巧手训练模型 EgoScale,达到了35%。
这个成绩在学术界已经是碾压级的了,但 65% 这个数字反过来看也很诚实:每三次操作,有一次会失败。
论文自己也做了失败分析。机器人发生的典型故障包括:物体碰撞、抓取滑脱、定位偏差、多指误摩擦、用力过大、滑动错位。
像抓取不准、整体轨迹跑偏这类大范围空间误差,根源都出自 Action Expert 低频视觉规划环节,触觉专家只能做指尖小幅实时微调,没办法修正手臂全局定位偏差,因此只能缓解这类问题,无法从根本解决。
另外,如果要真推广开这份工作,还有一个难题是工业落地可用。
T-Rex 用的硬件平台,有两只 Sharpa Wave 灵巧手,加两条机械臂,加摄像头、操作系统和算力,全套大约 15 万到 20 万美元(约 108 万到 144 万人民币)。这个价格还是有门槛的。
好的方面是,T- Rex 100小时的触觉同步数据集,全部是人类遥操作采集的。 每小时的采集成本(操作员工资 + 设备损耗 + 质量筛选)不便宜,但论文开源了部分数据集,后续如果团队要做自己的任务,可以参考。
T- Rex 这份工作,和现在的产业热点结合很深。
触觉传感器正在成为灵巧手的标配,各个触觉厂商也都在出货。国内外触觉传感器、灵巧手厂商都在加速出货,整个触觉具身赛道肉眼可见地在升温。
但 T-Rex 这篇论文相当于给行业提了个醒:买了触觉传感器,不等于机器人就会用触觉,还需要匹配对应的模型架构、训练范式和推理机制,才能真正让触觉发挥作用,而不是变成干扰模型的噪音。
这个具身的新方向,刚刚开了个头。
热门跟贴