李飞飞、英伟达 Jim Fan 、徐丹飞三巨头联合重磅论文，改写灵巧手触觉赛道|机器人|李飞飞|灵巧手|英伟达|视觉|触觉|论文

大数据受权转载自ai科技评论

作者丨齐铖湧

编辑丨林觉民

近日，具身领域的一篇 “神仙阵容” 的论文出圈。

AI 教母李飞飞、NVIDIA 的 Jim Fan（范麟熙）、00 后具身华人新星徐丹飞、朱玉可、UC Berkeley 的 Trevor Darrell、Pieter Abbeel、Ken Goldberg、Jitendra Malik…… 可以说，这串名单几乎集齐了当前全球 AI 与机器人领域最顶尖的 “最强大脑”，随便拎两个出来都能撑起一场顶会 keynote。

然而，他们凑在一起做的第一件事，居然落在一个非常细微的领域：灵巧手。

更让人惊讶的是，这篇论文得出了一个非常反直觉的实验结果：

过去具身行业在灵巧手触觉的探索方向，可能错了。

灵巧手之殇

在大众看来，灵巧手赛道有两个趋势，一是 demo 越来越炫，而是销量越来越多。

今年春晚灵巧手盘核桃已经足够惊艳，不久前，Sharpa 又晒出灵巧手削苹果的视频，让人咋舌称赞。

此外灵巧手的出货量越来越猛，我们拿到一组研究机构 GGII 的数据，2026 年灵巧手的销量能达到 7 万只，是 2025 年的 3.6 倍。并且，在机器人已经来到万元级水准，很多灵巧手单只售价甚至高达十多万，几乎疯狂。在外行眼里，灵巧手已经无所不能了，关节越来越灵活，手指反应越来越快，也慢慢开始有了触觉和温度感知。

但这篇大佬云集的论文，给这一切泼了一盆冷水： 目前给灵巧手加触觉，机器人反而更笨了。

先来看一个行业大背景：具身智能的三条路，走到灵巧手都卡住了。第一条路：纯视觉 VLA。这是当下最热闹的路线，π0、GR00T N1、OpenVLA 都在做。它们靠摄像头理解世界，能做类似移动杯子这种粗粒度任务。但摄像头有盲区，而且感知不到手指和物体之间的细节，就像视力 5.0 的人戴手套做针线活，看得见线头，感觉不到针有没有穿过去。

第二条路：人类视频迁移。这是最近很火的方向，EgoScale 用了 2 万多小时人类第一人称视频做预训练，EgoEngine 尝试把人类视频转成机器人数据。看似互联网上人类操作视频取之不尽，这路子行得通，但落到灵巧手上就不灵了。原因很简单，就像看世界杯梅西踢球，眼睛学会了，但上场就不行了。视觉数据提供了动作的 "外观"，却给不了接触的 "手感"。

第三条路是遥操作数据驱动，这条路线唯一的优点是数据质量最高，其他都是缺点，比如采集太贵，通道不够等等。三条路走到灵巧手这里都卡住了，最核心的原因就是接触后的反馈闭环。

简单来说，怎么让灵巧手更好地加入触觉。

触觉，不是灵巧手领域的新话题。这个领域过去有很多探索，比如牛津大学机器人实验室做的 ETac，走的是表征学习路线，伯克利做的 ViTacFormer，就把触觉和视觉做交叉注意力融合，Tactile-VLA 则尝试把触觉直接塞进 VLA 框架。结果不少实验室试了一圈，逐渐形成一个共识：

触觉可以 "硬塞进去"，但塞进去之后，模型表现反而更差了。

灵巧手领域的“霸王龙”，

给视觉单开一条通道

但好在泼完冷水后，论文也给灵巧手行业指出了一条明路。

这篇由英伟达、伯克利、斯坦福联合署名的重磅作品，名叫《T-Rex: Tactile-Reactive Dexterous Manipulation》。

T-Rex 是霸王龙的意思，也代表了它在 “灵巧手触觉” 领域的地位。

他们先是做了一个最直观的实验：给行业经典模型 π0.5 加上触觉条件后，模型做任务的成功率从 17% 跌到 6%，这个结果很让人震惊，但却在情理之中。因为简单粗暴地增加模态，不等于增加了能力，触觉需要自己的时序编码、自己的处理通路、自己的训练范式，而不是作为视觉的 "附属频道"。

于是，T-Rex 霸王龙团队干脆开了一个脑洞，既然 "把触觉塞进现有模型" 这么难，为什么不给触觉单开一条 "高速通道"？

T-Rex 的核心洞察很简单，但执行起来极其精密。

要做创新，架构很重要，大家都知道大语言模型，有个经典的 MoE 专家架构，不同专家回答不同的问题。

T-Rex 霸王龙采用 Mixture-of-Transformers（MoT）架构，类似大模型领域的 MoE 专家架构，内部有三个分工明确的专家：

Latent Expert，负责预测未来的视觉状态，它类似于厨房的总厨，把控全局，预判客人需求和菜品走向，看的是手上的物体在哪，要做什么。

Action Expert，它决定手臂和手指的宏观运动，它类似于厨师长，统筹切配，决定食材怎么处理，手伸到哪个位置、手指摆成什么姿态、以什么速度接近目标，这里有个细节：它的频率是 5Hz。

最后一个专家，叫做 Tactile Expert，专门处理指尖传回的触觉信号，类似于颠勺师傅，它的频率是 20Hz，高频颠勺，根据火候实时调整。

这个 MoT 专家架构设计非常关键。它避免了视觉和触觉 "抢方向盘" 的问题，就像你开车去一个目的地，GPS 决定走哪条路（5Hz 规划），而你的手根据路面颠簸实时调整方向盘（20Hz 修正），两个系统不打架，各管一摊。

这里我想展开介绍一下其中这个 5Hz 和 20Hz 的快慢设计。

Action Expert ，也就是厨师长，用 5Hz 慢悠悠地规划，Tactile Expert 也就是颠勺师傅，用 20Hz 急匆匆地修正，两者不用互相等。

在一个动作片段里，Action Expert 发一次指令，Tactile Expert 能插进来修正四次，类似于厨师长说要做甜口的，颠勺师傅立刻开始加糖，厨师长又说不要太甜，颠勺师傅也能够及时停止。

机器人手指碰到物体的瞬间，触觉反馈立刻就能调整动作，不用等到下一个 "大计划" 周期。此外，20Hz 的 Tactile Expert 颠勺师傅不需要动脑子，听厨师长就可以了，自己只需要颠勺，因此它能做到很专注，也就是让灵巧手的触觉修正的计算量极小，效率高还不费电。

灵巧手数据训练的三阶段

解决了架构之后，就要开始考虑数据和训练模型了。

T-Rex 霸王龙的训练不是端到端一锅炖，而是三阶段递进。

先用 22,889 小时的人类第一人称视频（EgoScale 数据）完成前期预训练，这个阶段让模型学会如何操作物体。注意，这个阶段不加入带触觉的数据。

为什么呢，一方面当然是减少成本，另一方面也保留了大模型零样本能力，这样才适合泛化和 scale 嘛。

接着，用 100 小时真实机器人遥操作数据做中训练，这个阶段的核心任务，是把前面学会的能力对齐给机器人。注意，这里就要同步触觉信号了，因为这个阶段，机器人就要学习当指尖传感器给出这样的力 / 形变信号时，手指要做出调整。

最后一个阶段就是后训练，用约 100 条示范做后训练，让模型适应特定任务的要求，同时保留前面学到的触觉反应能力。

必须说一下，这种分段训练的聪明之处在于解耦。

人类视频提供 "见多识广" 的泛化能力，触觉数据提供 "物理 grounded" 的反馈能力，任务数据提供 "精准执行" 的专项能力。三者各司其职，避免了 "用人类视频直接训触觉" 这种不可能完成的任务。

让模型读懂时间的巧思

当然，这套流程看似简单，但是细节很值得说。

先来看架构方面，为了让触觉更聪明，有一个非常重要的细节：时序。

模型不像是人类，它们没有时间概念，自然不知道动作的时序。但想要感受触觉，又要知道随着时间流逝，手和杯子接触的压力在增大还是减小，是握紧还是松开。

T-Rex 用了一个叫时序触觉 VQ-VAE 的编码器，把高频触觉信号压缩成离散的 "token"。关键在 "时序"—— 不是拍一张快照，而是看一段视频。这个完整的 "手感故事"，静态编码会完全漏掉这些信息，时序编码能完整抓住。

另外，VQ-VAE 把连续的触觉信号变成了离散的 "词汇"，就像把一堆嘈杂的电流波形翻译成 "轻触"" 打滑 ""压紧" 这样的词。模型处理起来像读文字一样简单，学习难度直接降了一个量级。这里让模型能够 “感受时间”，然后将它转换成离散的词汇的设计，非常精妙。

最后，再展开说说关于这篇论文提到的 100 小时触觉数据。

T-Rex 的数据集设计也很有意思。他们没有围绕 "完整任务" 采集示范（比如 "做一杯咖啡"），而是围绕动作基元 × 物体类别组织数据。

具体来说，他们定义了抓、放、推、拉、拧等 22 个 motor primitives（动作基元），然后把这 22 个基元和 200 多个日常物体组合，覆盖尽可能多的接触方式。

这种设计的优势在于组合泛化。模型不需要见过 "用右手食指翻书页" 这个具体组合，只要它学过 "剥离" 这个基元和 "纸张" 这个物体类别，就能泛化到新任务上。

100 小时数据被组织成 7,755 条轨迹，中位长度 29.8 秒，每条轨迹都是一个 "动词 + 名词" 的组合。

对比 EgoScale 的 2 万多小时人类视频，T-Rex 的 100 小时机器人数据看起来少得可怜。但关键在于信号密度。人类视频里，接触过程是 "黑箱"，你看不到力、看不到形变、看不到滑动。

T-Rex 的 100 小时里，每一帧都有 10 个指尖的 6 维力 / 力矩信号和形变深度图，信号密度是人类视频的百倍。这就是为什么少量高质量触觉数据，胜过海量无触觉视频。

真机实测，拷打T-Rex 霸王龙

最后，这篇论文给出了 T-Rex 霸王龙的真机评测结果。

T-Rex 的评测不是摆拍，而是 12 个精心设计的接触密集型任务，每个任务 16 次随机初始化尝试。这些任务的选择本身就很有讲究：它们都是视觉几乎无法独立完成的。

比如翻书页：机器人要用右手食指从书页边缘找到单页，利用摩擦分离，然后平滑翻过去。失败模式包括：一次带起多页、手指滑脱、翻过去后页面褶皱。

T-Rex 成功率 96%，而纯视觉的 EgoScale 只有 68%。

再看传递鸡蛋任务，关键难点在于力的控制，太紧会捏碎，太松会滑落。T-Rex 成功率 75%，EgoScale 44%。

分杯子任务，从一叠嵌套的塑料杯里，拧出最上面一个，这需要感知杯壁的形变和摩擦变化，找到分离的临界点。T-Rex 78%，EgoScale 33%。

其他还有挤牙膏，分类麻将、开锁、酸碱中和、拧灯泡（Screw Lightbulb）等等。

12 个任务平均下来，T-Rex 成功率 65%，比最强基线 EgoScale 的 35% 高出 30 个绝对百分点，接近两倍。

其他基线更惨：π0.5 只有 17%，Tactile-VLA 15%，直接加触觉的 π0.5+tactile 跌到 6%，RDP 6%，ViTacFormer 3%。

这组数字说明了几件事：第一，大规模预训练确实重要。从零训练的小模型（ViTacFormer、RDP）全面拉胯，EgoScale 凭借 2 万多小时人类视频预训练脱颖而出。这验证了 "见多识广" 的价值。第二，但预训练不够。 EgoScale 在 35% 卡住了，因为它缺乏接触后的反馈能力。视觉能告诉你 "手在哪"，但无法告诉你 "手指和物体之间正在发生什么"。第三，触觉需要正确的打开方式。 π0.5+tactile 的 6% 直接把触觉塞进现有 VLA，不是增强而是干扰。

其实这篇论文值得仔细去推敲，先看第一步，当把触觉全关掉，成功率从 65% 跌到 42%，直接掉 23 个点，说明触觉本身值这个价，不是摆设。但如果保持触觉还在，但时序编码换成简单的 MLP，跌到 58%，掉 7 个点，说明 "看变化过程" 比 "看单帧快照" 重要。再如果时序编码也在，但让触觉和视觉同步跑，跌到 60%，掉 5 个点，说明 "让触觉跑快点" 确实有用。三个设计缺一不可，拼在一起才凑出完整的 65%。缺任何一个，似乎都无法验证这个逻辑。

T-Rex 霸王龙给行业带来了什么

最后总结一下，T-Rex 这篇论文，其实并不是创新，很多公司都在探索，包括戴盟、帕西尼等等，这条路径还有个名字叫 VTLA，论文结果是否在更窄的约束条件下实现，也有待考证。

同样，这篇论文也不能证明机器人已经拥有了人类意义上的 "手感"。人类的触觉是分布式的、全手的、多模态的，涵盖皮肤形变、振动、温度、痛觉。而 T-Rex 只用了 10 个指尖的力矩和形变深度图。

论文自己也承认，缺少手掌触觉、缺少温度感知、缺少振动反馈，这些都是未来的方向。

但它做了一个极其重要的概念推进：把 "手感" 从一项传感器配置，变成了一种可以通过数据、时序表征和模型架构共同学习的能力。

在 T-Rex 之前，触觉在机器人领域更像是一个 "硬件选项"，你买了带触觉传感器的手，理论上操作会更精细，但实际上算法不知道怎么用。T-Rex 之后，触觉变成了一个 "软件能力"。只要你的架构设计对了、数据组织对了、训练流程对了，触觉就能真正参与控制闭环。

这对整个行业的影响是深远的。

对于硬件厂商来说，像 Sharpa Wave 这类 22 自由度、带高分辨率指尖触觉的灵巧手，带视触觉的帕西尼 DexH13 灵巧手售价在 12 万以上。但这些不再是 "炫技配置"，而是触觉反应策略的必要基础。如果指尖只能给出 "碰到 or 没碰到" 这种粗粒度信号，再精巧的时序编码也无法奏效。对于算法研究者，T-Rex 提供了一个可扩展的范式：人类视频预训练→触觉中训练→任务微调。这个范式不依赖遥操作数据做预训练，大大降低了触觉策略的门槛。

这些都会推动灵巧手的应用落地，精密装配、手术辅助、家庭服务等场景都可以期待。所以才吸引了李飞飞、NVIDIA 的 Jim Fan、00 后具身华人新星徐丹飞、朱玉可这么多大佬同时关注。

Jim Fan 在社交媒体上转发 T-Rex 时写道："The future of dexterous manipulation is tactile-reactive."（灵巧操作的未来是触觉反应的）这句话的分量，不在于它预言了什么，而在于它定义了一个新标准：评价灵巧手的能力，不再看它有多少个自由度、能做出多少种姿态，而是看它能否在接触发生的下一毫秒，做出正确的反应。

毕竟，人类最精微的操作，翻一页书、穿一根针、给一个伤口换药，从来不是靠 "看得见" 完成的，是靠 "感觉得到" 完成的。机器人要追上这一步，还有很长的路。。

但 T-Rex 证明，这条路是通的。

论文标题：T-Rex: Tactile-Reactive Dexterous Manipulation

论文链接：https://arxiv.org/pdf/2606.17055