大数据受权转载自ai科技评论
作者丨齐铖湧
编辑丨林觉民
近日,具身领域的一篇 “神仙阵容” 的论文出圈。
AI 教母李飞飞、NVIDIA 的 Jim Fan(范麟熙)、00 后具身华人新星徐丹飞、朱玉可、UC Berkeley 的 Trevor Darrell、Pieter Abbeel、Ken Goldberg、Jitendra Malik…… 可以说,这串名单几乎集齐了当前全球 AI 与机器人领域最顶尖的 “最强大脑”,随便拎两个出来都能撑起一场顶会 keynote。
然而,他们凑在一起做的第一件事,居然落在一个非常细微的领域:灵巧手。
更让人惊讶的是,这篇论文得出了一个非常反直觉的实验结果:
过去具身行业在灵巧手触觉的探索方向,可能错了。
01
灵巧手之殇
在大众看来,灵巧手赛道有两个趋势,一是 demo 越来越炫,而是销量越来越多。
今年春晚灵巧手盘核桃已经足够惊艳,不久前,Sharpa 又晒出灵巧手削苹果的视频,让人咋舌称赞。
此外灵巧手的出货量越来越猛,我们拿到一组研究机构 GGII 的数据,2026 年灵巧手的销量能达到 7 万只,是 2025 年的 3.6 倍。并且,在机器人已经来到万元级水准,很多灵巧手单只售价甚至高达十多万,几乎疯狂。在外行眼里,灵巧手已经无所不能了,关节越来越灵活,手指反应越来越快,也慢慢开始有了触觉和温度感知。
但这篇大佬云集的论文,给这一切泼了一盆冷水: 目前给灵巧手加触觉,机器人反而更笨了。
先来看一个行业大背景:具身智能的三条路,走到灵巧手都卡住了。 第一条路:纯视觉 VLA。 这是当下最热闹的路线,π0、GR00T N1、OpenVLA 都在做。它们靠摄像头理解世界,能做类似移动杯子这种粗粒度任务。 但摄像头有盲区,而且感知不到手指和物体之间的细节,就像视力 5.0 的人戴手套做针线活,看得见线头,感觉不到针有没有穿过去。
第二条路:人类视频迁移。 这是最近很火的方向,EgoScale 用了 2 万多小时人类第一人称视频做预训练,EgoEngine 尝试把人类视频转成机器人数据。看似互联网上人类操作视频取之不尽,这路子行得通,但落到灵巧手上就不灵了。 原因很简单,就像看世界杯梅西踢球,眼睛学会了,但上场就不行了。视觉数据提供了动作的 "外观",却给不了接触的 "手感"。
第三条路是遥操作数据驱动, 这条路线唯一的优点是数据质量最高,其他都是缺点,比如采集太贵,通道不够等等。 三条路走到灵巧手这里都卡住了,最核心的原因就是接触后的反馈闭环。
简单来说,怎么让灵巧手更好地加入触觉。
触觉,不是灵巧手领域的新话题。这个领域过去有很多探索,比如牛津大学机器人实验室做的 ETac,走的是表征学习路线,伯克利做的 ViTacFormer,就把触觉和视觉做交叉注意力融合,Tactile-VLA 则尝试把触觉直接塞进 VLA 框架。 结果不少实验室试了一圈,逐渐形成一个共识:
触觉可以 "硬塞进去",但塞进去之后,模型表现反而更差了。
02
灵巧手领域的“霸王龙”,
给视觉单开一条通道
但好在泼完冷水后,论文也给灵巧手行业指出了一条明路。
这篇由英伟达、伯克利、斯坦福联合署名的重磅作品,名叫《T-Rex: Tactile-Reactive Dexterous Manipulation》。
T-Rex 是霸王龙的意思,也代表了它在 “灵巧手触觉” 领域的地位。
他们先是做了一个最直观的实验:给行业经典模型 π0.5 加上触觉条件后,模型做任务的成功率从 17% 跌到 6%,这个结果很让人震惊,但却在情理之中。 因为简单粗暴地增加模态,不等于增加了能力,触觉需要自己的时序编码、自己的处理通路、自己的训练范式,而不是作为视觉的 "附属频道"。
于是,T-Rex 霸王龙团队干脆开了一个脑洞,既然 "把触觉塞进现有模型" 这么难,为什么不给触觉单开一条 "高速通道"?
T-Rex 的核心洞察很简单,但执行起来极其精密。
要做创新,架构很重要,大家都知道大语言模型,有个经典的 MoE 专家架构,不同专家回答不同的问题。
T-Rex 霸王龙采用 Mixture-of-Transformers(MoT)架构,类似大模型领域的 MoE 专家架构,内部有三个分工明确的专家:
Latent Expert,负责预测未来的视觉状态,它类似于厨房的总厨,把控全局,预判客人需求和菜品走向,看的是手上的物体在哪,要做什么。
Action Expert,它决定手臂和手指的宏观运动,它类似于厨师长,统筹切配,决定食材怎么处理,手伸到哪个位置、手指摆成什么姿态、以什么速度接近目标,这里有个细节:它的频率是 5Hz。
最后一个专家,叫做 Tactile Expert,专门处理指尖传回的触觉信号,类似于颠勺师傅,它的频率是 20Hz,高频颠勺,根据火候实时调整。
这个 MoT 专家架构设计非常关键。它避免了视觉和触觉 "抢方向盘" 的问题,就像你开车去一个目的地,GPS 决定走哪条路(5Hz 规划),而你的手根据路面颠簸实时调整方向盘(20Hz 修正),两个系统不打架,各管一摊。
这里我想展开介绍一下其中这个 5Hz 和 20Hz 的快慢设计。
Action Expert ,也就是厨师长,用 5Hz 慢悠悠地规划,Tactile Expert 也就是颠勺师傅,用 20Hz 急匆匆地修正,两者不用互相等。
在一个动作片段里,Action Expert 发一次指令,Tactile Expert 能插进来修正四次,类似于厨师长说要做甜口的,颠勺师傅立刻开始加糖,厨师长又说不要太甜,颠勺师傅也能够及时停止。
机器人手指碰到物体的瞬间,触觉反馈立刻就能调整动作,不用等到下一个 "大计划" 周期。 此外,20Hz 的 Tactile Expert 颠勺师傅不需要动脑子,听厨师长就可以了,自己只需要颠勺,因此它能做到很专注,也就是让灵巧手的触觉修正的计算量极小,效率高还不费电。
03
灵巧手数据训练的三阶段
解决了架构之后,就要开始考虑数据和训练模型了。
T-Rex 霸王龙的训练不是端到端一锅炖,而是三阶段递进。
先用 22,889 小时的人类第一人称视频(EgoScale 数据)完成前期预训练,这个阶段让模型学会如何操作物体。 注意,这个阶段不加入带触觉的数据。
为什么呢,一方面当然是减少成本,另一方面也保留了大模型零样本能力,这样才适合泛化和 scale 嘛。
接着,用 100 小时真实机器人遥操作数据做中训练,这个阶段的核心任务,是把前面学会的能力对齐给机器人。 注意,这里就要同步触觉信号了,因为这个阶段,机器人就要学习当指尖传感器给出这样的力 / 形变信号时,手指要做出调整。
最后一个阶段就是后训练,用约 100 条示范做后训练,让模型适应特定任务的要求,同时保留前面学到的触觉反应能力。
必须说一下,这种分段训练的聪明之处在于解耦。
人类视频提供 "见多识广" 的泛化能力,触觉数据提供 "物理 grounded" 的反馈能力,任务数据提供 "精准执行" 的专项能力。三者各司其职,避免了 "用人类视频直接训触觉" 这种不可能完成的任务。
04
让模型读懂时间的巧思
当然,这套流程看似简单,但是细节很值得说。
先来看架构方面,为了让触觉更聪明,有一个非常重要的细节:时序。
模型不像是人类,它们没有时间概念,自然不知道动作的时序。但想要感受触觉,又要知道随着时间流逝,手和杯子接触的压力在增大还是减小,是握紧还是松开。
T-Rex 用了一个叫时序触觉 VQ-VAE 的编码器,把高频触觉信号压缩成离散的 "token"。 关键在 "时序"—— 不是拍一张快照,而是看一段视频。这个完整的 "手感故事",静态编码会完全漏掉这些信息,时序编码能完整抓住。
另外,VQ-VAE 把连续的触觉信号变成了离散的 "词汇",就像把一堆嘈杂的电流波形翻译成 "轻触"" 打滑 ""压紧" 这样的词。模型处理起来像读文字一样简单,学习难度直接降了一个量级。 这里让模型能够 “感受时间”,然后将它转换成离散的词汇的设计,非常精妙。
最后,再展开说说关于这篇论文提到的 100 小时触觉数据。
T-Rex 的数据集设计也很有意思。他们没有围绕 "完整任务" 采集示范(比如 "做一杯咖啡"),而是围绕动作基元 × 物体类别组织数据。
具体来说,他们定义了抓、放、推、拉、拧等 22 个 motor primitives(动作基元),然后把这 22 个基元和 200 多个日常物体组合,覆盖尽可能多的接触方式。
这种设计的优势在于组合泛化。模型不需要见过 "用右手食指翻书页" 这个具体组合,只要它学过 "剥离" 这个基元和 "纸张" 这个物体类别,就能泛化到新任务上。
100 小时数据被组织成 7,755 条轨迹,中位长度 29.8 秒,每条轨迹都是一个 "动词 + 名词" 的组合。
对比 EgoScale 的 2 万多小时人类视频,T-Rex 的 100 小时机器人数据看起来少得可怜。但关键在于信号密度。人类视频里,接触过程是 "黑箱",你看不到力、看不到形变、看不到滑动。
T-Rex 的 100 小时里,每一帧都有 10 个指尖的 6 维力 / 力矩信号和形变深度图,信号密度是人类视频的百倍。 这就是为什么少量高质量触觉数据,胜过海量无触觉视频。
05
真机实测,拷打T-Rex 霸王龙
最后,这篇论文给出了 T-Rex 霸王龙的真机评测结果。
T-Rex 的评测不是摆拍,而是 12 个精心设计的接触密集型任务,每个任务 16 次随机初始化尝试。 这些任务的选择本身就很有讲究 :它们都是视觉几乎无法独立完成的。
比如翻书页: 机器人要用右手食指从书页边缘找到单页,利用摩擦分离,然后平滑翻过去。失败模式包括:一次带起多页、手指滑脱、翻过去后页面褶皱。
T-Rex 成功率 96%,而纯视觉的 EgoScale 只有 68%。
再看传递鸡蛋任务,关键难点在于力的控制,太紧会捏碎,太松会滑落。T-Rex 成功率 75%,EgoScale 44%。
分杯子任务, 从一叠嵌套的塑料杯里,拧出最上面一个,这需要感知杯壁的形变和摩擦变化,找到分离的临界点。T-Rex 78%,EgoScale 33%。
其他还有挤牙膏,分类麻将、开锁、酸碱中和、拧灯泡(Screw Lightbulb)等等。
12 个任务平均下来,T-Rex 成功率 65%,比最强基线 EgoScale 的 35% 高出 30 个绝对百分点,接近两倍。
其他基线更惨:π0.5 只有 17%,Tactile-VLA 15%,直接加触觉的 π0.5+tactile 跌到 6%,RDP 6%,ViTacFormer 3%。
这组数字说明了几件事: 第一,大规模预训练确实重要。 从零训练的小模型(ViTacFormer、RDP)全面拉胯,EgoScale 凭借 2 万多小时人类视频预训练脱颖而出。这验证了 "见多识广" 的价值。 第二,但预训练不够。 EgoScale 在 35% 卡住了,因为它缺乏接触后的反馈能力。视觉能告诉你 "手在哪",但无法告诉你 "手指和物体之间正在发生什么"。 第三,触觉需要正确的打开方式。 π0.5+tactile 的 6% 直接把触觉塞进现有 VLA,不是增强而是干扰。
其实这篇论文值得仔细去推敲,先看第一步,当把触觉全关掉,成功率从 65% 跌到 42%,直接掉 23 个点,说明触觉本身值这个价,不是摆设。 但如果保持触觉还在,但时序编码换成简单的 MLP,跌到 58%,掉 7 个点,说明 "看变化过程" 比 "看单帧快照" 重要。 再如果时序编码也在,但让触觉和视觉同步跑,跌到 60%,掉 5 个点,说明 "让触觉跑快点" 确实有用。 三个设计缺一不可,拼在一起才凑出完整的 65%。缺任何一个,似乎都无法验证这个逻辑。
06
T-Rex 霸王龙给行业带来了什么
最后总结一下,T-Rex 这篇论文,其实并不是创新,很多公司都在探索,包括戴盟、帕西尼等等,这条路径还有个名字叫 VTLA,论文结果是否在更窄的约束条件下实现,也有待考证。
同样,这篇论文也不能证明机器人已经拥有了人类意义上的 "手感"。人类的触觉是分布式的、全手的、多模态的,涵盖皮肤形变、振动、温度、痛觉。而 T-Rex 只用了 10 个指尖的力矩和形变深度图。
论文自己也承认,缺少手掌触觉、缺少温度感知、缺少振动反馈,这些都是未来的方向。
但它做了一个极其重要的概念推进:把 "手感" 从一项传感器配置,变成了一种可以通过数据、时序表征和模型架构共同学习的能力。
在 T-Rex 之前,触觉在机器人领域更像是一个 "硬件选项",你买了带触觉传感器的手,理论上操作会更精细,但实际上算法不知道怎么用。T-Rex 之后,触觉变成了一个 "软件能力"。 只要你的架构设计对了、数据组织对了、训练流程对了,触觉就能真正参与控制闭环。
这对整个行业的影响是深远的。
对于硬件厂商来说,像 Sharpa Wave 这类 22 自由度、带高分辨率指尖触觉的灵巧手,带视触觉的帕西尼 DexH13 灵巧手售价在 12 万以上。但这些不再是 "炫技配置",而是触觉反应策略的必要基础。如果指尖只能给出 "碰到 or 没碰到" 这种粗粒度信号,再精巧的时序编码也无法奏效。 对于算法研究者,T-Rex 提供了一个可扩展的范式:人类视频预训练→触觉中训练→任务微调。这个范式不依赖遥操作数据做预训练,大大降低了触觉策略的门槛。
这些都会推动灵巧手的应用落地,精密装配、手术辅助、家庭服务等场景都可以期待。 所以才吸引了李飞飞、NVIDIA 的 Jim Fan、00 后具身华人新星徐丹飞、朱玉可这么多大佬同时关注。
Jim Fan 在社交媒体上转发 T-Rex 时写道:"The future of dexterous manipulation is tactile-reactive."(灵巧操作的未来是触觉反应的)这句话的分量,不在于它预言了什么,而在于它定义了一个新标准:评价灵巧手的能力,不再看它有多少个自由度、能做出多少种姿态,而是看它能否在接触发生的下一毫秒,做出正确的反应。
毕竟,人类最精微的操作,翻一页书、穿一根针、给一个伤口换药,从来不是靠 "看得见" 完成的,是靠 "感觉得到" 完成的。机器人要追上这一步,还有很长的路。。
但 T-Rex 证明,这条路是通的。
论文标题:T-Rex: Tactile-Reactive Dexterous Manipulation
论文链接:https://arxiv.org/pdf/2606.17055
点「赞」的人都变好看了哦!
热门跟贴