打开网易新闻 查看精彩图片

本文的共同第一作者为新加坡国立大学博士生费昕,新加坡国立大学博士生徐志轩。合作者为浙江大学实习生方怀聪、新加坡国立大学博士生张添睿。通讯作者为新加坡国立大学计算机学院助理教授、RoboScience 首席科学家邵林,研究方向为机器人学习与灵巧操作。

T (R,O) Grasp 是一种基于物体 — 机器手空间关系建模的图扩散架构,具备跨智能体的统一表征能力。在 NVIDIA 40GB A100 GPU 上,该方法可实现 5 FPS 的推理速度和 50 grasp/s 的吞吐量,并在多种智能体上取得 94.83% 的平均抓取成功率,刷新了跨智能体灵巧抓取的 SOTA,具备与动态场景实时交互的能力。

打开网易新闻 查看精彩图片

目前,该论文已被机器人领域顶级会议 IEEE International Conference on Robotics & Automation(ICRA 2026)接收。

  • 论文标题:T (R,O) Grasp: Efficient Graph Diffusion of Robot-Object Spatial Transformation for Cross-Embodiment Dexterous Grasping
  • 论文链接:https://arxiv.org/pdf/2510.12724
  • 项目主页:https://nus-lins-lab.github.io/trograspweb/

一、引言

灵巧手抓取是机器人完成复杂操作的基础。目前基于深度学习的方法主要可以分为机器人中心 (robot centric)、物体中心 (object-centric) 和交互中心 (interaction-centric) 三种。

机器人中心的模型直接学习观测(如点云、图像)到动作指令的映射,推理速度快,但样本学习效率低,难以实现跨智能体的泛化。

物体中心的方法预测物体上的接触信息(如接触点或接触热力图),泛化性强,但根据接触信息优化抓取的动作指令复杂耗时,且无法适用于观测信息不全的应用场景。

此前,D (R,O) Grasp 提出了交互中心的灵巧手抓取表征,通过机器手与物体点云间的距离矩阵表示交互关系,弥补了机器人中心方法的泛化性不足,提升了物体中心方法的推理效率。

然而,D (R,O) 距离矩阵的预测需要巨大的计算开销,且该方法依赖于机器手初始姿态的合理性,因此难以基于 D (R,O) 表征搭建大规模灵巧手抓取模型。

为克服以上局限性,我们提出 T (R,O) 图结构作为灵巧手抓取的统一表征(如图 1 所示),将物体与机器手关节的几何、拓扑信息编码为节点,将其相对的位置关系表示为边。相较于 D (R,O) 距离矩阵,T (R,O) 图结构在保持表达能力的同时,提供了更高效、更轻量的建模方案。

打开网易新闻 查看精彩图片

图 1. T (R,O) 图结构与扩散过程

二、方法

打开网易新闻 查看精彩图片

图 2. T (R,O) Grasp 整体框架

给定物体点云和不同机器手的 URDF 配置文件,模型的目标是输出多样的抓取姿态,并具备跨智能体的泛化能力。T (R,O) Grasp 的整体框架如图 2 所示,主要分为以下三部分:

1. T (R,O) 图结构的构建

2. 图扩散网络的训练与关节位姿矩阵的预测

3. 基于关节位姿矩阵的逆运动学求解

2.1 T (R,O) 图结构的构建

打开网易新闻 查看精彩图片

图 3. T (R,O) 图结构的构建

如图 3 所示,T (R,O) 图结构基于物体 — 机器手的相对位姿建模其交互关系。首先,物体点云通过预训练的 VQ-VAE 编码为图中的物体节点;其次,结合机器手关节的几何 BPS 特征与关节位姿信息,构建图中的关节节点;最后,在物体 — 关节和关节 — 关节之间,以相对位姿关系定义图中的边。

2.2 图扩散网络的训练与关节位姿矩阵的预测

基于 T (R,O) 图结构,模型可对关节位姿进行标准 DDIM 范式下的加噪 — 去噪训练,进而完成关节位姿矩阵的预测。其中,Denoiser 由多层 Transformer 组成,其网络结构如图 4 所示。

打开网易新闻 查看精彩图片

图 4. T (R,O) Denoiser 网络架构

此外,得益于 DDIM 在推理阶段对多种 guidance 的良好支持,T (R,O) Grasp 在训练完成后能够在多种条件约束下生成抓取姿态,例如指定抓取方向、限定物体上的抓取区域等。

2.3 基于关节位姿矩阵的逆运动学求解

模型预测得到机器手在抓取时各关节的位姿矩阵,即可通过 Pyroki toolkit 即时求解如下逆运动学问题,得到抓取姿态的动作指令。

打开网易新闻 查看精彩图片

三、实验结果

在实验中,我们系统评估了 T (R,O) Grasp 在无条件生成以及条件约束生成(抓取方向与抓取区域)两种设置下的灵巧手抓取性能。实验采用抓取成功率、多样性和推理速度三个指标对模型进行评价。

打开网易新闻 查看精彩图片

图 5. T (R,O) Grasp 与 baseline 性能对比

打开网易新闻 查看精彩图片

图 6. T (R,O) Grasp 在无条件设置下的灵巧抓取

打开网易新闻 查看精彩图片

图 7. T (R,O) Grasp 在给定抓取方向下的灵巧抓取

打开网易新闻 查看精彩图片

图 8. T (R,O) Grasp 在给定抓取区域下的灵巧抓取

图 5-8 显示,T (R,O) Grasp 在两种设置下的性能均超越现有方法,具备在多种约束下跨智能体生成准确、多样灵巧手抓取的能力。此外,T (R,O) Grasp 在实验硬件平台 NVIDIA 40GB A100 上平均可达到 5 FPS 的推理速度,为动态场景下实现闭环抓取提供了基础。

在真实机器人实验中,我们将算法部署于 xArm 机械臂平台,并在 XHand 和 LEAP Hand 两种灵巧手上进行了测试。实验结果表明,T (R,O) Grasp 在 XHand 和 LEAP Hand 上分别达到了 91.0% 和 90.0% 的抓取成功率。此外,在动态传送带环境中,T (R,O) Grasp 同样能够完成稳定抓取,验证了其在动态场景下的闭环抓取能力。

打开网易新闻 查看精彩图片

图 9. T (R,O) Grasp 在 XHand 与 LEAP Hand 上的真实机器人抓取

打开网易新闻 查看精彩图片

图 10. T (R,O) Grasp 在传送带动态环境的真实机器人抓取