NUS邵林团队提出T(R,O) Grasp：刷新跨智能体灵巧抓取SOTA|动作|大模型|智能体|机器人|点云|速度|邵林

本文的共同第一作者为新加坡国立大学博士生费昕，新加坡国立大学博士生徐志轩。合作者为浙江大学实习生方怀聪、新加坡国立大学博士生张添睿。通讯作者为新加坡国立大学计算机学院助理教授、RoboScience 首席科学家邵林，研究方向为机器人学习与灵巧操作。

T (R,O) Grasp 是一种基于物体 — 机器手空间关系建模的图扩散架构，具备跨智能体的统一表征能力。在 NVIDIA 40GB A100 GPU 上，该方法可实现 5 FPS 的推理速度和 50 grasp/s 的吞吐量，并在多种智能体上取得 94.83% 的平均抓取成功率，刷新了跨智能体灵巧抓取的 SOTA，具备与动态场景实时交互的能力。

目前，该论文已被机器人领域顶级会议 IEEE International Conference on Robotics & Automation（ICRA 2026）接收。

论文标题：T (R,O) Grasp: Efficient Graph Diffusion of Robot-Object Spatial Transformation for Cross-Embodiment Dexterous Grasping
论文链接：https://arxiv.org/pdf/2510.12724
项目主页：https://nus-lins-lab.github.io/trograspweb/

一、引言

灵巧手抓取是机器人完成复杂操作的基础。目前基于深度学习的方法主要可以分为机器人中心 (robot centric)、物体中心 (object-centric) 和交互中心 (interaction-centric) 三种。

机器人中心的模型直接学习观测（如点云、图像）到动作指令的映射，推理速度快，但样本学习效率低，难以实现跨智能体的泛化。

物体中心的方法预测物体上的接触信息（如接触点或接触热力图），泛化性强，但根据接触信息优化抓取的动作指令复杂耗时，且无法适用于观测信息不全的应用场景。

此前，D (R,O) Grasp 提出了交互中心的灵巧手抓取表征，通过机器手与物体点云间的距离矩阵表示交互关系，弥补了机器人中心方法的泛化性不足，提升了物体中心方法的推理效率。

然而，D (R,O) 距离矩阵的预测需要巨大的计算开销，且该方法依赖于机器手初始姿态的合理性，因此难以基于 D (R,O) 表征搭建大规模灵巧手抓取模型。

为克服以上局限性，我们提出 T (R,O) 图结构作为灵巧手抓取的统一表征（如图 1 所示），将物体与机器手关节的几何、拓扑信息编码为节点，将其相对的位置关系表示为边。相较于 D (R,O) 距离矩阵，T (R,O) 图结构在保持表达能力的同时，提供了更高效、更轻量的建模方案。

图 1. T (R,O) 图结构与扩散过程

二、方法

图 2. T (R,O) Grasp 整体框架

给定物体点云和不同机器手的 URDF 配置文件，模型的目标是输出多样的抓取姿态，并具备跨智能体的泛化能力。T (R,O) Grasp 的整体框架如图 2 所示，主要分为以下三部分：

1. T (R,O) 图结构的构建

2. 图扩散网络的训练与关节位姿矩阵的预测

3. 基于关节位姿矩阵的逆运动学求解

2.1 T (R,O) 图结构的构建

图 3. T (R,O) 图结构的构建

如图 3 所示，T (R,O) 图结构基于物体 — 机器手的相对位姿建模其交互关系。首先，物体点云通过预训练的 VQ-VAE 编码为图中的物体节点；其次，结合机器手关节的几何 BPS 特征与关节位姿信息，构建图中的关节节点；最后，在物体 — 关节和关节 — 关节之间，以相对位姿关系定义图中的边。

2.2 图扩散网络的训练与关节位姿矩阵的预测

基于 T (R,O) 图结构，模型可对关节位姿进行标准 DDIM 范式下的加噪 — 去噪训练，进而完成关节位姿矩阵的预测。其中，Denoiser 由多层 Transformer 组成，其网络结构如图 4 所示。

图 4. T (R,O) Denoiser 网络架构

此外，得益于 DDIM 在推理阶段对多种 guidance 的良好支持，T (R,O) Grasp 在训练完成后能够在多种条件约束下生成抓取姿态，例如指定抓取方向、限定物体上的抓取区域等。

2.3 基于关节位姿矩阵的逆运动学求解

模型预测得到机器手在抓取时各关节的位姿矩阵，即可通过 Pyroki toolkit 即时求解如下逆运动学问题，得到抓取姿态的动作指令。

三、实验结果

在实验中，我们系统评估了 T (R,O) Grasp 在无条件生成以及条件约束生成（抓取方向与抓取区域）两种设置下的灵巧手抓取性能。实验采用抓取成功率、多样性和推理速度三个指标对模型进行评价。

图 5. T (R,O) Grasp 与 baseline 性能对比

图 6. T (R,O) Grasp 在无条件设置下的灵巧抓取

图 7. T (R,O) Grasp 在给定抓取方向下的灵巧抓取

图 8. T (R,O) Grasp 在给定抓取区域下的灵巧抓取

图 5-8 显示，T (R,O) Grasp 在两种设置下的性能均超越现有方法，具备在多种约束下跨智能体生成准确、多样灵巧手抓取的能力。此外，T (R,O) Grasp 在实验硬件平台 NVIDIA 40GB A100 上平均可达到 5 FPS 的推理速度，为动态场景下实现闭环抓取提供了基础。

在真实机器人实验中，我们将算法部署于 xArm 机械臂平台，并在 XHand 和 LEAP Hand 两种灵巧手上进行了测试。实验结果表明，T (R,O) Grasp 在 XHand 和 LEAP Hand 上分别达到了 91.0% 和 90.0% 的抓取成功率。此外，在动态传送带环境中，T (R,O) Grasp 同样能够完成稳定抓取，验证了其在动态场景下的闭环抓取能力。