来源:市场资讯
(来源:DeepTech深科技)
近年来,以 GPT、Gemini 等为代表的视觉语言大模型(VLM)已能帮助机器人理解人类语言指令,并基于图像进行一定程度的场景推理。然而,从“理解指令”到“动手操作”之间,仍存在一道关键鸿沟:大模型懂语义,却未必懂三维空间;会生成任务步骤,却未必能把步骤转化为真实物理世界中的可执行动作。
在抓取、摆放、整理等机器人操作任务中,物体的位置、朝向、尺寸、功能平面和可抓取部位都直接影响执行结果。一旦模型对空间关系判断不准,就可能给出看似合理、实际无法落地的规划。如何让大模型获得可验证、可迁移的三维空间知识,正成为具身智能研究中的核心问题。
近日,一项发表于 Science Robotics 的最新研究,提出了名为 RAM(Retrieval-Augmented Manipulation)的三维空间理解与操作框架。该框架通过检索增强的方式为 VLM 补充物体级空间知识,使机器人能够更好地理解物体的位置、朝向和可操作关系,并生成带有明确空间约束的操作计划。
这项研究的第一作者、香港中文大学博士后陈凯向 DeepTech 介绍,RAM 可以被理解为一套可检索的“三维物体知识库”:其中记录了各类日常物体的三维形状、稳定摆放方式、可抓取部位和功能平面等信息。它并不是重新训练 VLM,而是在模型规划前为其提供更精细的空间上下文,让大模型在任务规划时不只“知道要做什么”,也更清楚“应该如何在三维空间中做”。
给大模型一本可检索的“三维物体知识库”
现有 VLM 在语义规划层面表现出色,能够将“整理桌面”“摆放餐具”等抽象指令拆解为若干逻辑步骤。但在机器人操作中,仅有语义规划并不够。机器人还必须理解物体之间的三维空间关系,并将这些关系转化为位姿、抓取点、对齐方向和运动轨迹等可执行约束。
这种局限与当前 VLM 的预训练范式有关。多数模型主要基于二维图像与文本配对数据训练,擅长识别图像内容,却缺乏对深度、尺度和物理约束的直接经验。业界也尝试通过三维数据微调来补足能力,但高质量 3D 数据采集和标注成本高,计算资源和训练时间开销也很大。
RAM 的思路是:不把所有空间知识都压进模型参数,而是构建一个外部、显式、可查询的物体空间知识库。每当机器人执行任务时,系统根据当前场景中的物体类别和观测信息,检索相应的三维先验,并将其转化为 VLM 可利用的空间上下文。
具体来看,RAM 可以概括为三个核心模块。
第一个模块是物体类别级知识引擎。研究团队为不同物体类别建立标准化三维模板,并在模板上标注几何属性和操作属性,例如标准姿态、尺寸、对称性、抓取点、功能平面的位置与朝向等。相比为每个具体物体单独建模,这种类别级模板能够迁移到多种形状、尺寸和外观的同类物体实例上,从而降低真实数据采集和标注成本。
第二个模块是三维视觉接地模型。模板提供的是一类物体的通用空间描述,但机器人在真实场景中看到的,是大小、姿态和外观各不相同的物体实例。该模块的作用,是基于二维图像特征和三维点云信息,建立观测物体与模板之间的对应关系,将模板中的姿态、抓取方式、功能平面等空间知识迁移到当前物体上。研究团队表示,该模块主要基于合成数据训练,并在真实场景实验中展现出对多种未见物体实例的泛化能力。
第三个模块是检索增强任务规划器。系统将接地后的空间信息组织成结构化文本,与原始图像和语言指令一起输入 VLM。获得增强后的空间上下文后,VLM 不再只生成“抓起杯子、放到某处”这类粗粒度步骤,而是可以规划“使用哪个抓取点”“将哪个功能平面与目标物体的哪个平面对齐”“在什么方向和高度移动”等更细粒度的动作约束。随后,系统再通过轨迹优化方法,将这些约束转化为机器人可执行的运动轨迹。
14 项实验检验 RAM 的空间操作能力
为了验证 RAM 的能力,研究团队在真实机械臂平台上开展了 14 项空间操作实验,覆盖 31 个物体实例和 11 个物体类别。
实验首先考察语言指令驱动的空间操作,任务包括单物体单步骤、多物体单步骤和多物体多步骤三类。结果显示,RAM 在总计 120 次重复测试中取得 89.17% 的平均成功率,其中最复杂的多物体多步骤任务成功率达到 80%。
论文实验中,研究团队将 RAM 接入多种代表性 VLM 进行验证,结果显示该框架不依赖单一模型,可作为通用的空间增强模块与不同视觉语言模型配合使用。实验表明,当模型获得明确的三维空间信息后,更容易生成符合物理约束的操作规划。
不过,当任务对物体的空间位置和朝向要求较高时,仅靠语言描述会变得冗长,也容易产生歧义。陈凯表示,图片在表达复杂空间布局时更加紧凑、直观。因此,团队进一步测试了 RAM 在图像引导操作中的表现。
以餐具摆放为例,系统只需输入一张目标摆放参考图,机器人便需要理解图中物体的相对位置和朝向,并将二维参考布局映射到当前三维工作空间中。实验显示,在单张图像引导空间操作中,常规平面场景成功率达到 92%,复杂高低平面场景成功率为 72%,突破了传统方法通常依赖俯视参考图的限制。
RAM 还被用于测试与空间推理相关的自主决策。陈凯解释,同一个目标任务往往存在多个语义上可行的方案,但考虑到物体尺寸、朝向、高度和位置关系后,其中一些方案在物理上并不可行。RAM 的价值在于让机器人在规划前显式获得这些空间约束,从而选择更可执行的策略。
在清理桌面任务中,机器人需要根据桌面高度、垃圾桶尺寸和物体位置选择合适的清扫方案。实验中,当直接清扫不可行时,系统能够规划借助簸箕等中间工具的间接方案,平均成功率达到 65%,展示了相比纯语义规划更强的物理可行性判断能力。
从刚体到铰接与柔性物体
除了常见刚体物体,研究团队还探索了 RAM 在铰接物体和柔性物体操作中的扩展能力。对于笔记本电脑、抽屉等具有铰链结构的物体,团队采用多模板匹配策略,预设不同开合状态或滑动状态,并通过观测结果匹配最接近的模板,从而估计旋转轴或推动方向。基于这些空间信息,机器人能够完成笔记本电脑开合、抽屉推拉等操作。
在柔性物体操作方面,团队以叠衣服为例,将折叠过程拆解为展开、叠左袖、叠右袖等有限步骤,并为不同状态匹配相应模板,辅助系统完成分阶段操作。研究还初步探索了与触觉传感器的结合:当抓取过程中物体因重心分布不均发生相对移动时,系统可利用触觉反馈重新规划抓取姿势。
谈及未来方向,陈凯表示,“这一路径可以继续向更开放的物体类别、更复杂的物理交互和更长程的任务执行扩展。一方面,机器人所需的知识库可以从物体形状、抓取点和功能平面,进一步拓展到材质、受力、可变形性、操作失败模式和安全边界等更丰富的具身知识;另一方面,空间知识的使用也可以从任务规划阶段进一步延伸到执行过程,在机器人与环境交互的过程中持续感知、校正和重规划,使外部知识库提供的空间先验与机器人自身积累的操作经验形成闭环。对于家庭服务、养老照护等需要近距离人机交互的场景而言,这类能力将是机器人实现安全、可靠辅助操作的重要基础。”
Chen K, Li C, Tu C, et al. A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation. Science Robotics. 2026;11(113):eaea2092. doi:10.1126/scirobotics.aea2092
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成
热门跟贴