打开网易新闻 查看精彩图片

人类之所以能主宰地球,很大程度上归功于一项独特的认知能力——制造和使用工具。从石器时代的燧石刀到现代的精密仪器,工具的发明一直是衡量智能水平的核心标志。

然而,当我们审视当今最前沿的机器人研究,会发现一个有趣的不对称:绝大多数工作都在追求更复杂的控制策略——让机器人「手更巧」,却很少有人思考一个更本质的问题:能不能让工具本身更合适,从而让控制变得更简单?

试想一下:如果你需要够到远处的杯子蛋糕,与其训练机械臂做出高难度的伸展动作,不如直接设计一根形状恰到好处的「取物钩」——这才是另一种形式的「物理智慧」。

自然界中也有相应的例子,新喀里多尼亚乌鸦可以自己制造并使用工具从狭小的缝隙中取出食物。

那么问题来了:今天的大模型,能否自动为机器人设计这样的工具和相应的使用动作

来自宾夕法尼亚大学的研究者在这个方向上做了探索。他们提出了 VLMgineer,一个全自动的工具设计与使用框架,利用视觉语言模型(VLM)的创造力与进化搜索,让机器人从零开始自主设计工具并学会使用它们。该工作已被 ICLR 2026 接收。

打开网易新闻 查看精彩图片

  • 论文:VLMgineer: Vision Language Models as Robotic Toolsmiths
  • 项目主页:https://vlmgineer.github.io
  • 论文地址:https://arxiv.org/abs/2507.12644

打开网易新闻 查看精彩图片

VLMgineer 概念图。当机器人遭遇现实中物理限制困境时,他需要利用VLM思考如何设计合适的工具和相应的动作来找到解决办法

研究背景:为什么要让机器人「造工具」?

在日常生活中,很多任务对于标准的机器人夹爪来说几乎不可能完成:够不到远处的物体、铲不起一堆小球、撬不开密封管道中的方块……传统思路是设计更复杂的控制算法来弥补硬件的不足,但这往往事倍功半。

VLMgineer 提出了一种不同的范式:把问题的复杂度转移到工具的几何形状中,让控制变得更简单。一个设计合理的工具,可以将原本需要精密操控才能完成的任务,变成简单的「推一下」「勾一把」就能搞定的事情。

但此前的计算化工具设计方法面临两大瓶颈:

  • 痛点一:依赖人工定义参数空间。现有方法通常要求研究者手动为每个任务指定工具的优化参数模板,极度依赖领域专家知识,难以扩展到新任务。
  • 痛点二:工具设计与使用策略割裂。大多数方法先优化工具形状,再单独训练控制策略,无法实现工具几何与操作动作的协同优化。

VLMgineer 的核心方法

VLMgineer 的核心思想可以概括为一句话:大模型当「工具设计师」,让进化搜索当「质检员」。

值得一提的是,VLMgineer 是一个端到端由 VLM 驱动的框架——从理解任务场景、构思工具几何、到规划使用动作,全部由 VLM 在统一的推理过程中完成,而非将流程拆解为多个独立模块再分别处理。这一设计选择背后的核心问题是:VLM 自身是否已经具备足够的物理创造力,来端到端地完成从工具构思到动作规划的全过程?实验结果对此给出了积极的信号。下图描述了此方法的整体框架。

打开网易新闻 查看精彩图片

VLMgineer 核心模块和运行框架

整个框架由三大核心模块构成:

1. 工具-动作联合采样(Joint Tool-Action Sampling)

与以往先设计工具、再优化动作的串行模式不同,VLMgineer 让 VLM 在单次推理中同时生成工具几何(以 URDF 格式描述)和对应的机器人动作序列(末端执行器的 6-DoF 路径点)。 这种联合采样的关键洞察在于:工具的形状天然约束并赋能了动作策略——一个设计合理的工具可以让控制变得更加简单。因此,同步优化能让 VLM 利用其内在的物理直觉,在工具-动作的联合设计空间中高效探索。

2. 仿真评估与适者生存(Simulation Evaluation & Selection)

每一对工具-动作设计方案都会被送入 PyBullet 仿真器进行评估。系统通过任务特定的奖励函数对每个方案打分,然后保留表现最优的 top-k 个「精英设计」。

3. VLM 引导的进化搜索(VLM-Guided Evolutionary Search)

这是 VLMgineer 中最有意思的环节。系统将精英设计反馈给 VLM,要求其通过归纳式上下文变异与交叉(Inductive In-Context Mutation & Crossover)来产生新一代设计:

  • 变异:对单个精英工具做一处改变——调整某个组件的尺寸、增加或移除一个部件等。
  • 交叉:从两个精英工具中各取所长,组合出全新的设计。

关键之处在于,这里的变异和交叉操作完全由 VLM 的世界知识和物理直觉来驱动,而非手工定义的算子。这使得进化过程能够产生一些颇具创意的设计方案。

RoboToolBench:12 项工具设计挑战

为了系统评估工具设计能力,研究团队同时推出了 RoboToolBench——一个包含 12 项多样化机器人工具使用任务的仿真基准。这些任务涵盖了:

  • 够取远处物体(BringCube)、清扫桌面(CleanTable)、从密封管道中取出方块(DislodgeCube)
  • 举起盘子(ElevatePlate)、收集小球(GatherSpheres)、从高处取物(HighObject)
  • 搬运箱子(LiftBox)、移动球体(MoveBall)、抽取中间书本(OneBook)
  • 射门得分(ScoreGoal)、从罐中取饼干(SnatchCookie)、转移火鸡腿(TurkeyLegs)

所有任务对标准 Franka Panda 夹爪来说都极具挑战性,迫使系统必须设计合适的工具才能成功。

打开网易新闻 查看精彩图片

图中所有工具均由此方法设计

VLMgineer 生成的工具展现出了不错的多样性和创造力,侧面体现了 AI 的「物理创造力」。从简洁的铲形工具到复杂的多组件结构,从拥抱式抓取器到带护栏的收集装置——这些设计不是对现有工具的简单复制,而是针对特定任务进化出的定制化几何形态。

其中几个值得一提的任务:

DislodgeCube——复刻乌鸦的工具智慧。机器人需要从密封管道中取出方块,这个任务的灵感来源于新喀里多尼亚乌鸦使用工具从狭小空间中取出物体的行为——VLMgineer 成功地为机器人找到了解决这类问题的工具方案。

MoveBall——用结构降服动态。控制球体滚动是一个高度动态的行为,用夹爪直接推球对控制精度要求极高。VLMgineer 的解法是让工具几何来吸收这种不确定性——进化出的弧形护框将球兜住再推送,把一个动态控制难题变成了简单的平移操作。

ElevatePlate——用工具端盘子。桌面上放着一个白色盘子,机器人需要将其稳定举起。对于没有工具的标准夹爪来说,盘子太扁太滑,上手比较困难。

CleanTable——提高打扫效率。桌面上散布着多个小物体,需要将它们清扫到指定区域。用夹爪逐个抓取效率极低,VLMgineer 进化出了宽面推扫工具,能够一次性将散落物体归拢清理,把一个多步骤的抓取任务简化为一次干脆的推扫动作。

诚然,上述任务本身都比较简单。但换个角度看,VLMgineer 真正验证的是一种可能性:在没有任何人工提示的情况下,VLM 能够从零开始进化出功能合理的工具设计和使用动作。这意味着,当未来的机器人面对开放环境中的未知任务时,它们或许不需要等待工程师手动设计专用工具,而是可以在自主行动和探索的过程中,按需为自己「发明」所需的工具。

实验结果

与人类提示设计的对比

研究团队设置了一组对比实验:让不同背景的人类(机器人专家、LLM 专家、普通人)用自然语言向 VLM 描述他们设想的工具设计,然后与 VLMgineer 的全自动设计进行对比。

实验结果显示:VLMgineer 在 12 项任务上的表现均优于人类提示的设计方案,在最优和平均表现上都有一致的提升。相比人类指定的 VLM 设计,VLMgineer 取得了平均64.7%的归一化提升。

一个值得关注的现象是,人类设计的工具虽然在直觉上合理,但往往需要更精密的控制策略才能发挥作用;而 VLMgineer 的设计倾向于在几何上做更多文章,使得下游控制更加简单直接。

与现有 Benchmark 工具的对比

在从 RLBench 改编的 4 项任务中,VLMgineer 设计的工具在性能上也优于原始的 Benchmark 工具,平均归一化提升达24.3%

以 BringCube 任务为例:RLBench 提供的是一根简单的棍子,对方块的侧向控制不足,导致操作不太稳定;而 VLMgineer 进化出了一个类似「笼子」的结构,能更可靠地锁住并移动方块。

在 GatherSpheres 任务中,VLMgineer 设计了带有侧面护板和顶部条纹结构的铲子,有效防止小球在搬运过程中弹出——这种设计细节完全是进化过程中自动涌现的。

进化搜索的关键作用

消融实验表明,进化搜索是 VLMgineer 性能提升的重要来源。在同等采样预算下(8000 次评估),进化搜索策略比暴力随机采样平均高出119.2%

从定性角度看,进化过程做出的改进往往直觉上很合理:开口铲子被加上了护栏以防止洒落,推球器被增加了拥抱式边框以提升控制精度。这些案例体现了 VLM 的物理先验知识在迭代优化中被逐步激发和放大的过程。

从仿真到真机的验证

为验证实际部署效果,团队选取了 3 项任务(MoveBall、ElevatePlate、GatherSpheres),将 VLMgineer 在仿真中设计的最佳工具3D 打印出来,安装在真实的 Franka Panda 机器人上,直接执行仿真中优化的动作路径。

打开网易新闻 查看精彩图片

GatherSpheres

打开网易新闻 查看精彩图片

ElevatePlate

打开网易新闻 查看精彩图片

MoveBall

总结与展望

VLMgineer 的提出,为机器人物理智能提供了一个新的视角:不只是学会更灵巧地操控,还可以学会设计更合适的工具。实验结果表明,视觉语言模型中蕴含的物理世界知识,通过进化搜索的引导,能够产生有效且富有创意的工具设计方案。

当然,VLMgineer 目前也存在一些局限:动作表示限于离散路径点、工具几何限于简单形状、尚未探索多任务泛化等。但作为首个全自动工具设计框架,它为未来更自适应、更智能的机器人系统提供了一个值得探索的方向:

当机器人不仅能使用工具,还能自主设计工具时,我们或许离真正通用的物理智能又近了一步。

作者团队(* 和 ** 表示共同作者排序)

George Jiayuan Gao*,目前 Dyna Robotics 技术人员,获得宾夕法尼亚大学 GRASP Lab 机器人硕士,导师为 Nadia Figueroa 和 Dinesh Jayaraman。研究方向为结合学习方法与控制理论,使机器人安全智能地与物理世界交互。

Tianyu Li*,宾夕法尼亚大学 GRASP Lab 博士生,导师为 Nadia Figueroa。研究方向重点涵盖高效的机器人操作策略学习、机器人安全物理交互与人机协作。

Junyao Shi,宾夕法尼亚大学 GRASP Lab 博士生,导师为 Dinesh Jayaraman,目前在 Skild AI 担任研究实习生。研究方向为机器人学习,重点关注利用人类数据和基础模型构建通用机器人。

Yihan Li**,宾夕法尼亚大学 GRASP Lab 机器人硕士生,导师为 Nadia Figueroa,同时入选 ETH 2025 机器人学生 Fellow。研究方向为机器人控制与学习。

Zizhe Zhang**,宾夕法尼亚大学 GRASP Lab 机器人硕士生,导师为 Nadia Figueroa。研究方向涵盖控制理论、机器人学习与人机交互。

Nadia Figueroa,宾夕法尼亚大学机械工程与应用力学系助理教授,隶属于 GRASP Lab。研究聚焦于开发能与人和动态环境进行物理交互的人机协作系统,融合机器人学、机器学习与控制理论。

Dinesh Jayaraman,宾夕法尼亚大学计算机信息与科学助理教授,隶属于 GRASP Lab。研究方向处于机器人学、机器学习与计算机视觉的交叉领域,致力于让机器人通过视觉感知来学习和行动。