你让家里的服务机器人给阳台的花浇水,特意嘱咐“从左到右,每个花盆上方1-5厘米处浇”。

结果机器人要么把水浇到花盆外,要么离花太近溅一身泥这场景是不是很熟悉?家庭服务机器人走进生活的最大拦路虎,其实是“看不懂”真实空间里的各种规矩。

打开网易新闻 查看精彩图片

日常生活里的空间要求远比想象中复杂。

就拿浇花来说,“从左到右”是定性的位置约束,“1-5厘米”是定量的距离限制,机器人得同时搞定这两件事才能不出错。

家庭环境本来就乱。

打开网易新闻 查看精彩图片

遥控器可能压在杂志下,拖鞋东一只西一只,机器人面对的不是实验室里整齐的货架,而是随时变化的“随机场景”。

传统模型直接输出(x,y,z)坐标,就像蒙着眼睛扔飞镖,训练难、精度低,更别提理解“上方”“旁边”这些模糊但常用的空间词了。

正是这些痛点,催生出了RoboTracer。

打开网易新闻 查看精彩图片

它的核心任务很明确,生成带空间约束的3D位置序列,也就是“空间轨迹”,让机器人知道每一步该往哪动、动多远。

RoboTracer的“三维智慧”,如何让机器人“看懂”真实空间

RoboTracer的聪明之处,先从“看”开始。

本来想直接让模型学3D坐标,后来发现分开处理更高效,先算图像上的像素位置(u,v),再结合深度信息(d),最后用相机参数换算成真实世界的3D坐标。

打开网易新闻 查看精彩图片

这种解耦设计让训练难度降了不少,精度反而提上去了。

光看懂还不够,还得有“尺度感”。

你说“5厘米”,机器人得知道这到底多长。

RoboTracer里有个“尺度解码器”,专门把抽象的特征转换成具体数值。

比如看到一个杯子,它能估算出高度,再结合指令里的“5厘米”,就知道该离多远操作。

这种对“绝对尺度”的理解,是之前模型最缺的能力。

打开网易新闻 查看精彩图片

训练方法也有讲究。

团队分了两步走,先通过SFT(监督微调)让模型打好基础,学会单步的空间理解,比如“哪个物体在左边”“距离多远”,再用RFT(强化微调)加过程奖励,监督中间每一步的推理质量。

就像教孩子搭积木,不光看结果对不对,还要纠正每一步的摆放位置,这样复杂任务也能稳稳完成。

实际测试里,RoboTracer的表现挺亮眼。

在空间理解相关任务里,SFT训练后平均成功率接近八成,刷新了现有水平,加上RFT后,在专门的TraceSpatial-Bench评测中,准确率比Gemini-2.5-Pro高出36%。

打开网易新闻 查看精彩图片

最直观的是对比视频,别的模型生成的轨迹要么飘在半空,要么撞到花盆,而RoboTracer规划的路线能精准停在花盆上方5厘米,从左到右挨个浇过去,稳得像老手。

更重要的是它“开箱即用”。

不管是UR5机械臂还是G1仿人机器人,都能直接集成这个模型。

在开放世界测试里,只有RoboTracer能完成“先把书放到书架第三层,再把杯子放在书旁边10厘米处”这种多步空间任务。

打开网易新闻 查看精彩图片

家庭服务机器人市场需求一直很大,但技术总差临门一脚。

这次RoboTracer的突破,不是简单提升性能,而是找到了一种让机器人“理解真实空间”的新范式。

未来它不光能浇花、收纳,说不定还能帮老人取药、给孩子整理书包只要涉及空间操作,它都有可能派上用场。

当然,这只是开始。

打开网易新闻 查看精彩图片

模型还需要在更多复杂场景里打磨,比如应对光线变化、透明物体这些难题。

但至少现在,我们看到了服务机器人真正走进家庭的希望。

毕竟,能“看懂”空间的机器人,才算是真正有了“动手能力”。

打开网易新闻 查看精彩图片