哈喽大家好,今天老张带大家聊聊,现在的家用机器人终于不是“听不懂人话”的憨憨了——你让它浇花,说“从左到右来,喷壶离花瓣1-5厘米停一下”,它在仿真与实验室环境中居然真能精准拿捏,再也不会要么浇歪要么喷一脸了!

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

家用机器人的尴尬

这事儿放在以前,想都不敢想!要知道,RoboTracer没出来之前,主流的视觉-语言-动作模型(VLA)大多是“实验室王者,家里青铜”。你以为它会浇花就行?

关键是“左到右”的3D定位、“1-5厘米”的距离测算,这些藏在指令里的空间规矩,多数模型根本摸不透。

打开网易新闻 查看精彩图片

家里哪是实验室啊?遥控器压杂志上、水杯搁桌角、花盆高低不齐,东西乱还总动。机器人得同时搞定俩事儿:一是懂“上下左右”的定性要求,二是算准“厘米级”的定量标准。

可之前的模型大多在2D里打转,要么把平面画面当立体空间,要么算不准真实尺度,跟拿着地图闯迷宫似的,不翻车才怪!

打开网易新闻 查看精彩图片

我当时就觉得,家用机器人普及不了,根本不是不会做动作,是缺了“空间默契”——咱们随口说的“近一点”“挪旁边”,背后是几十年的生活认知,机器人哪懂这个?直到RoboTracer横空出世,才算把这层窗户纸捅破了!

打开网易新闻 查看精彩图片

这多模态大模型是多家科研机构联手搞的,性能直接炸穿天花板:空间理解、度量、指代任务里,平均成功率79.1%,比Gemini-2.5-Pro高出10.8%;高难度的TraceSpatial-Bench评测,更是领先35.7%,把主流同类模型甩得没影!

打开网易新闻 查看精彩图片

可视化对比一眼看穿差距:别的模型生成的轨迹不是飘在半空,就是撞花盆,RoboTracer却能精准贴合真实空间,输入的几何信息越多,预测越准。

机械臂仿真测试里,它更是显著优于现有主流VLA系统,不管是模拟环境还是家里的杂乱场景,复杂多步任务只有它能稳稳拿下。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

技术破局

它为啥这么牛?说白了就是“数据+架构”双buff叠满!先说说它的“知识库”——TraceSpatial数据集,简直是为空间学习量身定做的。

450万个样本、2987万个问答对,是目前最大的3D空间数据集之一,覆盖室内、户外、桌面所有场景,连物体和机器人末端执行器的轨迹都有,还支持3种单臂/双臂机器人。

打开网易新闻 查看精彩图片

更绝的是,这数据集48.2%的内容都聚焦“尺度”,最多能支持9步复杂推理,每个物体从类别到精确位置都标得明明白白,还能从2D图、3D扫描、机器人视频里持续扩数据。

我觉得这才是关键,很多技术卡壳不是模型不行,是数据没戳中痛点,TraceSpatial直接把“空间学习”的基础打牢了!

打开网易新闻 查看精彩图片

再看技术架构,全是巧思!它没走传统(x,y,z)坐标的老路,而是拆成(u,v,d)解耦表达——u和v是像素位置,d是深度,结合相机参数就能轻松算出真实3D坐标。

这波操作太聪明了,既不用让模型硬学复杂的相机几何,还能灵活复用数据:去掉d就是2D轨迹,留起点终点就是空间指代数据。

打开网易新闻 查看精彩图片

还有“通用空间编码器”和“尺度解码器”俩神器:前者能融合相机内参、深度这些几何信息,信息越多理解越细。

后者能把

token转成数值尺度因子,让机器人精准get“1厘米”到底是多远,比传统分类损失准太多了!

打开网易新闻 查看精彩图片

训练上也讲究,分两步走:先靠全参数微调(SFT)把单步空间理解、度量、指代练扎实,再用强化学习微调(RFT)的“度量敏感过程奖励”,盯着中间步骤质量提推理能力,一步步把“空间大脑”练到满级。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

落地价值

最让人惊喜的是,它能快速适配主流机械臂系统!在完成基础配置后,可集成到UR5机械臂、G1仿人机器人上,在特定家庭场景中,浇花、收纳、取物这些复杂任务,它都能搞定。

我敢说,RoboTracer不是简单的技术突破,是把家用机器人从“能用”推向“好用”的关键一步。

打开网易新闻 查看精彩图片

以前总觉得,家庭服务机器人时代还远,现在看来真不远了!未来机器人拼的不是会多少动作,是懂不懂人类的“空间默契”。

当机器人能精准拿捏“1-5厘米”的分寸,能看懂家里的杂乱规矩,咱们才能真正解放双手,这波必须为RoboTracer点个赞!