近日,复旦大学、上海创智学院付彦伟教授团队为机器人打造了一种薛定谔的导航器,名字取自量子力学里那只既死又活的猫。
研究中,他们把机器人在办公室、教室、休息室里的导航过程拍成了视频。
视频里,机器人犹豫几秒之后果断绕过一张桌子,后面露出一只玩具猫,它没看见猫,但猜到了猫在那。这个动作人类做起来很自然,但是机器做起来却需要一整套想象的能力。
他们让机器人在行动前,先想象出几种可能的未来场景,每种场景对应一条不同的路线。想象里藏着目标,就走那条路;想象里藏着危险,就避开它。
这套系统在真实的四足机器人 Go2 上进行了测试,在找静态物体、追动态物体、躲避突发障碍三个场景里,成功率都远超现有最强方案。
付彦伟告诉 DeepTech:“有了这套框架,人形机器人或者四足狗就可以在一个全新的环境里直接导航,比如让它去抓住一只移动的猫,或者去拿一个会动的玩偶。这些以前很难做到的事,以后可能就变得很容易了。”
研究中,付彦伟等人首次使用想象的方式来导航,这在以前几乎没人做过。以前的方法处理不了动态物体或者严重遮挡的场景,而他们给出了一个全新的框架。
他们还首次在真实四足机器人上验证了这套系统,在找动态物体和应对突发障碍这两个场景里,效果明显比现有方法好。
看不见的地方,靠想象填满
这一方案想解决的问题是:假如你走进一个房间,目标是一只猫。你面前有张桌子,猫可能在后面,也可能不在。你该往左绕还是往右绕?如果桌后藏着危险的障碍物怎么办?如果猫正在移动呢?
普通机器人会怎么做?它只能看到眼前的东西,被桌子挡住的部分,它完全看不见。它要么随机选一边,要么花很长时间先把桌子周围探一遍,不仅效率低,还容易出错。
普通导航系统的弱点在于,它们只处理眼前能看见的信息。但真实世界里,大量信息藏在障碍物后面。机器人只能看见桌子的正面,看不见桌后是否有猫。
薛定谔的导航器用一个轨迹条件 3D 世界模型来解决这个问题。每次决策前,机器人先用一个程序生成三条候选路线:从左绕、从右绕、从上绕。
然后它把当前看到的画面和这三条路线一起喂给一个叫 FlashWorld 的模型。这个模型能在几秒内生成每条路线对应的未来 3D 场景,所使用的是 3D 高斯泼溅技术,也就是用大量小圆点堆出立体画面。
所生成的未来场景要跟真实世界对齐。具体来说,机器人用深度相机测出当前画面里每个点的真实距离,再和生成场景里的距离对比,算出缩放比例,把想象出的场景缩放到真实尺寸。
然后,它把想象出的场景里的物体贴上语义标签,比如哪些点是猫、哪些点是桌子。而这些想象出来的信息会被融合进一个未来感知价值地图里。
在 Go2 四足机器上验证:找得最准最重要
研究中,付彦伟等人在真实的 Go2 四足机器人上做了三组实验。
第一组是找静态物体,比如办公室里的椅子、教室里的绿植、休息室里的垃圾桶。每条路线重复五次,结果显示,薛定谔的导航器成功 23 次,对比方法成功 22 次,两者差不多。
第二组是找动态物体。目标物在场景里移动,机器人必须实时追踪。结果显示,薛定谔的导航器成功 16 次,对比方法只有 10 次。差距开始显现。
第三组是突发障碍。机器人正沿着一条路走,突然一个物体出现在路中间挡住去路。结果显示,薛定谔的导航器成功 19 次,对比方法只有 12 次。这个结果很关键,因为它证明系统不仅能想象静态场景,还能实时应对环境变化。
在模拟环境里的测试更全面。HM3D 数据集包含 36 个室内场景,1,000 个导航任务,六类目标物体。薛定谔的导航器在到目标距离指标上排第一,意味着它最终停下的位置离目标最近。而这恰恰是这套方法的设计目标:跑得最快是其次,找得最准最重要。
薛定谔的导航器最巧妙的地方在于,它把想象和决策连在了一起。而对比方法用的是同样的底层硬件和语言模型,区别只在于决策逻辑。
对比方法只看到了当前画面,想象不到桌后面的事。薛定谔的导航器多了一步:在行动前先想象。这一步听起来简单,但在机器人身上实现很复杂。
因为要让生成的 3D 场景和真实世界对齐,就要给每个小圆点贴上正确的语义标签,要保证计算速度够快不耽误实时决策。
“让他们去挖一个新坑,他们一开始是犹豫的”
这套方法的应用范围很广。比如,家用机器人找遥控器、扫地机器人绕开突然出现的拖鞋、搜救机器人在废墟里寻找幸存者,都需要在看不见的地方做推理。
付彦伟告诉 DeepTech:“研究期间我花了两三周时间,努力让学生的研究思路转变过来。我们中国的学生都很踏实,做事认真,但比较小心谨慎。你突然提出一个全新的东西,让他们去挖一个新坑,他们一开始是犹豫的。”
他继续说道:“我花了很大力气去说服他们,让他们理解:不能只是跟着别人的经典框架走,要自己去创造一个新框架。这种跨越,其实对博士生来说挺难的。但现在论文做完了,学生自己也觉得这种经历很宝贵,他们现在的研究思路也比以前更开阔了。”
目前系统只生成了三条固定路线(左、右、上),未来可以增加更多样化的路径。谈及后续计划他表示:“后续计划有不少。其中一个方向是多机器人共享同一个 3D 世界。”
如果有好几台异构的机器人,它们可以共享同一个想象空间,通过这个空间去规划每个机器人的路线。“那样的话,机器人在导航这件事上可能比人还厉害,因为我们可以很容易地构造很多机器人,让它们协同工作。”他说。
关于本次导航器的落地,他们可能会找企业合作,也可能做成开源工具包,让各种机器人平台都能调用。目前已经在和一些公司接触。
参考资料:
相关论文:https://arxiv.org/pdf/2512.21201
运营/排版:何晨龙
热门跟贴