机器人会想象了！国产技术让机器人预判路径，成功率碾压现有方案

DeepTech深科技

2026-03-25 13:25 ·北京 ·《DeepTech深科技》官方网易号

近日，复旦大学、上海创智学院付彦伟教授团队为机器人打造了一种薛定谔的导航器，名字取自量子力学里那只既死又活的猫。

图 | 付彦伟（来源：资料图）

研究中，他们把机器人在办公室、教室、休息室里的导航过程拍成了视频。

视频里，机器人犹豫几秒之后果断绕过一张桌子，后面露出一只玩具猫，它没看见猫，但猜到了猫在那。这个动作人类做起来很自然，但是机器做起来却需要一整套想象的能力。

他们让机器人在行动前，先想象出几种可能的未来场景，每种场景对应一条不同的路线。想象里藏着目标，就走那条路；想象里藏着危险，就避开它。

这套系统在真实的四足机器人 Go2 上进行了测试，在找静态物体、追动态物体、躲避突发障碍三个场景里，成功率都远超现有最强方案。

付彦伟告诉 DeepTech：“有了这套框架，人形机器人或者四足狗就可以在一个全新的环境里直接导航，比如让它去抓住一只移动的猫，或者去拿一个会动的玩偶。这些以前很难做到的事，以后可能就变得很容易了。”

（来源：https://arxiv.org/pdf/2512.21201）

研究中，付彦伟等人首次使用想象的方式来导航，这在以前几乎没人做过。以前的方法处理不了动态物体或者严重遮挡的场景，而他们给出了一个全新的框架。

他们还首次在真实四足机器人上验证了这套系统，在找动态物体和应对突发障碍这两个场景里，效果明显比现有方法好。

（来源：https://arxiv.org/pdf/2512.21201）

看不见的地方，靠想象填满

这一方案想解决的问题是：假如你走进一个房间，目标是一只猫。你面前有张桌子，猫可能在后面，也可能不在。你该往左绕还是往右绕？如果桌后藏着危险的障碍物怎么办？如果猫正在移动呢？

普通机器人会怎么做？它只能看到眼前的东西，被桌子挡住的部分，它完全看不见。它要么随机选一边，要么花很长时间先把桌子周围探一遍，不仅效率低，还容易出错。

普通导航系统的弱点在于，它们只处理眼前能看见的信息。但真实世界里，大量信息藏在障碍物后面。机器人只能看见桌子的正面，看不见桌后是否有猫。

薛定谔的导航器用一个轨迹条件 3D 世界模型来解决这个问题。每次决策前，机器人先用一个程序生成三条候选路线：从左绕、从右绕、从上绕。

然后它把当前看到的画面和这三条路线一起喂给一个叫 FlashWorld 的模型。这个模型能在几秒内生成每条路线对应的未来 3D 场景，所使用的是 3D 高斯泼溅技术，也就是用大量小圆点堆出立体画面。

所生成的未来场景要跟真实世界对齐。具体来说，机器人用深度相机测出当前画面里每个点的真实距离，再和生成场景里的距离对比，算出缩放比例，把想象出的场景缩放到真实尺寸。

然后，它把想象出的场景里的物体贴上语义标签，比如哪些点是猫、哪些点是桌子。而这些想象出来的信息会被融合进一个未来感知价值地图里。

（来源：https://arxiv.org/pdf/2512.21201）

在 Go2 四足机器上验证：找得最准最重要

研究中，付彦伟等人在真实的 Go2 四足机器人上做了三组实验。

第一组是找静态物体，比如办公室里的椅子、教室里的绿植、休息室里的垃圾桶。每条路线重复五次，结果显示，薛定谔的导航器成功 23 次，对比方法成功 22 次，两者差不多。

第二组是找动态物体。目标物在场景里移动，机器人必须实时追踪。结果显示，薛定谔的导航器成功 16 次，对比方法只有 10 次。差距开始显现。

第三组是突发障碍。机器人正沿着一条路走，突然一个物体出现在路中间挡住去路。结果显示，薛定谔的导航器成功 19 次，对比方法只有 12 次。这个结果很关键，因为它证明系统不仅能想象静态场景，还能实时应对环境变化。

在模拟环境里的测试更全面。HM3D 数据集包含 36 个室内场景，1,000 个导航任务，六类目标物体。薛定谔的导航器在到目标距离指标上排第一，意味着它最终停下的位置离目标最近。而这恰恰是这套方法的设计目标：跑得最快是其次，找得最准最重要。

薛定谔的导航器最巧妙的地方在于，它把想象和决策连在了一起。而对比方法用的是同样的底层硬件和语言模型，区别只在于决策逻辑。

对比方法只看到了当前画面，想象不到桌后面的事。薛定谔的导航器多了一步：在行动前先想象。这一步听起来简单，但在机器人身上实现很复杂。

因为要让生成的 3D 场景和真实世界对齐，就要给每个小圆点贴上正确的语义标签，要保证计算速度够快不耽误实时决策。

（来源：https://arxiv.org/pdf/2512.21201）

“让他们去挖一个新坑，他们一开始是犹豫的”

这套方法的应用范围很广。比如，家用机器人找遥控器、扫地机器人绕开突然出现的拖鞋、搜救机器人在废墟里寻找幸存者，都需要在看不见的地方做推理。

付彦伟告诉 DeepTech：“研究期间我花了两三周时间，努力让学生的研究思路转变过来。我们中国的学生都很踏实，做事认真，但比较小心谨慎。你突然提出一个全新的东西，让他们去挖一个新坑，他们一开始是犹豫的。”

他继续说道：“我花了很大力气去说服他们，让他们理解：不能只是跟着别人的经典框架走，要自己去创造一个新框架。这种跨越，其实对博士生来说挺难的。但现在论文做完了，学生自己也觉得这种经历很宝贵，他们现在的研究思路也比以前更开阔了。”

（来源：https://arxiv.org/pdf/2512.21201）

目前系统只生成了三条固定路线（左、右、上），未来可以增加更多样化的路径。谈及后续计划他表示：“后续计划有不少。其中一个方向是多机器人共享同一个 3D 世界。”

如果有好几台异构的机器人，它们可以共享同一个想象空间，通过这个空间去规划每个机器人的路线。“那样的话，机器人在导航这件事上可能比人还厉害，因为我们可以很容易地构造很多机器人，让它们协同工作。”他说。

关于本次导航器的落地，他们可能会找企业合作，也可能做成开源工具包，让各种机器人平台都能调用。目前已经在和一些公司接触。

参考资料：

相关论文：https://arxiv.org/pdf/2512.21201

运营/排版：何晨龙

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴