设想你置身于一个全然陌生的空间。 为了尽快掌握其全貌,你绝不会仅仅满足于“走一步、想一步、记一步”的机械堆砌,而是会结合过往的认知经验,在大脑中对未观测区域进行想象。比如,通过一段弧形的墙面,你或许能预判出一个环形大厅的存在,并据此提前规划探索路径。
这种“基于先验、预构全局”的主动建模能力,对人类而言几近本能。然而在机器人领域,这一名为“主动建图(Active Mapping)”的任务却长期受困于一种“贪婪陷阱”:机器人往往只能依赖当前视野内的局部信息来寻找“最佳下一视角(Next-Best-View)”,导致其行为更像是在进行零散的碎片拼接,而非整体的构架推算。这种缺乏全局预构的探索方式,本质上是一种短视策略。由于无法对视线外的空间进行有效推断,机器人极易陷入局部最优的“死循环”。
近日,来自巴黎综合理工学院以及法国国家信息与自动化研究所的研究团队,在 CVPR 2026 上发表了一项具有启发的工作:MAGICIAN(本意为“魔术师”)。它赋予了机器人一种“魔术师”般的预见能力——通过“想象”未见区域的几何结构,并利用 3D 高斯溅射(3D Gaussian Splatting, 3DGS)的极速渲染特性,实现了高效的长期轨迹规划。
论文标题: MAGICIAN:Efficient Long-Term Planning with Imagined Gaussians for Active Mapping 论文地址: https://arxiv.org/abs/2603.22650 项目主页: https://shiyao-li.github.io/magician 代码仓库:(已开源) https://github.com/shiyao-li/magician一、长期规划的“鸡生蛋”困境
主动建图的核心矛盾在于:为了规划一条最优的长路径,你需要知道环境的全貌;但你之所以要移动,正是因为环境还是未知的。这种“鸡生蛋”的困境导致大多数现有方法只能选择“走一步看一步”。
虽然有些研究尝试引入长期规划,但面临着巨大的计算瓶颈。要评估成千上万条可能的路径,每一条路径都需要预测未来的观测增益。如果使用传统的蒙特卡洛采样或复杂的神经网络查询,计算量会呈指数级爆炸。
MAGICIAN 的核心突破在于提出了一种全新的场景表示——想象高斯(Imagined Gaussians)。它巧妙地将深度学习的“结构预判”与 3D 高斯的“渲染效率”结合在了一起。
2.1 脑补未见之境:占据预测
算法的第一步是利用一个预训练的神经占据网络(Occupancy Network)。这个网络在大量 3D 数据上训练过,拥有强大的“常识”。即使机器人只看到了桌子的一角,网络也能根据先验知识,预测出桌子剩下的部分以及周围墙壁的大致位置。
输入是机器人过去所有的观测数据和位姿,输出则是一个概率场 ,代表空间中某一点被占据的可能性。
2.2 化虚为实:高斯表征
为了让规划变得飞快,作者并没有直接在概率场上做文章,而是将其转化为了 3D 高斯原语。
不透明度(Opacity):直接对应占据网络预测的概率 。概率越高,高斯点越“实”。
颜色(Color):这里被用来编码“新颖度(Novelty)” 。还没去过的地方,新颖度设为 1;去过的地方,新颖度设为 0。
这是 MAGICIAN 最值得细细思考的地方。在评估一个候选位姿时,不再需要复杂的几何计算,而是直接利用 3D 高斯溅射的渲染公式:
简单来说,只要在“想象高斯”的世界里对着候选方向“拍张照”,渲染出来的新颖度地图(Novelty Map)像素总和,就是这个位姿能带来的表面覆盖增益。得益于 GPU 对高斯渲染的极致优化,这个过程比之前的 SOTA 方法快了 25倍。
利用想象高斯计算覆盖增益的示意图,通过渲染出的新颖度图直接量化增益 三、束搜索:寻找全局最优路径
有了极速的增益评估手段,MAGICIAN 终于可以放开手脚进行长期规划了。
算法采用了束搜索(Beam Search)策略:
从当前位置出发,模拟出 条可能的路径。
在每一条路径的模拟过程中,一旦“想象高斯”被观测到,它的新颖度就会立刻在这一条路径的记忆中降为 0。
不断扩展路径,最终选择总累积增益最高的轨迹执行。
这种方式让机器人能够感知到:“如果我先去 A 点再去 B 点,虽然 A 点增益一般,但它能为我开启通往大厅的视野,长远来看比直接去 C 点更划算。”
想象高斯随时间演化的过程,可以看到它随着观测增加与真实网格越来越贴合 四、实验结果:全方位的降维打击
研究团队在室内(MP3D)和大型室外(Macarons++)场景下对 MAGICIAN 进行了严苛的测试。
4.1 覆盖率与效率的双重飞跃
在 Macarons++ 数据集上,MAGICIAN 的最终覆盖率达到了 91.9%,远超之前的 SOTA 方法 MACARONS(81.9%)和 FisherRF(78.6%)。更重要的是,反映探索效率的指标 AUC 提升了约 11%,这意味着机器人在更短的时间内完成了更多的任务。
4.2 重建质量:告别“破洞”
由于 MAGICIAN 规划的路径更加完整,最终生成的 3D 模型也更加精致。在真实扫描场景的实验中,几何精度(Accuracy)达到了 94.20%。
从视觉上看,MAGICIAN 重建的建筑表面平滑,几乎没有传统方法中常见的空洞和噪声。
4.3 极强的鲁棒性
消融实验显示,MAGICIAN 对初始位姿的随机性表现得非常稳健。无论机器人从哪个角落出发,得益于强大的长期规划,最终的覆盖率标准差极低。相比之下,之前的其他方法往往会因为起步不好而“步步错”。
不同方法在不同场景下的覆盖率标准差对比,MAGICIAN 表现最稳定,受随机初始位姿影响最小 五、写在最后
MAGICIAN 的成功,本质上是将“预测”引入了“感知”。它告诉我们,机器人不应该只是被动地接受环境,而应该在具备“常识”的情况下主动地去“想象”环境。
通过将复杂的占据场转化为轻量化的 3D 高斯,MAGICIAN 绕过了长期规划的计算大山,这让机器人在实际部署中计算更友好。
目前,作者已经将代码开源在 GitHub 上。如果你对自主建图或 3D 高斯感兴趣,MAGICIAN 是一个值得深入研究的基准。
Illustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
yimingzhang@thejiangmen.com
或添加工作人员微信(aceyiming)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
热门跟贴