作为具身智能触达物理世界的“第一步”,导航技术正处于从“几何避障”向“空间智能”跨越的历史性拐点。
如果说大语言模型赋予了 AI 思考的“灵魂”,那么具身智能则致力于为 AI 打造行动的“身体”。在这一进程中,导航不再是简单的 A 到 B 的路径规划,而是演变为一个集视觉感知、空间推理、实时决策与精密执行于一体的系统性挑战。
当前,具身导航领域正经历着一场深刻的范式变革。一边是学术界对“空间智能”的极致追求:通过三维重建(3DGS)、神经渲染与大模型推理,试图赋予机器人上帝视角般的理解力;另一边则是工业界对“端到端决策”的实战演进:借助自动驾驶的成熟经验,试图在物理世界的不确定性中寻求最稳健的执行闭环。
感知推理与执行控制,究竟谁才是具身智能走向通用的“胜负手”?
是依靠高保真的空间建模构建“物理常识”,还是通过海量数据的端到端训练实现“行动直觉”?当实验室的算法模型遭遇真实世界里的物理边界,具身导航的“上车”时刻还有多远?
本周,GAIR Live 023期线上圆桌将聚焦具身智能导航的前沿进展与落地硬伤,邀请来自顶尖科研机构与自动驾驶前沿的两位专家,分别站在“眼睛与大脑”和“双腿与行动”的不同维度,共同拆解具身导航的底层逻辑。
01
核心议题
▪ 本质之争:导航的内核是几何意义上的“位姿解算”,还是认知层面的“空间推理”?
▪ 范式演进:“去地图化”浪潮下,具身智能如何平衡实时感知与空间先验?
▪ 数据博弈:空间感知力是靠视频数据“看”出来的,还是在物理世界“撞”出来的?
▪ 安全终局:在黑盒化的端到端决策中,如何划定具身导航的“鲁棒性边界”?
02
嘉宾阵容
彭思达 博士 | 浙江大学百人计划研究员
主要从事三维视觉、神经渲染与空间智能的研究。他在实时高保真场景重建、人体运动建模等领域有深厚积累,致力于为具身智能构建更精准、更具语义理解力的“眼睛”与“大脑”。
郝孝帅 博士 | 自动驾驶前沿算法专家
具身多模态大模型研究员。专注于自动驾驶感知鲁棒性与具身智能多模态大模型的深度研究。作为核心第一作者,成功研发了全球首个跨域具身智能大模型 MiMo-Embodied,在推动跨场景通用智能演进方面取得了突破性进展。 他专注于将大规模数据驱动的决策能力转化为物理世界的安全行动,是具身导航从算法原型向实机部署跨越的资深实战派。
03
讨论精华预览
▪感知升维:实时高保真渲染仅仅是为了“好看”,还是彻底改变了导航的输入逻辑?
▪能力涌现:既然大模型(LLM)已具备常识推理,高精度的 3D 空间重建是否正在失去其独立价值?
▪跨界迁移:自动驾驶在结构化道路上的成功经验,能否无缝移植给非结构化环境下的通用机器人?
▪物理鸿沟:当导航算法脱离动力学模型,我们离“跨本体”的通用导航系统还有多远?
▪Sim2Real:在“无限生成”的虚拟宇宙里学出来的导航策略,如何经受真实世界里“反光、摩擦与碰撞”的考验?
04
直播时间:2026年1月30日 19:00(北京时间)
观看平台:视频号“AI科技评论”直播间
扫码预约,与顶尖专家共同透视具身智能导航的爆发前夜。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴