哈喽,大家好,今天小墨这篇评论,主要来分析吴琦团队如何用VLNVerse平台,给机器人装上"空间大脑",让AI真正学会看路走路
今年年初,吴琦在接受采访时透露团队正在秘密打造一个全栈式平台,这个消息在圈内引发了不少猜测。
如今年底将至,这个被称为VLNVerse的"具身导航宇宙"正式亮相,从场景生成到真机部署,一次性解决了困扰行业多年的难题。
很多人以为导航就是简单的路径规划,但实际情况远比想象复杂。具身智能导航要解决的,是让一个有物理身体的智能体,能看、能听、能想、还能动。这里的身体不只是机器人,也可以是无人机、无人车,甚至是扫地机器人。
吴琦团队在研究中发现,导航的本质其实是重感知和推理,而不是重执行。和抓取物体需要精细控制不同,导航面对的是复杂多变的空间环境,物体种类位置千差万别,真正的难点在于理解空间、识别物体、推理目的地位置。
至于怎么走到目标点,在现有机器人技术中已经相对成熟了。
这就带来一个问题,过去七年里,VLN领域的任务和数据非常碎片化。有的任务只给一个物体名称让机器人去找,有的给出详细的分步指令,还有的需要机器人主动提问。
不同任务用不同的模拟器,训练出来的模型互不兼容,想要实际应用就得在一个机器人上装好几套系统,这显然不现实。
VLNVerse的核心思路是打通从真实世界到模拟环境,再回到真实世界的完整链条。这个平台分成四个部分,每个部分都针对具体问题给出解决方案。
这些场景不只是好看,里面的柜子能开关,物体能移动,每个东西都有质量、摩擦系数这些物理属性。系统会先用大语言模型理解用户需求,构建基础场景图,再通过KaleidoTree结构生成多个候选方案,最后用可微优化调整物体位置朝向,确保场景符合物理规律。
VLNVerse基于英伟达Isaac Sim构建,提供了263个全新设计的高保真场景,每个场景都有独立的拓扑结构和完整的语义标注。更重要的是,团队设计了一套专门的API接口,让研究人员不用纠结底层机器人控制细节,可以直接关注导航逻辑本身。
任务统一是这个平台最大的创新点。过去不同粒度的导航任务各自为战,VLNVerse首次在一个框架下定义了五大核心任务,从经典的分步指令跟随,到只给最终目标的粗粒度导航,再到看图找物的视觉参考导航,还有需要多阶段规划的长程导航,以及允许机器人主动提问的对话式导航。
团队在ICCV上提出的SAME方法,用混合专家模型的方式,让一套参数就能解决所有类型的导航任务,不再需要针对不同任务部署不同模型。
从模拟器到真实环境,还有不少坑要填。最直接的问题是视角高度差。人类给出指令时是按照1.7米左右的视角,但机器狗的视角只有0.3米,很多参照物根本看不到。比如指令里说"经过足球桌",机器狗只能看到桌腿,根本不知道那是什么。
团队在ICRA 2025上提出的multi-view transformer方案,让低视角机器人能调取自己在其他位置获得的视觉信息,补全当前视角的缺失部分。这个思路其实很巧妙,就像人类会回忆之前看到的场景来理解当前位置。
另一个难题是计算效率。VLN模型普遍比较大,很多还用到了大语言模型,目前大多数部署方式是机器人把数据传回服务器计算,再把指令传回来执行,这就会造成延迟。
吴琦团队还和北大王鹤团队合作,开发了NavFoM这个跨本体的导航基座模型。同一个模型可以部署在机器人、机器狗、无人车和无人机上,不需要针对不同设备重新训练。这意味着一套算法能适配多种硬件平台,大大降低了实际应用的门槛。
VLNVerse的出现,让机器人导航从碎片化的研究任务,变成了一个完整的技术体系。从场景生成到真机部署的全链条打通,让具身智能导航真正有了落地的可能。
吴琦团队承诺会持续开源数据和工具,还会加入多智能体协作等新任务,这对整个行业来说都是好消息。
七年的积累终于迎来突破,接下来就看这些技术能在现实世界创造多少价值了。
热门跟贴