这一次,它不是靠外形博眼球,而是真正朝着自主行动的家用机器人方向迈了一步,背后的技术逻辑值得好好说道。
在1XWM出现之前,多数机器人采用的VLA范式存在明显局限,核心问题就是对物理世界的理解不足,这类模型依赖预训练视觉语言模型做基础,再叠加动作预测模块,看似能处理复杂指令,实则需要数万小时的机器人专属数据训练,不仅成本高昂,泛化能力还极差,换个没见过的物体就可能宕机。
这种常识性认知正是家用机器人走进复杂家庭环境的关键,在小圆看来,这不仅是技术升级,更是机器人智能范式的转变,从被动执行指令升级为主动预判场景,这一范式转变的落地,还离不开适配的硬件支撑,毕竟模型的能力最终要靠机器人躯体来实现。
世界模型主干采用多阶段训练模式,先靠互联网视频打基础,再用900小时人类第一视角视频对齐操作逻辑,最后用70小时NEO专属数据微调适配躯体特性,为了提升指令遵循度,团队还借助VLM生成详细字幕辅助训练,这种精细化操作让模型对任务的理解更精准。
而逆动力学模型则扮演着过滤器的角色,它把生成视频转化为精确动作序列,同时剔除物理上不可能、运动学上不可行的动作,避免NEO做出瞬移物体、关节过度弯曲等离谱行为,小圆认为,这种软硬协同的设计思路很务实,既发挥了视频预训练的规模化优势,又通过精准对齐解决了落地难题。
泛化能力亮眼但仍有挑战,衡量机器人技术的核心的是泛化能力,1XWM在这方面交出了不错的答卷,在未经过专门训练的情况下,NEO能抓取从未见过的物体、完成清洁等全新动作,甚至实现双手协同和人机交互,这些能力都来自视频预训练积累的通用知识,再加上类人躯体结构的迁移优势。
实验数据显示,其在多种基础动作上成功率稳定,生成视频与实际执行过程视觉一致性极高,说明模型在空间理解、物理规律建模上已具备较强能力,当然,技术落地总有不完美之处,团队也承认存在脑到手未到的情况,倒液体、绘图等精细操作仍是难点。
且生成5秒视频需耗时11秒,速度短板会影响家用体验,不过1X团队找到了解决方向,通过并行生成多个视频并筛选最优方案,能有效提升任务成功率,抽纸任务成功率就从30%提升至45%,在小圆看来,这种直面问题、精准优化的思路,比单纯炫技的Demo更有价值。
这些实测中的亮点与不足,也勾勒出人形机器人商业化落地的清晰路径,500万次围观的热度,本质上是大众对家用机器人真正自主化的期待,1X把世界模型落地到NEO身上,不仅验证了视频预训练赋能机器人的可行性,更提供了一套从知识获取到动作执行的完整方案。
为行业突破数据依赖、降低落地成本提供了新思路,尽管目前在精细操作、响应速度上仍有提升空间,但这种从被动执行到主动思考的跨越,已经让人看到家用机器人走进千家万户的希望,随着技术持续迭代,以及硬件成本的逐步降低,相信人形机器人跨越最后一公里的那天不会太远,而1X的这次尝试,无疑为这条赛道点亮了重要的一盏灯。
热门跟贴