2月12日,小米正式宣布开源其首代机器人VLA(Vision-Language-Action)大模型Xiaomi-Robotics-0。据小米技术官方介绍,该模型拥有47亿参数,兼具视觉语言理解与高性能实时执行能力,已在多项基准测试中刷新纪录。
在架构设计上,Xiaomi-Robotics-0采用了"大脑+小脑"混合架构。其中,视觉语言"大脑"基于多模态VLM大模型作为底座,负责理解人类的自然语言指令并从视觉输入中捕捉空间关系;动作执行"小脑"则嵌入多层Diffusion Transformer(DiT),通过流匹配技术生成高频、平滑的动作序列,确保机器人操作的精准度。
在性能验证方面,Xiaomi-Robotics-0在LIBERO、CALVIN和SimplerEnv三大主流仿真测试中,与30种模型的横向对比中均取得当前最优成绩。在真机任务中,团队将模型部署于双臂机器人平台,完成了积木拆解、叠毛巾等长周期高难度操作,展现出对刚性物体和柔性织物的良好适应能力。此外,该模型能够在消费级显卡上实现实时推理,降低了部署门槛。
针对机器人实际运行中推理延迟可能导致的"动作断层"问题,团队引入了异步推理模式,使模型推理与机器人运行脱离同步约束,从机制上保障动作的连贯流畅。同时,通过特殊的注意力掩码机制,强制模型优先关注当前视觉反馈,增强对环境突发变化的响应能力。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:观察君
热门跟贴