小米开源47亿参数机器人大模型，“大脑+小脑”架构三大测试刷新纪录，2025年至2026年或迎量产元年

金融界

2026-02-12 15:04 ·北京 ·金融界网站官方账号优质财经领域创作者

2月12日，小米正式宣布开源其首代机器人VLA（Vision-Language-Action）大模型Xiaomi-Robotics-0。据小米技术官方介绍，该模型拥有47亿参数，兼具视觉语言理解与高性能实时执行能力，已在多项基准测试中刷新纪录。

在架构设计上，Xiaomi-Robotics-0采用了"大脑+小脑"混合架构。其中，视觉语言"大脑"基于多模态VLM大模型作为底座，负责理解人类的自然语言指令并从视觉输入中捕捉空间关系；动作执行"小脑"则嵌入多层Diffusion Transformer（DiT），通过流匹配技术生成高频、平滑的动作序列，确保机器人操作的精准度。

在性能验证方面，Xiaomi-Robotics-0在LIBERO、CALVIN和SimplerEnv三大主流仿真测试中，与30种模型的横向对比中均取得当前最优成绩。在真机任务中，团队将模型部署于双臂机器人平台，完成了积木拆解、叠毛巾等长周期高难度操作，展现出对刚性物体和柔性织物的良好适应能力。此外，该模型能够在消费级显卡上实现实时推理，降低了部署门槛。

针对机器人实际运行中推理延迟可能导致的"动作断层"问题，团队引入了异步推理模式，使模型推理与机器人运行脱离同步约束，从机制上保障动作的连贯流畅。同时，通过特殊的注意力掩码机制，强制模型优先关注当前视觉反馈，增强对环境突发变化的响应能力。

声明：市场有风险，投资需谨慎。本文为AI基于第三方数据生成，仅供参考，不构成个人投资建议。

本文源自：市场资讯

作者：观察君

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴