仿真测试跑赢全球30款竞品。
作者 |李水青
编辑 |漠影
机器人前瞻2月12日报道,今天,小米开源其首代机器人VLA(视觉-语言-动作)大模型——Xiaomi-Robotics-0。
该模型拥有4.7B参数,采用MoT混合架构实现“大脑小脑”协同,在LIBERO、SimplerEnv、CALVIN三大主流仿真基准测试中,包揽所有细分项SOTA(行业最佳)。
在真机评估中,Xiaomi-Robotics-0在叠毛巾、拆乐高等任务中动作连贯、反应灵敏。并且,该模型能在消费级显卡上实现实时推理。
▲将毛巾摊平-叠好
为了训练模型Xiaomi-Robotics-0,小米利用了一个庞大的数据集,包含2亿级机器人轨迹数据与超过8000万个通用视觉-语言数据样本,其中包括338小时乐高拆卸、400小时毛巾折叠的数据。
目前,小米已开源了Xiaomi-Robotics-0的模型权重和完整代码,包括技术报告也可以在下面地址中查看。
技术主页:
https://xiaomi-robotics-0.github.io
开源代码:
https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
模型权重:
https://huggingface.co/XiaomiRobotics
01.
拿下三大主流仿真测试SOTA
拆乐高、叠毛巾都胜任
Xiaomi-Robotics-0在三项仿真基准测试的所有Benchmark、30种模型对比中,均取得了SOTA性能。
具体而言,它在LIBERO上的平均成功率达到98.7%。在SimplerEnv上,其在视觉匹配(85.5%)、视觉聚合(74.7%)和WidowX(79.2%)方面均表现出色。在CALVIN上,它在ABC-D和ABCD-D分割上的平均长度分别达到4.75和4.80。
在VLM基准测试中,其预训练模型与基础预训练VLM的性能相当。Xiaomi-Robotics-0保留了VLM本身的多模态理解能力,尤其是在具身更相关的Benchmark中表现较好,这是之前的很多VLA模型所不具备的。
▲该模型在VLA、VLM的Benchmark以及真实机器人的效果指标
在真实机器人评估中,Xiaomi-Robotics-0在两项具有挑战性的双手机器人操作任务——乐高拆卸和毛巾折叠中,实现了高成功率和强大的吞吐量,手眼协调表现较好。
以下是部分真机运行片段:
▲将大块积木逐步拆成小块
▲主动将多余毛巾放回以进行叠放
02.
采用MoT混合架构
大小脑联动实现精准手眼协同
为了兼顾通用理解与精细控制,Xiaomi-Robotics-0采用了主流的MoT (Mixture-of-Transformers)架构。
该架构包括一个视觉语言大脑(VLM)和一个动作执行小脑(Action Expert)。
视觉语言大脑:团队采用了多模态VLM大模型作为底座,它负责理解人类的模糊指令,如“请把毛巾叠好”,并从高清视觉输入中捕捉空间关系。
动作执行小脑:为了生成高频、平滑的动作,团队嵌入了多层的 Diffusion Transformer (DiT)。它不直接输出单一动作,而是生成一个“动作块”(Action Chunk),并通过流匹配(Flow-matching)技术确保动作的精准度。
▲模型架构及训练方法
这种“大脑+小脑”的组合,让模型既能听懂指令,又能像人类一样,在动作执行时保持极高的物理灵活性。
▲主动灵活调整自身动作
03.
基于2亿级数据训练
分两阶段进化
如何让模型既不丢失常识,又精通“体力活”?
团队的训练利用了一个庞大的数据集,其中包含约2亿个机器人轨迹时间步长,和超过8000万个通用视觉-语言数据样本。机器人数据来源于开源数据集和通过远程操作收集的内部数据,包括338小时的乐高拆卸数据、400小时的毛巾折叠数据。
与此同时,团队还设计了一套训练配方,包括跨模态预训练和后训练两个阶段。
1、跨模态预训练:提高模型动作分布预测能力
大部分VLA模型在学动作时往往会“变笨”,失去本身的理解能力。团队通过多模态与动作数据的混合训练,让模型在学会操作的同时,依然保持较强的物体检测、视觉问答和逻辑推理能力。
VLM协同训练:团队首先引入了Action Proposal机制,强迫VLM模型在理解图像的同时预测多种动作分布。这一步是为了让VLM的特征空间与动作空间对齐,不再仅仅是“纸上谈兵”。
DiT专项训练:随后,团队冻结VLM,专注于训练DiT, 学习如何从噪声中恢复出精准的动作序列。这一阶段,团队去除了VLM的离散Token,完全依赖KV特征进行条件生成。通过DiT专项训练,模型可以生成高度平滑、精准的的动作序列。
▲多模态数据与跨本体机器人数据的分布
2、后训练:保障动作连贯流畅
这是解锁物理智能的核心路径。针对推理延迟引发的真机“动作断层”问题,团队采用异步推理模式——让模型推理与机器人运行脱离同步约束、异步执行,从机制上保障动作连贯流畅。
▲异步推理示意图,模型推理延迟不影响真机连续性运行
为进一步强化模型对环境变化的响应敏捷性与运行稳定性,团队引入了:
Clean Action Prefix:将前一时刻预测的动作作为输入,确保动作轨迹在时间维度上是连续的、不抖动的,进一步增加流畅性。
Λ-shape Attention Mask:通过特殊的注意力掩码,强制模型更关注当前的视觉反馈,而不是沉溺于历史惯性。这让机器人在面对环境突发变化时,能够展现出极强的反应性物理智能。
▲团队采用特殊的注意力掩码机制,有效缓解动作惯性
04.
结语:VLA模型加速走向消费级部署
小米此次开源的Xiaomi-Robotics-0采用大小脑分工的MoT混合架构,既保留了VLM的多模态知识储备,又解决了传统VLA模型“学动作、忘视觉”的灾难性遗忘问题。
值得关注的是,该模型能在消费级显卡上实现实时推理,具身智能模型的部署门槛正下沉到普通开发者桌面,机器人软件栈的平民化正在加速到来。
热门跟贴