具身智能的终极愿景是创造能够 “一个大脑,驱动万千形态” 的通用智能体。然而,长期以来,异构数据壁垒、硬件形态鸿沟与模型训练范式错位等挑战,使得这一目标遥不可及。近日,高德地图 CV Lab 团队重磅发布 ABot-M0,一套面向机器人操作的视觉-语言-动作(VLA)基座模型框架。该工作不仅开源了目前非私有领域规模最大的机器人操作数据集,更创新性地提出了“动作流形学习”范式,为构建高性能、强泛化的通用机器人智能体提供了一套完整、开源、可复现的系统性解决方案。
论文标题: ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning 论文链接: https://arxiv.org/abs/2602.11236 代码链接: https://github.com/amap-cvlab/ABot-Manipulation 项目主页: https://amap-cvlab.github.io/ABot-Manipulation
一、行业现状与挑战:具身智能的“巴别塔困境”
近年来,随着大语言模型(LLM)的突破,将其强大的推理和泛化能力迁移至机器人领域的视觉-语言-动作(VLA)模型成为学术界和工业界的热点。VLA模型旨在让机器人像人一样,通过观察视觉世界和理解自然语言指令来执行物理操作。
然而,通往通用具身智能的道路并非坦途,研究者们普遍面临着“巴别塔困境”:
数据孤岛(Data Fragmentation): 全球各实验室使用着不同品牌、不同结构的机器人,采集的数据在动作表征、控制频率、坐标系定义上千差万别。这些异构数据如同一座座“巴别塔”,难以整合,阻碍了模型从海量经验中学习通用规律。
形态鸿沟(Embodiment Gap): 为特定机器人训练的策略,往往无法直接应用于另一种形态的机器人。这种“一脑一用”的模式极大地限制了模型的泛化性,距离“一个大脑,多种形态”(One-Brain, Many-Forms)的理想相去甚远。
学习范式错位(Learning Paradigm Mismatch): 许多主流生成模型(如扩散模型)通过预测高维随机噪声来生成动作,这一过程对于结构性强、物理约束明确的机器人动作而言,不仅学习效率低下,且生成的动作序列容易出现抖动和不稳定。
为系统性地攻克上述难题,我们提出了ABot-M0框架。
ABot-M0 框架概览:一套集数据、模型、训练于一体的系统化解决方案 二、ABot-M0:一套系统性的开源解决方案
ABot-M0并非单一模型,而是一套“三位一体”的完整技术栈,从根源上解决了从异构原始数据到统一高效模型策略的端到端问题。
统一的数据基石 (UniACT-dataset):通过系统化的数据治理,整合并标准化了全球主流的公开操作数据集,构建了目前非私有领域内规模最大的机器人操作数据集。
创新的学习范式 (Action Manifold Learning):提出“动作流形假说”,并设计了全新的动作流形学习(AML)机制,颠覆了传统扩散模型的学习目标,显著提升了学习效率和策略稳定性。
灵活的感知架构 (Modular Perception):采用VLM与3D几何感知的双流设计,兼顾了模型的语义理解泛化性与空间操作精确性,且无需修改骨干网络。
我们坚信,高质量、大规模、标准化的数据是具身智能的“第一性原理”。为此,我们构建了UniACT-dataset。
前所未有的规模与广度:整合了包括
OXE,OXE-AugE,AgiBot-Beta,RoboCoin,RoboMind,Galaxea在内的6个主流开源数据集,总计超过600万条轨迹和9500小时的交互数据。严谨的标准化流程:
统一动作表征:所有动作被转换为以末端执行器(EEF)为中心的增量动作(Delta Actions),其中旋转部分采用更具连续性和稳定性的旋转向量(Rotation Vectors)。这套表征体系有效抹平了不同机器人(embodiment)在运动学上的差异。
统一任务范式:创新性地采用“填充至双臂”(Pad-to-Dual-Arm)策略,通过零填充将单臂任务扩展为双臂格式,使得单一模型能够无缝处理单/双臂协同任务,极大增强了模型的通用性。
传统扩散模型学习预测高维、无结构的噪声(ε-prediction),其学习目标与物理世界中高度结构化的机器人动作之间存在巨大鸿沟。
我们提出“动作流形假说”(Action Manifold Hypothesis):有效的机器人动作序列并非随机散布于高维空间,而是栖居于一个由物理定律、任务约束和环境交互共同决定的低维、光滑的流形上。
动作流形学习 (AML) vs. 传统噪声预测 (ε-prediction)
基于此,我们设计了动作流形学习(AML):
革新学习目标:模型不再预测噪声,而是直接预测“干净”的动作序列(a-prediction)。学习过程从漫无目的的“去噪”转变为高效的“向可行流形投影”,使得学习目标更明确、收敛更迅速。
提升效率与稳定性:结合DiT (Diffusion Transformer)架构,AML不仅显著加快了推理速度,更重要的是,通过约束输出空间,生成了更平滑、更符合物理规律的动作策略。这对于处理长序列、高维度(如双臂、灵巧手)任务展现出巨大潜力。
双流感知融合:
VLM语义流:以Qwen3-VL为骨干,赋予模型强大的场景理解与指令解析能力,是模型泛化性的基础。
3D几何流:通过即插即用(Plug-and-Play)的3D模块(如利用VGGT提取单目3D特征,或利用Qwen-Image-Edit合成新视角特征),为模型注入精确的空间几何先验,弥补标准VLM在精细3D定位上的不足。
两阶段训练策略:
阶段一:大规模预训练:在UniACT-dataset上进行训练,使模型学习到跨任务、跨形态的通用动作先验。
阶段二:监督微调(SFT):在特定下游任务上进行微调,注入领域特定的精细空间知识,从而在保证泛化性的同时,大幅提升在高精度任务(如穿针引线、叠衣服)上的表现。
实践是检验真理的唯一标准。我们在多个业界公认的仿真基准上对ABot-M0进行了全面评估,结果证明了其卓越性能。
LIBERO & LIBERO-Plus:在考验长程任务能力的LIBERO基准上,ABot-M0 取得了98.6%的平均成功率。在更具挑战性的零样本泛化测试集LIBERO-Plus上,成功率高达 80.5% ,显著优于OpenVLA-OFT等前沿模型,展现了强大的跨任务泛化能力。
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
RoboCasa & RoboTwin 2.0:在复杂的双臂协同操作基准RoboCasa GR1上,ABot-M0 达到了58.3%的成功率,验证了AML范式在处理高维动作空间(29维)时的优越性。在多任务泛化基准RoboTwin 2.0上,即使在场景随机化的情况下,ABot-M0 仍能达到81.2%的成功率。在GitHub主页已经更新RoboTwin 2.0为86.1的成功率。
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
ABot-M0在具身VLA公共榜单直接两项第一:https://sota.evomind-tech.com/
五、总结与展望
ABot-M0的核心贡献不仅在于一个高性能的VLA模型,更在于提供了一套从数据到模型、从架构到训练的完整、开源的系统化解决方案。
我们的工作有力地证明:即便不依赖任何私有数据和定制硬件,仅仅通过对公开资源的深度整合与系统性工程化,同样可以构建出性能顶尖、泛化能力卓越的通用机器人智能体。
同时ABot的FAST预训练权重可以作为starVLA的各个模型的初始化,进一步为开源贡献。
我们希望ABot-M0能够成为社区的研究基石,赋能更多研究者,共同推动具身智能技术的发展,早日实现“一个大脑,驱动万千形态”的宏伟蓝图。
Illustration generated by AI.
-The End-
本周上新!
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
yimingzhang@thejiangmen.com
或添加工作人员微信(aceyiming)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
热门跟贴