2月12日消息,阿里巴巴集团旗下高德发布具身操作基座模型ABot-M0与具身导航基座模型ABot-N0,并刷新了多项评测纪录,在具身导航与具身操作上同步达到SOTA。

打开网易新闻 查看精彩图片

据介绍,高德推出的 ABot-M0作为一款通用的具身操作基础模型,从“数据统一—算法革新—空间感知”三个方面进行了系统性重构,致力于提升模型在多样化机器人形态和任务场景下的泛化能力。ABot-M0基于全球开源资源,整合超过600万条真实操作轨迹,构建了目前规模最大的通用机器人数据集。通过统一动作表示、坐标系与控制频率,并采用增量式动作建模,实现了跨平台数据融合,支撑了完全基于公开数据的预训练。

算法革新上,ABot-M0提出了首个动作流形学习,AML(Action Manifold Learning)算法,使模型能够直接预测结构合理、物理可行的动作序列,提升策略的稳定性与解码效率。为增强空间感知,ABot-M0引入3D 感知模块,增强模型对“前后、远近、遮挡”等空间语义的理解,在复杂环境中实现更精准的操作决策。

在 Libero、Libero-Plus、RoboCasa 基准测试中,该模型在包含复杂任务组合与动态场景扰动的设定下,平均任务成功率均达到 SOTA。其中,Libero-Plus 基准上达到了80.5%,较业界先进方案pi0提升近30%,展现了其在高扰动高难度具身操作任务中的领先性能。

打开网易新闻 查看精彩图片

ABot-M0在Libero-Plus的评测

此外,高德推出的具身导航基座模型ABot-N0,以“全任务一统”为核心目标,并实现在单一模型中完整集成Point-Goal(点位导航)、Object-Goal(目标导航)、Instruction-Following(指令跟随)、POI-Goal(兴趣点导航)与Person-Following(人物跟随)五大导航任务。

比如,当用户对搭载ABot-N0的具身机器人说:“带我去奶茶店买一杯奶茶,再帮我占个座。”时系统会自动分解为具体的导航任务:首先执行Point-Goal,根据地图记忆接近奶茶店区域;之后切换至POI-Goal,精准锁定店铺入口并靠近;随后触发Instruction-Following,进入店铺并导航至柜台;最后执行Object-Goal,在店内寻找空沙发并停靠。

打开网易新闻 查看精彩图片

ABot-N0的数据、性能、任务概览

在模型架构上,ABot-N0采用层次化的“大脑‑动作”设计哲学:由“认知大脑”理解指令并做推理,由基于流匹配(Flow Matching)的“动作专家”生成精确且多峰分布的连续轨迹 。训练上,先让模型做认知训练热身,再用部分认知数据和海量导航动作进行联合监督微调,最后用强化学习把导航决策对齐到人类偏好的行为价值,最终打造出真实环境中更通用的VLA基座模型。

在数据侧,高德构建了业内最大规模的具身导航数据引擎,涵盖约8000个高保真3D 场景等海量时空数据与近1700万条专家示例,从而增强模型在真实环境中的泛化能力与鲁棒性。

ABot-N0在CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench七大权威基准测试中刷新了纪录。其中在SocNav闭环仿真中,成功率(SR)飙升40.5%,在HM3D-OVON评测中成功率(SR)提升8.8%,均显著强于之前的SOTA模型。

打开网易新闻 查看精彩图片

Point-Goal任务:在CityWalker及SocNav上分别进行开环和闭环评测

此外,为了解决机器人在执行长程复杂任务时的任务拆解与容错问题,高德提出了可落地的Agentic Navigation System具身导航系统框架,行成从“读懂指令”到“长程复杂任务执行”的闭环能力架构,支持机器人在执行过程中持续感知、记忆、决策与纠错。(定西)