两大模型拿下10项SOTA,性能超越Pi0近30%。
作者 |程茜
编辑 |漠影
机器人前瞻2月12日报道,近日,阿里巴巴旗下高德正式发布首个具身智能成果ABot系列具身基座模型。
该系列模型包含具身操作基座模型ABot-M0与具身导航基座模型ABot-N0,根据其技术报告,这两大模型刷新了全球十项权威评测纪录,在具身导航与具身操作上均达到SOTA。
▲ABot-M0在Libero-Plus上的评测结果(上)、ABot-N0在Point-Goal上的评测结果(下)
其中,ABot-M0要解决的难题是机器人操作通用性,提升模型在多样化机器人形态和任务场景下的泛化能力;ABot-N0要提升机器人在动态、多干扰环境中的通用行动能力。
根据技术报告,搭载ABot-N0的机器狗可以完成“带我们去最近的公园放松一下”的复杂任务。该模型会首先解读用户的意图,并查询地形记忆库以获取目标坐标,随后分解为一系列中间子目标最终成功引导机器人到达最终目的地。
此外,为解决机器人在执行长程复杂任务时的任务拆解与容错问题,高德还提出了Agentic Navigation System具身导航系统框架,支持机器人在执行过程中持续感知、记忆、决策与纠错。该系统已部署于真实四足机器人平台。
今年1月,新浪科技曾援引知情人士报道,高德内部已组建具身业务部,并在全球范围内招揽具身智能产品专家及算法工程师。高德计划将世界模型作为底层大脑,探索包括人形机器人、机器狗在内的多元化产品形态,实现从数字导航到实体行动的跨越。
ABot-M0项目主页:
https://amap-cvlab.github.io/ABot-Manipulation/
ABot-N0项目主页:
https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/
01.
ABot-M0:主攻机器人泛化性难题
三大主流基准测试拿下SOTA
机器人技术的规模化应用关键挑战之一在于数据的割裂、动作表示的不统一以及空间理解能力的不足。不同厂商、不同形态的机器人往往使用各自独立的数据体系,导致模型难以跨平台复用,训练效率受限,部署成本高。
高德推出的通用具身操作基础模型ABot-M0,从数据统一、算法革新、空间感知三个方面进行了系统性重构,可提升模型在多样化机器人形态和任务场景下的泛化能力。
在具身智能领域主流三大开源仿真评测基准Libero、Libero-Plus、RoboCasa测试中,该模型在包含复杂任务组合与动态场景扰动的设定下,平均任务成功率均达到SOTA。
在考验VLA模型在真实扰动下的脆弱性的Libero-Plus基准上,该模型得分达到80.5%,较Pi0提升近30%,展现了其在高扰动高难度具身操作任务中的优势。
▲ABot-M0在Libero-Plus上的评测结果
根据其技术报告,在训练数据方面,研究人员整合了整合超过600万条真实操作轨迹,涵盖9500多个小时的训练数据和20多个不同的机器人模型,为ABot-M0构建了目前规模最大的通用机器人数据集UniACT。
▲UniACT数据集概览
该数据集通过统一动作表示、坐标系与控制频率,并采用增量式动作建模,实现跨平台数据融合,可支撑完全基于公开数据的模型预训练。
训练策略上,研究人员采用了两阶段训练模式,第一阶段为大规模预训练,用于构建可泛化的动作先验,第二阶段为基于知识注入的空间感知监督微调。
第一阶段训练中,ABot-M0提出了全球首个动作流形学习,具体为有效的机器人动作受限于物理规律、任务目标与环境约束,集中分布在低维结构化的流形上。然后,研究人员通过AML(Action Manifold Learning)算法,使模型能够直接预测结构合理、物理可行的动作序列,以提升策略的稳定性与解码效率。
为增强机器人的空间感知能力,ABot-M0还引入了3D感知模块,可增强模型对前后、远近、遮挡等空间语义的理解。
▲三维信息注入流程
02.
ABot-N0:集成五大导航任务,全球首个!
在实际场景中,机器人需要在动态且存在干扰的环境里展现出通用的行动能力,如跨场景送物或跟随服务。但当前的机器人会受困于环境看不懂、动作做不准,无法执行“去门口帮我看看快递”等复杂指令。
基于此,高德推出了具身导航基座模型ABot-N0。
该模型在七大具身智能领域的基准测试CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench中刷新了世界纪录。
其中在考验机器人在人群中社交导航能力的SocNav闭环仿真中,ABot-N0成功率(SR)提升至40.5%,在HM3D-OVON评测中成功率(SR)提升8.8%,表现优于此前的SOTA模型。
▲ABot-N0在多个数据集上的评测结果
根据技术报告,该模型以“全任务一统”为核心目标,全球首次在单一模型中完整集成Point-Goal(点位导航)、Object-Goal(目标导航)、Instruction-Following(指令跟随)、POI-Goal(兴趣点导航)与Person-Following(人物跟随)五大导航任务。
点位导航:机器人必须达到在局部坐标系中定义的精确度量坐标,作为稳健运动和避障的基础;
目标导航:机器人在未见过的环境中主动搜索并导航到特定对象类别,需要复杂的语义推理和多模态集成;
指令跟随:机器人必须执行长远、复杂的自然语言路径,重点在于语言输入与顺序动作执行之间的严格对齐
兴趣点导航:要求机器人识别特定的兴趣点并精确导航到其物理入口,连接室外和室内环境,同时解决最后几米的导航挑战;
人物跟随:涉及对动态人类目标的实时跟踪,代表了人机交互的一项关键社交能力。
这使得搭载ABot-N0的机器人可以完成“带我去奶茶店买一杯奶茶,再帮我占个座”的复杂指令。面对该需求,系统会分解导航任务:根据地图记忆接近奶茶店区域完成点位导航,切换至目标导航锁定店铺入口并靠近,触发指令跟随进入店铺并导航至柜台;最后执行目标导航,在店内寻找空沙发并停靠。
集成了五大导航的ABot-N0,能让机器人成功执行长程复杂任务。
▲ABot-N0架构图
高德在模型架构方面采用了层次化的“大脑‑动作”设计,并构建了业内最大规模具身导航数据引擎。
具体来看,“大脑‑动作”设计由“认知大脑”理解指令并做推理,由基于流匹配(Flow Matching)的“动作专家”生成精确且多峰分布的连续轨迹。训练层面,研究人员会先让模型做认知训练,再用部分认知数据和海量导航动作进行联合监督微调,最后用强化学习把导航决策对齐到人类偏好的行为价值,最终打造出真实环境中更通用的VLA基座模型。
其构建的具身导航数据集涵盖约8000个高保真3D场景等海量时空数据与近1700万条专家示例,包含7802个高保真三维场景,覆盖6.25公里的室内环境和4.42公里的室外环境。
▲ABot-N0的数据集
03.
结语:凭海量空间认知数据
地图厂商切入具身智能赛道
作为地图导航领域的头部大厂,高德此前积累了大量的时空数据、环境理解与动态规划能力,此次其推出的两大模型分别聚焦机器人通用操作泛化与复杂环境鲁棒行动,或进一步将地图平台的空间智能优势转化为机器人在真实世界的感知、决策与执行能力。
高德切入具身智能赛道,其具备天然的海量空间认知数据,或成为具身智能赛道中不可忽视的重要力量,加速机器人实现自主决策与执行。
热门跟贴