打开网易新闻 查看精彩图片

机器之心编辑部

过去几年,大模型把自然语言处理彻底重塑了。GPT 出来之前,NLP 领域的状态是:每个任务一套模型,每个场景一批数据,每个公司一条流水线,互不通用,边界清晰。GPT 之后,这套逻辑被一个预训练底座 + 任务微调的范式整个替换掉了。

机器人行业今天的处境,像极了 2019 年的 NLP。

不同厂商的不同形态机器人,用着各自独立的动作表示体系,数据互不兼容,模型无法复用。做一个新场景,基本上要从头搭一套…… 当模型与数据被深度绑定在特定形态和特定场景中,机器人所展现出的能力往往更像是一种精心调校的表演,而不是可以迁移、可以泛化的通用技能。

一个只能在特定场景跳舞的机器人,和一个可以在真实生活帮你占座的机器人,你会选哪个?

近日,阿里巴巴集团旗下高德的 ABot 系列具身基座模型的发布,终于让行业看到了机器人进入开放世界的可能。

ABot 系列包括两款基座模型:ABot-M0、ABot-N0前者负责机器人的「手」(操作),后者负责机器人的「腿」(导航)

这两款模型各自在其领域补齐了行业能力缺口,ABot-M0 让不同形态的机器人都能基于统一底座完成精细操作,ABot-N0 则让机器人首次具备在真实开放环境中执行长程复杂任务的能力。它们在具身操作和具身导航做到全面 SOTA,霸榜了 10 项全球权威评测

但更重要的不是这些数字,而是具身智能首次在操作和导航两条核心链路,分别拥有了统一底座。开发者不需要再为每个机器人、场景重做一套系统,而是基于这两个底座去做进一步研究。

如果说 GPT 的出现让 NLP 从任务专用模型转向通用基座,那么 ABot 系列的发布,标志着具身智能正在经历同样的范式跃迁,从为每个机器人、每个场景定制专用系统,转向用统一模型覆盖多样化任务的工程级底座时代。

具身智能,为什么迟迟没有 GPT 时刻

语言模型之所以能够演化出一种通用能力底座,是因为它们具有统一表示(token)、统一架构(基本基于 Transformer)以及可规模化的预训练。从而形成可复用、可迁移、可持续进化的能力底座。

相比之下,具身智能长期缺失的,恰恰是这种「统一」。过去几年,行业始终困在几个结构性瓶颈之中。

首先是数据层面的差异。语言模型的训练数据来自互联网文本,规模庞大、结构却很统一,通过统一的 token 表示实现规模化训练,因此可以在同一架构上持续堆数据、堆算力。而机器人的训练数据则是操作轨迹、导航路径和三维场景信息,这类数据采集成本高、格式各异、天然碎片化,远不像文本那样可以直接汇聚成统一语料,更重要的是他们的本体还不同,机械臂、机器狗和人形机器人的数据无法通用。

本质在于动作表示和空间建模的不统一。在具身领域,不同机器人使用不同的控制频率、坐标体系和动作表达方式:有的以关节角为核心,有的基于末端执行器位姿,有的采用绝对坐标。这些差异看似只是工程实现方式的不同,实际上却决定了数据能否共享、模型能否迁移。一套模型在某种硬件形态上训练完成,并不意味着可以直接迁移到另一平台,因为动作空间本身并不兼容。

动作表示难以统一,使得行业即便积累了大量轨迹数据,也难以整合为规模化训练的基础;与此同时,空间理解能力的不足进一步加剧了这一问题。机器人面对的是连续、高维、动态变化的三维物理空间,它不仅要看见,还要理解空间结构、物体关系与可行动区域。缺乏稳定的三维语义建模能力,使模型在复杂或长程任务中容易失效,鲁棒性不足。

此外,对具身来说非常重要的导航能力仍然高度碎片化。相比固定工位上的机械操作,移动意味着要面对动态变化的环境、随机出现的干扰,以及跨场景的任务切换。无论是跨楼层送物、在商场中跟随服务,还是城市级长程导航,导航都是具身智能迈向通用行动能力的前提。

但现实是,很多主流方法离散且碎片:一套模型用于位置导航,另一套模型用于语义导航,缺什么再补充什么。每个任务都能在局部指标上取得一定成绩,却难以形成统一能力框架,机器训练和适用也就无从谈起。

也正是在这样的背景下,我们很难看到具身智能可以像语言模型一样拥有可复用的具身底座。

从碎片化定制到底座化复用

高德天然具备解决这些问题的能力,地图与位置服务多年沉淀的大规模真实 3D 场景与空间语义资产,恰恰是具身导航中最稀缺的资源;而长期面向亿级用户的工程落地经验,则意味着它更熟悉如何把系统真正跑在真实环境里。

ABot-M0:先动作语言统一,再谈复用

具身操作的核心难题,用一句话说就是:怎么让同一套模型,驾驭形态各异的机器人,完成各种各样的操作任务。

ABot-M0 的解法是用「动作语言统一」(把异构机器人的动作转换为统一表示)降低数据割裂与训练成本。为了实现这一目标,ABot-M0 从「数据统一 — 算法革新 — 空间感知」三个方面进行了系统性重构。

打开网易新闻 查看精彩图片

技术上,它通过统一坐标系、控制频率和增量式动作建模,把来自不同平台的操作轨迹数据打通,并构建了一个时长超过9500 小时包含 600 多万条轨迹、涉及 20 多种具身形态的混合训练集。更关键的是,这套数据不是靠私有采集堆出来的,完全基于公开数据,这也意味着这条路径在原则上通用的。

此外,为了解决动作格式、坐标系和采样率的不一致,高德还定义了标准化的预处理流水线:

  • 所有动作均转换为末端执行器坐标系下的增量动作(delta actions)。
  • 旋转采用旋转向量编码以避免奇异性。
  • 应用「pad-to-dual」策略,在共享框架内支持单臂和双臂任务。
  • 训练期间在各数据集间进行均匀采样,以平衡任务和具身的分布。

这种统一的数据基础打破了数据集间的壁垒,通过对齐各来源的时空结构,实现了稳健的跨具身泛化。

算法层面,ABot-M0 提出了AML(Action Manifold Learning,动作流形学习)。这个方法背后有一个直觉上成立的假设:真实有效的机器人动作,并不是随机分布在所有可能的动作空间里,而是集中在一个受物理规律和任务约束共同塑造的低维流形上。在这个流形上学习,比在全空间暴力搜索更高效,生成的动作序列也更符合物理规律、更稳定。

打开网易新闻 查看精彩图片

为增强空间感知,ABot-M0 还引入3D 感知模块,增强模型对前后、远近、遮挡等空间语义的理解,在复杂环境中实现更精准的操作决策。

效果上,在 Libero、Libero-Plus、RoboCasa 基准测试中,ABot-M0 在包含复杂任务组合与动态场景扰动的设定下,平均任务成功率均达到 SOTA。在高难度的 Libero-Plus 基准上,ABot-M0 达到了80.5%的任务成功率,比此前最强方案 pi0提升近 30%。这个提升幅度在工程上是有意义的,从 50% 到 65% 可能只是参数调整,从 50% 到 80% 意味着系统性的能力跃升。

打开网易新闻 查看精彩图片

但这次发布更值得关注的,不是这个分数本身,而是它背后隐含的工程逻辑:一旦动作表示被统一,数据就可以跨平台积累,模型就可以持续进化,部署成本就会系统性下降。这好比一个正向飞轮,一旦启动,效果会越来越好。

具身智能的 「GPT」 时刻,ABot-N0 攻克具身导航核心难题

如果说 ABot-M0 解决的是「手」的问题,ABot-N0 要解决的是「腿」的导航问题,更准确的说,是机器人如何在开放的真实世界里自主移动、理解环境、完成长程任务。

这个问题比操作更难,因为它的不确定性更高。操作任务通常在相对受控的近场环境里,机器人面对的是相对固定和理想的物理环境;导航任务面对的是动态开放世界,场景会变,人会出现,路线会动,指令需要实时拆解和调整。更关键的是,长程任务的失败往往是级联的,一个子任务失败,如果没有容错机制,后续全部崩溃。

导航,这个属于高德的「舒适区」,想要在具身智能上实现突破,远比想象的困难。

当前行业的主流做法是任务拆分:针对不同类型的导航任务(物体导航、语言指令跟随、社交导航……)分别训练专用模型,各自优化。这个做法有效,但存在一个根本性的上限:专用模型无法从异构数据中提取统一的物理先验,泛化能力受限,遇到训练分布之外的场景就会失效。

ABot-N0 的做法是全任务一统:在单一 VLA(视觉 - 语言 - 动作)架构内,实现五大核心导航任务的「大一统」

  • 点位导航(Point-Goal):精确到达度量坐标,实现基础避障与移动;
  • 目标物导航(Object-Goal):在未知环境中通过语义推理搜索并定位特定物体;
  • 指令跟随(Instruction-Following):严密对齐复杂的长程自然语言路径;
  • POI 导航(POI-Goal):识别兴趣点并精准进入物理入口,解决「最后几米」的室内外衔接难题;
  • 行人跟随(Person-Following):实现对动态目标的实时跟踪,赋予机器人社会化交互能力。

打开网易新闻 查看精彩图片

ABot-N0 的数据、性能、任务概览

相比只能覆盖部分任务类型的导航模型,ABot-N0 在单一模型中统一五类核心导航任务,让长程复杂任务的执行具备了结构上的可行性。它不再为每种任务单独设计一套系统,而是在同一能力框架下完成不同约束条件下的表达。

这本质上是一个更激进的假设,机器人在世界里移动和理解空间,底层逻辑是统一的,不同任务只是这个统一能力在不同约束条件下的表达,在具体执行中,机器只需在模型的调动下拆解任务,而非在任务的驱动下调动模型。

在技术实现上,ABot-N0 打破了传统的任务隔离方法,采用层次化的「大脑 - 动作」设计哲学。

  • 认知大脑:基于预训练 LLM,负责深度语义理解、任务拆解与空间推理,理解「帮我看看门口有没有快递」这种复杂意图。
  • 动作专家:利用流匹配技术生成精确轨迹,让机器人动作不再生硬,能够像人类一样在复杂环境中稳定、柔顺地穿行。

打开网易新闻 查看精彩图片

数据侧是另一个重量级投入:高德构建了约8000 个高保真 3D 场景和近 1700 万条专家示例的导航数据引擎。这个规模不是随便能堆出来的,背后是高德地图多年积累的时空数据资产,3D 场景建模的成本和质量,普通机构几乎不可能复现。

打开网易新闻 查看精彩图片

评测结果是,其在 CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench七大权威基准测试中全面刷新了纪录。其中 SocNav 成功率提升 40.5%,HM3D-OVON 物体导航成功率提升 8.8%。SocNav 这个方向尤其值得关注,机器人在有人的动态环境里安全、自然地移动,是服务机器人规模化商用的必要前提,之前一直是这个领域的硬骨头。

打开网易新闻 查看精彩图片

Point-Goal 任务:在 CityWalker 及 SocNav 上分别进行开环和闭环评测

但最终让 ABot-N0 从实验室走向现实的,是那套Agentic Navigation System 框架,这是一个把读懂指令→任务拆解→执行→感知→记忆→决策与纠错串成闭环的代理式系统。高德用全球首创的代理系统跨越了从论文到产品之间那道最难的墙。

高德凭什么做成这件事?

具身智能这条赛道进入者不少,为什么是高德先跑通了?

算法是一方面,但也不全是,因为算法是可以追赶的,SOTA 只是实时的数据表征。高德真正的护城河在于两点:多年的空间智能探索、大规模高质量数据与工程化落地能力。

高德做地图和位置服务超过 20 年。这 20 年积累的,不只是道路网络数据,而是大规模真实世界的 3D 场景理解能力:建筑物的空间结构、室内室外的语义信息、人流动线的模式…… 这些东西,恰好是具身导航模型最需要、也最难靠短期采集补上的训练数据。

把地图数据资产脱敏转化为具身智能的训练基础,这个转化本身就是一种核心能力。高保真 3D 场景、专家导航示例,模型建立并非资本驱动,它需要多年的数据积累、场景建模工程能力,以及把这些数据组织成有效训练集的系统工程。

操作侧同样如此。ABot-M0 对 600 万条开源轨迹数据进行统一清洗与标准化,看起来是数据整合问题,实则需要对操作任务的结构、动作表示的差异、不同机器人形态之间的映射关系有深入理解。异构数据的统一,本质上是对任务抽象能力的体现,而不是简单的数据拼接。

如果说数据资产构成了训练基础,那么工程化能力则决定了模型能否真正落地。

ABot-N0 已实现在真实四足机器人平台的部署,并在边缘设备上实现高效推理与闭环控制。这意味着模型不仅能在 GPU 集群中跑通,还能在算力受限、功耗受限、延迟敏感的边缘环境中稳定运行。

这一步其实非常关键。很多具身团队擅长研究范式创新,却未必擅长把系统真正放进真实世界。高德的基因恰恰偏向工程,亿级用户规模的地图服务,要求系统长期稳定运行。把这种工程经验迁移到具身系统中,使得可部署、可持续运行成为设计目标,而不是附加项,而这也恰好解决了具身智能进入开放物理世界的核心命题。

因此,高德的差异化并不在于某一次算法领先,而在于数据与工程能力体系的集中体现。当空间资产、数据治理能力与真实部署经验叠加在一起,具身底座才真正具备长期竞争力。

结语

ABot 系列的发布,或许将在 1-2 年内带来直接改变:统一数据格式和预训练权重,让中小团队无需从零积累百万级轨迹。过去需要 6 个月、数百万元成本的数据采集与训练,现在可能缩短到数周、数十万元的微调成本。

开发范式也将从「重写整套感知 - 规划 - 控制系统」转向「基于底座模型做场景化 fine-tune」。或许一个五人小团队,可能在几周内完成过去需要数十人、数月交付的定制项目。

更远的未来,机器人能力可能变成可组合的 API:就像今天开发者调用 GPT 生成文案、DALL-E 生成图片、Sora 生成视频,未来可能直接调用 ABot 完成物理世界任务:「帮我整理书架」「去仓库盘点库存」「在工厂巡检设备异常」。

当然,硬件成本、安全验证、数据闭环等问题仍然存在,具身智能距离真正普及还有不短的路。但当统一表示开始降低训练门槛,当模型可以在真实环境中持续运行,这个行业至少迈出了从定制工程走向通用底座的一步。

它未必是终局,但方向已经变得更清晰了。

下附此次高德发布的两款具身基座模型的项目主页及技术报告:

  • ABot-M0 项目主页|https://amap-cvlab.github.io/ABot-Manipulation/
  • ABot-M0 技术报告|https://github.com/amap-cvlab/ABot-Manipulation/blob/main/assets/ABot-M0_Technical_Report.pdf
  • ABot-N0 项目主页:https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/
  • ABot-N0 技术报告:https://github.com/amap-cvlab/ABot-Navigation/blob/ABot-N0/ABot-N0_Technical_Report.pdf