具身智能的GPT时刻？高德连发两个全面SOTA的ABot具身基座模型|具身|大模型|机器人|算法|高德

机器之心编辑部

过去几年，大模型把自然语言处理彻底重塑了。GPT 出来之前，NLP 领域的状态是：每个任务一套模型，每个场景一批数据，每个公司一条流水线，互不通用，边界清晰。GPT 之后，这套逻辑被一个预训练底座 + 任务微调的范式整个替换掉了。

机器人行业今天的处境，像极了 2019 年的 NLP。

不同厂商的不同形态机器人，用着各自独立的动作表示体系，数据互不兼容，模型无法复用。做一个新场景，基本上要从头搭一套…… 当模型与数据被深度绑定在特定形态和特定场景中，机器人所展现出的能力往往更像是一种精心调校的表演，而不是可以迁移、可以泛化的通用技能。

一个只能在特定场景跳舞的机器人，和一个可以在真实生活帮你占座的机器人，你会选哪个？

近日，阿里巴巴集团旗下高德的 ABot 系列具身基座模型的发布，终于让行业看到了机器人进入开放世界的可能。

ABot 系列包括两款基座模型：ABot-M0、ABot-N0前者负责机器人的「手」（操作），后者负责机器人的「腿」（导航）

这两款模型各自在其领域补齐了行业能力缺口，ABot-M0 让不同形态的机器人都能基于统一底座完成精细操作，ABot-N0 则让机器人首次具备在真实开放环境中执行长程复杂任务的能力。它们在具身操作和具身导航做到全面 SOTA，霸榜了 10 项全球权威评测

但更重要的不是这些数字，而是具身智能首次在操作和导航两条核心链路，分别拥有了统一底座。开发者不需要再为每个机器人、场景重做一套系统，而是基于这两个底座去做进一步研究。

如果说 GPT 的出现让 NLP 从任务专用模型转向通用基座，那么 ABot 系列的发布，标志着具身智能正在经历同样的范式跃迁，从为每个机器人、每个场景定制专用系统，转向用统一模型覆盖多样化任务的工程级底座时代。

具身智能，为什么迟迟没有 GPT 时刻

语言模型之所以能够演化出一种通用能力底座，是因为它们具有统一表示（token）、统一架构（基本基于 Transformer）以及可规模化的预训练。从而形成可复用、可迁移、可持续进化的能力底座。

相比之下，具身智能长期缺失的，恰恰是这种「统一」。过去几年，行业始终困在几个结构性瓶颈之中。

首先是数据层面的差异。语言模型的训练数据来自互联网文本，规模庞大、结构却很统一，通过统一的 token 表示实现规模化训练，因此可以在同一架构上持续堆数据、堆算力。而机器人的训练数据则是操作轨迹、导航路径和三维场景信息，这类数据采集成本高、格式各异、天然碎片化，远不像文本那样可以直接汇聚成统一语料，更重要的是他们的本体还不同，机械臂、机器狗和人形机器人的数据无法通用。

本质在于动作表示和空间建模的不统一。在具身领域，不同机器人使用不同的控制频率、坐标体系和动作表达方式：有的以关节角为核心，有的基于末端执行器位姿，有的采用绝对坐标。这些差异看似只是工程实现方式的不同，实际上却决定了数据能否共享、模型能否迁移。一套模型在某种硬件形态上训练完成，并不意味着可以直接迁移到另一平台，因为动作空间本身并不兼容。

动作表示难以统一，使得行业即便积累了大量轨迹数据，也难以整合为规模化训练的基础；与此同时，空间理解能力的不足进一步加剧了这一问题。机器人面对的是连续、高维、动态变化的三维物理空间，它不仅要看见，还要理解空间结构、物体关系与可行动区域。缺乏稳定的三维语义建模能力，使模型在复杂或长程任务中容易失效，鲁棒性不足。

此外，对具身来说非常重要的导航能力仍然高度碎片化。相比固定工位上的机械操作，移动意味着要面对动态变化的环境、随机出现的干扰，以及跨场景的任务切换。无论是跨楼层送物、在商场中跟随服务，还是城市级长程导航，导航都是具身智能迈向通用行动能力的前提。

但现实是，很多主流方法离散且碎片：一套模型用于位置导航，另一套模型用于语义导航，缺什么再补充什么。每个任务都能在局部指标上取得一定成绩，却难以形成统一能力框架，机器训练和适用也就无从谈起。

也正是在这样的背景下，我们很难看到具身智能可以像语言模型一样拥有可复用的具身底座。

从碎片化定制到底座化复用

而高德天然具备解决这些问题的能力，地图与位置服务多年沉淀的大规模真实 3D 场景与空间语义资产，恰恰是具身导航中最稀缺的资源；而长期面向亿级用户的工程落地经验，则意味着它更熟悉如何把系统真正跑在真实环境里。

ABot-M0：先动作语言统一，再谈复用

具身操作的核心难题，用一句话说就是：怎么让同一套模型，驾驭形态各异的机器人，完成各种各样的操作任务。

ABot-M0 的解法是用「动作语言统一」（把异构机器人的动作转换为统一表示）降低数据割裂与训练成本。为了实现这一目标，ABot-M0 从「数据统一 — 算法革新 — 空间感知」三个方面进行了系统性重构。

技术上，它通过统一坐标系、控制频率和增量式动作建模，把来自不同平台的操作轨迹数据打通，并构建了一个时长超过9500 小时包含 600 多万条轨迹、涉及 20 多种具身形态的混合训练集。更关键的是，这套数据不是靠私有采集堆出来的，完全基于公开数据，这也意味着这条路径在原则上通用的。

此外，为了解决动作格式、坐标系和采样率的不一致，高德还定义了标准化的预处理流水线：

所有动作均转换为末端执行器坐标系下的增量动作（delta actions）。
旋转采用旋转向量编码以避免奇异性。
应用「pad-to-dual」策略，在共享框架内支持单臂和双臂任务。
训练期间在各数据集间进行均匀采样，以平衡任务和具身的分布。

这种统一的数据基础打破了数据集间的壁垒，通过对齐各来源的时空结构，实现了稳健的跨具身泛化。

算法层面，ABot-M0 提出了AML（Action Manifold Learning，动作流形学习）。这个方法背后有一个直觉上成立的假设：真实有效的机器人动作，并不是随机分布在所有可能的动作空间里，而是集中在一个受物理规律和任务约束共同塑造的低维流形上。在这个流形上学习，比在全空间暴力搜索更高效，生成的动作序列也更符合物理规律、更稳定。

为增强空间感知，ABot-M0 还引入3D 感知模块，增强模型对前后、远近、遮挡等空间语义的理解，在复杂环境中实现更精准的操作决策。

效果上，在 Libero、Libero-Plus、RoboCasa 基准测试中，ABot-M0 在包含复杂任务组合与动态场景扰动的设定下，平均任务成功率均达到 SOTA。在高难度的 Libero-Plus 基准上，ABot-M0 达到了80.5%的任务成功率，比此前最强方案 pi0提升近 30%。这个提升幅度在工程上是有意义的，从 50% 到 65% 可能只是参数调整，从 50% 到 80% 意味着系统性的能力跃升。

但这次发布更值得关注的，不是这个分数本身，而是它背后隐含的工程逻辑：一旦动作表示被统一，数据就可以跨平台积累，模型就可以持续进化，部署成本就会系统性下降。这好比一个正向飞轮，一旦启动，效果会越来越好。

具身智能的「GPT」时刻，ABot-N0 攻克具身导航核心难题

如果说 ABot-M0 解决的是「手」的问题，ABot-N0 要解决的是「腿」的导航问题，更准确的说，是机器人如何在开放的真实世界里自主移动、理解环境、完成长程任务。

这个问题比操作更难，因为它的不确定性更高。操作任务通常在相对受控的近场环境里，机器人面对的是相对固定和理想的物理环境；导航任务面对的是动态开放世界，场景会变，人会出现，路线会动，指令需要实时拆解和调整。更关键的是，长程任务的失败往往是级联的，一个子任务失败，如果没有容错机制，后续全部崩溃。

导航，这个属于高德的「舒适区」，想要在具身智能上实现突破，远比想象的困难。

当前行业的主流做法是任务拆分：针对不同类型的导航任务（物体导航、语言指令跟随、社交导航……）分别训练专用模型，各自优化。这个做法有效，但存在一个根本性的上限：专用模型无法从异构数据中提取统一的物理先验，泛化能力受限，遇到训练分布之外的场景就会失效。

ABot-N0 的做法是全任务一统：在单一 VLA（视觉 - 语言 - 动作）架构内，实现五大核心导航任务的「大一统」

点位导航（Point-Goal）：精确到达度量坐标，实现基础避障与移动；
目标物导航（Object-Goal）：在未知环境中通过语义推理搜索并定位特定物体；
指令跟随（Instruction-Following）：严密对齐复杂的长程自然语言路径；
POI 导航（POI-Goal）：识别兴趣点并精准进入物理入口，解决「最后几米」的室内外衔接难题；
行人跟随（Person-Following）：实现对动态目标的实时跟踪，赋予机器人社会化交互能力。

ABot-N0 的数据、性能、任务概览

相比只能覆盖部分任务类型的导航模型，ABot-N0 在单一模型中统一五类核心导航任务，让长程复杂任务的执行具备了结构上的可行性。它不再为每种任务单独设计一套系统，而是在同一能力框架下完成不同约束条件下的表达。

这本质上是一个更激进的假设，机器人在世界里移动和理解空间，底层逻辑是统一的，不同任务只是这个统一能力在不同约束条件下的表达，在具体执行中，机器只需在模型的调动下拆解任务，而非在任务的驱动下调动模型。

在技术实现上，ABot-N0 打破了传统的任务隔离方法，采用层次化的「大脑 - 动作」设计哲学。

认知大脑：基于预训练 LLM，负责深度语义理解、任务拆解与空间推理，理解「帮我看看门口有没有快递」这种复杂意图。
动作专家：利用流匹配技术生成精确轨迹，让机器人动作不再生硬，能够像人类一样在复杂环境中稳定、柔顺地穿行。

数据侧是另一个重量级投入：高德构建了约8000 个高保真 3D 场景和近 1700 万条专家示例的导航数据引擎。这个规模不是随便能堆出来的，背后是高德地图多年积累的时空数据资产，3D 场景建模的成本和质量，普通机构几乎不可能复现。

评测结果是，其在 CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench七大权威基准测试中全面刷新了纪录。其中 SocNav 成功率提升 40.5%，HM3D-OVON 物体导航成功率提升 8.8%。SocNav 这个方向尤其值得关注，机器人在有人的动态环境里安全、自然地移动，是服务机器人规模化商用的必要前提，之前一直是这个领域的硬骨头。

Point-Goal 任务：在 CityWalker 及 SocNav 上分别进行开环和闭环评测

但最终让 ABot-N0 从实验室走向现实的，是那套Agentic Navigation System 框架，这是一个把读懂指令→任务拆解→执行→感知→记忆→决策与纠错串成闭环的代理式系统。高德用全球首创的代理系统跨越了从论文到产品之间那道最难的墙。

高德凭什么做成这件事？

具身智能这条赛道进入者不少，为什么是高德先跑通了？

算法是一方面，但也不全是，因为算法是可以追赶的，SOTA 只是实时的数据表征。高德真正的护城河在于两点：多年的空间智能探索、大规模高质量数据与工程化落地能力。

高德做地图和位置服务超过 20 年。这 20 年积累的，不只是道路网络数据，而是大规模真实世界的 3D 场景理解能力：建筑物的空间结构、室内室外的语义信息、人流动线的模式…… 这些东西，恰好是具身导航模型最需要、也最难靠短期采集补上的训练数据。

把地图数据资产脱敏转化为具身智能的训练基础，这个转化本身就是一种核心能力。高保真 3D 场景、专家导航示例，模型建立并非资本驱动，它需要多年的数据积累、场景建模工程能力，以及把这些数据组织成有效训练集的系统工程。

操作侧同样如此。ABot-M0 对 600 万条开源轨迹数据进行统一清洗与标准化，看起来是数据整合问题，实则需要对操作任务的结构、动作表示的差异、不同机器人形态之间的映射关系有深入理解。异构数据的统一，本质上是对任务抽象能力的体现，而不是简单的数据拼接。

如果说数据资产构成了训练基础，那么工程化能力则决定了模型能否真正落地。

ABot-N0 已实现在真实四足机器人平台的部署，并在边缘设备上实现高效推理与闭环控制。这意味着模型不仅能在 GPU 集群中跑通，还能在算力受限、功耗受限、延迟敏感的边缘环境中稳定运行。

这一步其实非常关键。很多具身团队擅长研究范式创新，却未必擅长把系统真正放进真实世界。高德的基因恰恰偏向工程，亿级用户规模的地图服务，要求系统长期稳定运行。把这种工程经验迁移到具身系统中，使得可部署、可持续运行成为设计目标，而不是附加项，而这也恰好解决了具身智能进入开放物理世界的核心命题。

因此，高德的差异化并不在于某一次算法领先，而在于数据与工程能力体系的集中体现。当空间资产、数据治理能力与真实部署经验叠加在一起，具身底座才真正具备长期竞争力。

结语

ABot 系列的发布，或许将在 1-2 年内带来直接改变：统一数据格式和预训练权重，让中小团队无需从零积累百万级轨迹。过去需要 6 个月、数百万元成本的数据采集与训练，现在可能缩短到数周、数十万元的微调成本。

开发范式也将从「重写整套感知 - 规划 - 控制系统」转向「基于底座模型做场景化 fine-tune」。或许一个五人小团队，可能在几周内完成过去需要数十人、数月交付的定制项目。

更远的未来，机器人能力可能变成可组合的 API：就像今天开发者调用 GPT 生成文案、DALL-E 生成图片、Sora 生成视频，未来可能直接调用 ABot 完成物理世界任务：「帮我整理书架」「去仓库盘点库存」「在工厂巡检设备异常」。

当然，硬件成本、安全验证、数据闭环等问题仍然存在，具身智能距离真正普及还有不短的路。但当统一表示开始降低训练门槛，当模型可以在真实环境中持续运行，这个行业至少迈出了从定制工程走向通用底座的一步。

它未必是终局，但方向已经变得更清晰了。

下附此次高德发布的两款具身基座模型的项目主页及技术报告：

ABot-M0 项目主页｜https://amap-cvlab.github.io/ABot-Manipulation/
ABot-M0 技术报告｜https://github.com/amap-cvlab/ABot-Manipulation/blob/main/assets/ABot-M0_Technical_Report.pdf
ABot-N0 项目主页：https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/
ABot-N0 技术报告：https://github.com/amap-cvlab/ABot-Navigation/blob/ABot-N0/ABot-N0_Technical_Report.pdf