具身智能的竞争，胜负手在数据供给能力|具身|多模态|数据供给能|机器人|算法

具身机器人正迎来数据之战。

一个有点反常识的现象，最近一年正在国内外具身智能行业发生：全球几乎所有头部玩家，都在做同一件看起来“很重”的事，建训练场。

特斯拉正在把整条工厂产线变成机器人训练场；Figure AI通过自建+联合模式，在全球各地采集人类动作数据；国内同样密集跟进，北京、上海、深圳、苏州、青岛、济南等地已建成或计划在建的具身智能训练场接近 30 家，地方政府、科研机构、企业几乎同时入局，规模从几千平米到上万平米不等。

这些训练场是专门为具身智能（如人形机器人）提供大规模、标准化数据采集与模型训练的基础设施。通过让机器人在不同场景（如物流、搬运）中“摸爬滚打”，学习技能，积累高质量数据。

如果把时间拨回过去两三年，当时行业的共识还是模型不够强，算法不成熟。但现在从业者开始注重一个更现实的问题：没有高质量的数据，模型也无法快速迭代。

一场具身智能的竞赛，正在展开，目标不是生产机器人，而是生产数据。

数据是不等价的

有人也许会疑惑，互联网上有那么多数据，难道还不够吗？要理解这一点，需要先理解具身智能数据的层次结构。

底层：互联网文本和视频数据。量大、成本低，用于预训练，让模型理解世界的语义，但这些数据里没有机器人所需要的物理信息。

中间层：仿真数据。可在计算机里大规模生成，成本低，用于让机器人在虚拟环境里做冷启动训练，但局限在于，无法精确还原接触动力学、材料形变、电机摩擦。

顶层：真机数据。质量最高、成本最高，直接决定任务成功率。

尤其是真机数据，目前数量少、生产成本高。训练场的核心价值，就在于批量、标准化、持续地生产顶层数据。

目前，国内的具身智能训练场，按运营逻辑可切分为四类：国家队（如上海国地）在“修考场”，牵头制定标准与测试基准，发行业驾照；地方国资（如石景山，苏州等）在“铺路”，搞新基建吸引产业链落地；企业（乐聚、智元、基模企业等）在“种地”，亲自下场搭场景采集核心数据喂饱模型；高校科研训练场（如郑州大学、哈职大等）在“发课本”，解决数据孤岛与人才断层。简言之，国家队定规矩，地方建生态，企业产数据，高校养人才——四方合力，只为把机器人从实验室的演示品，变成工厂里的打工人。

以下是国内外部分玩家的概览：

基于以上信息不难看出，伴随大模型对数据需求维度的几何级膨胀，具身智能数据的战略价值已突显。

数据基础设施已经上升到国家政策层面，各地的训练中心正在形成系统性、超前性的基础投入。此前，在国家"十五五"规划纲要中，也已明确将"统筹布局具身智能实训场"列为国家战略任务。

具身智能数据设施也正像当年的云计算一样，正在成为机器人时代的公共平台，降低开发者的准入门槛。云计算出现之前，互联网公司需要自建服务器、机房和运维体系，门槛高、周期长，中小团队很难参与竞争。而云计算平台将算力以服务形式开放，使开发者可以按需使用，从而带来了移动互联网时代的爆发，并诞生了亚马逊AWS、阿里云、微软Azure等巨头。

大多数人形机器人公司还在仿真器里调参，乐聚已经在全国建了 10 个“机器人学校”。这不是什么宏大叙事，而是解决一个最枯燥但最致命的问题：机器人缺数据。就像你不能只靠看视频学会游泳，机器人也不能只靠合成数据学会拧螺丝。乐聚干的是典型的苦活（schlep）——在苏州、北京、青岛这些地方，1:1 搭出POC真实场景，让机器人进去一遍遍采数据、标数据。这听起来没有大模型性感，但逻辑和阿里早年建数据中心一样：不急着做应用，先把又脏又累的基础设施铺好。训练场、数据管线、数据标注——这些是行业的“教材”。当你把教材准备好了，你就拥有了定义课程的权利。这不是在抢什么话语权，而是在给未来的机器人抢学位。

今年，光轮智能、无问智科相继获得巨额融资，其中光轮智能据称目前估值已超过10亿美元，比肩头部具身公司的估值。这是资本对具身数据这一赛道最明确的投票。

这个产业的空间，或许比大多数人想象的还要大。

争论

在行业密集加码数据基础设施的同时，一个更深层的问题浮出水面：究竟什么数据才是真正有效的？

宇树科技创始人王兴兴曾反复提及数据问题，2025年9月外滩大会上上，他表示，目前机器人的数据，无论采集、噪声、数据质量问题都非常大，都还是比较模糊的阶段。

银河通用联合创始人张直政则强调，具身大模型的发展可能需要上万亿条数据，全部用真实数据采集，既不可行，也不可持续。他们的主张是，99%合成数据+1%真实数据，真实数据只是补丁，合成数据才是基本盘。

反对的声音也有。比如，星海图创始人高继扬坚持认为，真实世界原生数据才是具身智能的底座，过度依赖仿真是行业最大的捷径陷阱。

乐聚机器人技术总监王松则坚决看好训练场获取来的真机数据。他提到，乐聚提供的近万小时高质量多模态真机数据，帮助蚂蚁灵波LingBot-VLA模型实现泛化能力突破；在产业应用方面，凭借数据效率，乐聚的全尺寸人形机器人已经交付一汽红旗、海晨物流等企业。

表面上看，以上这些争论让人无所适从，但深究起来会发现，其中所反映的是行业对数据的渴求，以及缺乏一套能高质量生产数据的系统。

面对数据短缺的现状，有的公司给出的答案是仿真，有的公司则坚持训练场这样的真机采集。

Figure AI创始人兼CEO Brett Adcock在接受《时代》杂志采访时，给出了激进的判断：“数据能解决现阶段几乎所有问题。”

未来一段时间，具身智能的竞争，会从模型能力转向数据供给能力。

经济价值与技术价值

2015 年前后，深度学习热潮带动了 AI 数据行业的崛起，其中的佼佼者Scale AI 更是在2025年，以近300亿美元估值被Meta公司收购。

具身智能正在走同一条路，但门槛更高。

据乐聚机器人技术总监王松透露，即便依托目前全国规模最大的训练场网络，其年均高质量数据产出量级仅在 10 万小时左右。相比之下，自动驾驶实现 L4 级别通常依赖百万级数据积累；而具身智能由于涉及更复杂自由度系统的多模态交互与物理反馈，其有效数据需求预计将跃升至千万级。这意味着，高质量具身数据的供给缺口依然巨大。

乐聚把 LET 数据集开源了——全尺寸人形机器人的真机数据。上线后下载量迅速破了百万。这个数字只说了一件事：全行业都在饿肚子。

现在的圈子里，大家还在卷架构、卷泛化。但干实事的人心里清楚，手里没粮。仿真里的数据再干净也是“塑料饭”；小机械臂的数据放在大机器人身上根本跑不通。大家缺的，是全尺寸机器人在真实物理世界里摸爬滚打过的轨迹。

这很像 2009 年的ImageNet。在那之前，计算机视觉还在争论算法；在那之后，大家只看谁的数据多、谁的数据真。

LET 验证了一个常识：具身智能的瓶颈从来不在模型，而在教材。乐聚把教材先发出来了，还牵头成立了国内首个国家级数据开源社区——开放原子具身智能开源数据集社区（OpenLET）。

做开源从是希望建生态圈子。OpenLET 的核心不只是放几个数据包，而是要把这群手里拿着模型却缺数据的开发者聚拢起来。只有当开发者社区开始运转，让所有人都围着同一套标准去贡献和使用数据时，这个行业才算真正有了生态的基座。

除了商业效应，具身智能数据还承担着更重要的价值。

随着数据的积累，我们也将看到，具身智能从Model-Based（基于规则控制），向Data-Driven（数据驱动）的范式转移。

传统机器人是规则系统，由人类定义行为，系统执行逻辑。这样虽然可控，但无法复杂场景。数据驱动则不预设规则，通过大量数据学习。实验数据证明，在后训练阶段通过少量高质量真机数据做对齐，效果远优于单纯增加仿真样本。

马斯克曾多次强调，Optimus 放弃了传统的预设控制逻辑，全栈采用神经网络，其动作、行为，都是基于数据训练的，而非“if-else”逻辑。

产业化的必要条件

回到最初的问题，为什么全行业都在建训练场？

从历史类比看，自动驾驶行业曾经历过同样的阶段：模型参数的扩展触及边界之后，数据基础设施建设成为核心竞争要素。这也是为什么特斯拉、Figure AI、Google，以及国内机器人玩家和机构，不约而同做出同一个判断。