具身机器人正迎来数据之战。
一个有点反常识的现象,最近一年正在国内外具身智能行业发生:全球几乎所有头部玩家,都在做同一件看起来“很重”的事,建训练场。
特斯拉正在把整条工厂产线变成机器人训练场;Figure AI通过自建+联合模式,在全球各地采集人类动作数据;国内同样密集跟进,北京、上海、深圳、苏州、青岛、济南等地已建成或计划在建的具身智能训练场接近 30 家,地方政府、科研机构、企业几乎同时入局,规模从几千平米到上万平米不等。
这些训练场是专门为具身智能(如人形机器人)提供大规模、标准化数据采集与模型训练的基础设施。通过让机器人在不同场景(如物流、搬运)中“摸爬滚打”,学习技能,积累高质量数据。
如果把时间拨回过去两三年,当时行业的共识还是模型不够强,算法不成熟。但现在从业者开始注重一个更现实的问题:没有高质量的数据,模型也无法快速迭代。
一场具身智能的竞赛,正在展开,目标不是生产机器人,而是生产数据。
01
数据是不等价的
有人也许会疑惑,互联网上有那么多数据,难道还不够吗?要理解这一点,需要先理解具身智能数据的层次结构。
底层:互联网文本和视频数据。量大、成本低,用于预训练,让模型理解世界的语义,但这些数据里没有机器人所需要的物理信息。
中间层:仿真数据。可在计算机里大规模生成,成本低,用于让机器人在虚拟环境里做冷启动训练,但局限在于,无法精确还原接触动力学、材料形变、电机摩擦。
顶层:真机数据。质量最高、成本最高,直接决定任务成功率。
尤其是真机数据,目前数量少、生产成本高。训练场的核心价值,就在于批量、标准化、持续地生产顶层数据。
目前,国内的具身智能训练场,按运营逻辑可切分为四类:国家队(如上海国地)在“修考场”,牵头制定标准与测试基准,发行业驾照;地方国资(如石景山,苏州等)在“铺路”,搞新基建吸引产业链落地;企业(乐聚、智元、基模企业等)在“种地”,亲自下场搭场景采集核心数据喂饱模型;高校科研训练场(如郑州大学、哈职大等)在“发课本”,解决数据孤岛与人才断层。简言之,国家队定规矩,地方建生态,企业产数据,高校养人才——四方合力,只为把机器人从实验室的演示品,变成工厂里的打工人。
以下是国内外部分玩家的概览:
基于以上信息不难看出,伴随大模型对数据需求维度的几何级膨胀,具身智能数据的战略价值已突显。
数据基础设施已经上升到国家政策层面,各地的训练中心正在形成系统性、超前性的基础投入。此前,在国家"十五五"规划纲要中,也已明确将"统筹布局具身智能实训场"列为国家战略任务。
具身智能数据设施也正像当年的云计算一样,正在成为机器人时代的公共平台,降低开发者的准入门槛。云计算出现之前,互联网公司需要自建服务器、机房和运维体系,门槛高、周期长,中小团队很难参与竞争。而云计算平台将算力以服务形式开放,使开发者可以按需使用,从而带来了移动互联网时代的爆发,并诞生了亚马逊AWS、阿里云、微软Azure等巨头。
大多数人形机器人公司还在仿真器里调参,乐聚已经在全国建了 10 个“机器人学校”。这不是什么宏大叙事,而是解决一个最枯燥但最致命的问题:机器人缺数据。就像你不能只靠看视频学会游泳,机器人也不能只靠合成数据学会拧螺丝。乐聚干的是典型的苦活(schlep)——在苏州、北京、青岛这些地方,1:1 搭出POC真实场景,让机器人进去一遍遍采数据、标数据。这听起来没有大模型性感,但逻辑和阿里早年建数据中心一样:不急着做应用,先把又脏又累的基础设施铺好。训练场、数据管线、数据标注——这些是行业的“教材”。当你把教材准备好了,你就拥有了定义课程的权利。这不是在抢什么话语权,而是在给未来的机器人抢学位。
今年,光轮智能、无问智科相继获得巨额融资,其中光轮智能据称目前估值已超过10亿美元,比肩头部具身公司的估值。这是资本对具身数据这一赛道最明确的投票。
这个产业的空间,或许比大多数人想象的还要大。
02
争论
在行业密集加码数据基础设施的同时,一个更深层的问题浮出水面:究竟什么数据才是真正有效的?
宇树科技创始人王兴兴曾反复提及数据问题,2025年9月外滩大会上上,他表示,目前机器人的数据,无论采集、噪声、数据质量问题都非常大,都还是比较模糊的阶段。
银河通用联合创始人张直政则强调,具身大模型的发展可能需要上万亿条数据,全部用真实数据采集,既不可行,也不可持续。他们的主张是,99%合成数据+1%真实数据,真实数据只是补丁,合成数据才是基本盘。
反对的声音也有。比如,星海图创始人高继扬坚持认为,真实世界原生数据才是具身智能的底座,过度依赖仿真是行业最大的捷径陷阱。
乐聚机器人技术总监王松则坚决看好训练场获取来的真机数据。他提到,乐聚提供的近万小时高质量多模态真机数据,帮助蚂蚁灵波LingBot-VLA模型实现泛化能力突破;在产业应用方面,凭借数据效率,乐聚的全尺寸人形机器人已经交付一汽红旗、海晨物流等企业。
表面上看,以上这些争论让人无所适从,但深究起来会发现,其中所反映的是行业对数据的渴求,以及缺乏一套能高质量生产数据的系统。
面对数据短缺的现状,有的公司给出的答案是仿真,有的公司则坚持训练场这样的真机采集。
Figure AI创始人兼CEO Brett Adcock在接受《时代》杂志采访时,给出了激进的判断:“数据能解决现阶段几乎所有问题。”
未来一段时间,具身智能的竞争,会从模型能力转向数据供给能力。
03
经济价值与技术价值
2015 年前后,深度学习热潮带动了 AI 数据行业的崛起,其中的佼佼者Scale AI 更是在2025年,以近300亿美元估值被Meta公司收购。
2015 年前后,深度学习热潮带动了 AI 数据行业的崛起,其中的佼佼者Scale AI 更是在2025年,以近300亿美元估值被Meta公司收购。
具身智能正在走同一条路,但门槛更高。
据乐聚机器人技术总监王松透露,即便依托目前全国规模最大的训练场网络,其年均高质量数据产出量级仅在 10 万小时左右。相比之下,自动驾驶实现 L4 级别通常依赖百万级数据积累;而具身智能由于涉及更复杂自由度系统的多模态交互与物理反馈,其有效数据需求预计将跃升至千万级。这意味着,高质量具身数据的供给缺口依然巨大。
乐聚把 LET 数据集开源了——全尺寸人形机器人的真机数据。上线后下载量迅速破了百万。这个数字只说了一件事:全行业都在饿肚子。
现在的圈子里,大家还在卷架构、卷泛化。但干实事的人心里清楚,手里没粮。仿真里的数据再干净也是“塑料饭”;小机械臂的数据放在大机器人身上根本跑不通。大家缺的,是全尺寸机器人在真实物理世界里摸爬滚打过的轨迹。
这很像 2009 年的ImageNet。在那之前,计算机视觉还在争论算法;在那之后,大家只看谁的数据多、谁的数据真。
LET 验证了一个常识:具身智能的瓶颈从来不在模型,而在教材。乐聚把教材先发出来了,还牵头成立了国内首个国家级数据开源社区——开放原子具身智能开源数据集社区(OpenLET)。
做开源从是希望建生态圈子。OpenLET 的核心不只是放几个数据包,而是要把这群手里拿着模型却缺数据的开发者聚拢起来。只有当开发者社区开始运转,让所有人都围着同一套标准去贡献和使用数据时,这个行业才算真正有了生态的基座。
除了商业效应,具身智能数据还承担着更重要的价值。
随着数据的积累,我们也将看到,具身智能从Model-Based(基于规则控制),向Data-Driven(数据驱动)的范式转移。
传统机器人是规则系统,由人类定义行为,系统执行逻辑。这样虽然可控,但无法复杂场景。数据驱动则不预设规则,通过大量数据学习。实验数据证明,在后训练阶段通过少量高质量真机数据做对齐,效果远优于单纯增加仿真样本。
马斯克曾多次强调,Optimus 放弃了传统的预设控制逻辑,全栈采用神经网络,其动作、行为,都是基于数据训练的,而非“if-else”逻辑。
04
产业化的必要条件
回到最初的问题,为什么全行业都在建训练场?
从历史类比看,自动驾驶行业曾经历过同样的阶段:模型参数的扩展触及边界之后,数据基础设施建设成为核心竞争要素。这也是为什么特斯拉、Figure AI、Google,以及国内机器人玩家和机构,不约而同做出同一个判断。
具身智能的自由度和任务复杂度远高于自动驾驶,所需数据量要高出几个数量级,这意味着数据设施的重要性会更高。
2025年是具身智能模型叙事,走向商业叙事的转折点。根据工信部的数据,这一年,中国工业机器人产量同比增长28%,人形机器人产业进入从原型到量产的关键过渡期,模型迭代的速度在加快,而每一轮迭代都在消耗数据。
这或许是整件事最核心的逻辑是,训练场是不是一个终极方案并不重要,重要的是,它是具身智能走向产业化的必要条件。
数据资产是时间的函数,越早开始积累,优势越难被追上。先建起数据优势的人,先拥有更深的技术积累,也更有可能留在牌桌上。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。F
热门跟贴