如果说2025年是人形机器人“学会走路”的一年,2026年正被逼着“学会干活”。一个尴尬的现实是:在舞台上,机器人的动作一年时间里突飞猛进;在生活中,连把一杯水从餐桌端到茶几上,都做不利索。
问题出在了哪?我们在一场行业论坛上找到了答案。
百度智能云事业群总裁沈抖的解释是:数据是制约行业发展的核心短板,具身智能尚未进入生产生活环节,数据未形成规模化正向循环,与自动驾驶的成熟数据生态存在较大差距。
用一句话总结的话:并非只是算法不够好,还涉及到训练数据够不够多、够不够广、够不够“真”。
01 数据的“含金量”,才是真正的壁垒
每次谈及大模型时,“智能涌现”的概念被频频提起:把互联网上的文本和图片喂给模型,智能就“涌现”了。
在具身智能产业,类似的逻辑却行不通。
文本、图片、视频等多半是“公开数据”,具身智能需要的是“任务级”和“过程级”的物理交互数据。比如需要让机器人知道一个苹果握在手里是什么触感、掉到地上会怎么滚动、抓太轻会滑落、抓太重会捏破。
互联网上没有这些数据,必须有人在真实世界里手把手教,或者通过遥操作设备“示范”,代价是四个层次的数据困境。
第一,标准缺失。
即使是同一个抓取动作,由于传感器型号、关节扭矩精度、坐标定义方式的差异,数据之间互不兼容。结果是“行业缺乏统一的数据格式标准与元数据规范,数据无法跨企业、跨平台复用。”
就像是战国时期的文字,每个诸侯国的“字”都差不多,就是没有统一标准、彼此无法互通。
第二,采集成本高昂。
真机遥操作采集是行业公认质量最高的方案,操作员穿戴上动捕设备和力反馈手套,手把手带着机器人完成每一个动作。单小时有效数据的成本可高达数千元,且操作员上手门槛极高。
好比是让一个大学教授去给幼儿园小孩一对一辅导,效果是好,但效率太低,几乎无法规模化。
第三,传统标注模式不适用。
以前标注一张图是“猫”还是“狗”,或者在自动驾驶的2D视频画面里画个框,属于平面视觉的范畴。
但三维世界的交互,涉及力觉反馈、触觉感知、6D自由度姿态,以及对物理规律的理解。单单是标注一个“拿起水杯”的动作,就需要同步记录视觉、力觉、关节角度、接触点压力分布等多路信号。
第四,Sim2Real的鸿沟。
在仿真环境中训练出来的机器人策略,迁移到真实世界时往往“水土不服”:光照稍微变了一点,物体摆放位置和训练时不一样,摩擦力、弹性质感与仿真参数有细微偏差……任何一个微小差异都可能导致整个操作失败。
最终影响模型泛化性的因素,不只是“有没有数据”的问题,还牵涉到“数据够不够真”。
参考自动驾驶行业的先例,人形机器人想要走进千家万户,规模化正向循环的数据体系,是不可或缺的一环。
与之相对应的,包括乐聚机器人在内的企业纷纷以生态合作的方式填补数据短板,逐渐形成了一套体系化的数据生成能力,可以清晰看到一个完整的三层结构:
第一层是基础设施层:制造身体和训练大脑能力。
一端是与东方精工联合打造的万台级人形机器人产线,解决“身体”的规模化生产;另一端是机器人训练场,持续生成高质量交互数据,构建“数据大脑”。
第二层是核心技术层:“核心零部件+OS+大脑”。
通过投资和联合布局,打通了一体化关节、电机、灵巧手、数据平台、具身大脑与操作系统等关键环节,把过去分散在产业链各处的能力,收敛为可协同的系统能力。
第三层是“场景应用层”:场景落地网络。
在工业与服务场景中,与中国一汽、海晨股份等合作伙伴展开探索,让机器人在真实生产环境中不断“回流数据”,形成闭环。
只是彼时业界的注意力还集中在”人形“的形态上,对数据的讨论尚未成为行业的主要议题。
02 行业正在转向:从“造机器”到“养数据”
进入2026年后,人形机器人在台前“表演式炫技”的同时,越来越多人开始思考——怎么才能走向实用?
答案无不指向了数据。
特斯拉的思路是通过统一的AI架构,将全FSD的积累扩展至具身智能领域,让人形机器人Optimus无需从零开始建立“世界模型”,可以复用FSD的成熟管线,实现从道路到空间场景的迁移学习。
国内厂商也在加速补数据的短板,比如乐聚机器人在4月28日发布的“数据采集训练场2.0”。
如果说传统AI像“应试教育”,训练完了就定型;“数据采集训练场2.0”既像是一个学习各种技能的“素质教育学校”,又像是一个培训实习的“工厂”,让机器人在各行业正式“上岗”前,先学习、练习各类技能。
大模型之所以在两三年内实现质的飞跃,不是某一家公司聪明,而是沉淀了二十多年的文本和图像等着被训练。而具身智能几乎没有存量的物理数据,必须一帧一帧地采集。
在“数据从哪里来,智能就从哪里涌现”的铁律下,数据量能够达到“智能涌现”的前提,是有人先把数据采集的“基础设施”建起来。乐聚机器人的“数据采集训练场2.0”,扮演的正是“养数据”的角色。
确切地说是三个层次的数据:
一是轮臂操作,通过VR+全身增量遥操作,覆盖抓、拿、放等高频标准动作,满足规模化流水线作业。
轮臂机器人也是当前离商业落地最近的一条路径,场景确定、动作标准化、容错空间相对大,数据采集难度也相对可控,操作员通过VR头盔和手柄遥控机器人,不需要全身复杂的动捕设备。
二是灵巧手操作,搭载触觉灵巧手与腕部六维力传感器,聚焦捏、扣、握等五指精细交互,瞄准的是复杂手眼协同。
人类手指有超过20个自由度,一个简单的“旋开瓶盖"动作,就涉及到指尖抓握力道的微调、手腕旋转角度的实时修正、视觉反馈的闭环调整,数据采集难度指数级上升,需要动捕手套+力反馈+高清视觉的多路同步。
三是全尺寸人形操作,整合了搬、蹲、走等大范围拟人作业,实现了多关节协同与全向移动控制。
人形机器人是数据需求最“贪婪”的一条路径:全身40多个自由度同时运动,每一步都涵盖重心平衡、步态调节、环境感知等协同,只有低成本、高效率生成高质量、多样化的数据,才能建立起长期壁垒。
需要说明的是,目前“没有哪一条是完美的技术路线”。遥操作质量高但成本贵,便携采集规模大但不够精细,仿真数据便宜却不够真实,三条路线谁也替代不了谁,适用于不同的场景、不同的阶段。
2023 年乐聚提出生态计划的概念,方向非常明确——从“自建能力”走向“开放能力”,第一阶段的核心是搭建基础设施层和核心技术层,第二阶段是场景应用层。
当本体、数据、大小脑、场景四个核心要素打通后,下一步不再是单点突破,而是通过生态放大——就是目前正在开展的第三阶段,面向行业招募二次开发合作伙伴。同时也意味着,在乐聚基础设施已经搭建成熟的基础上,商业化将全面提速。
过去,人形机器人企业更像是“整机厂”,需要自己解决几乎所有问题;而在生态化阶段,更像一个“平台公司”,向外输出标准、工具链与基础能力,让合作伙伴在不同场景中完成“最后一公里”。
借用行业内的一个乐观的判断:随着越来越多的机器人团队正在从“造机器”转向“养数据”,预计2027年数据量将超过1000万小时,人形机器人的“ChatGPT时刻"可能在两年后到来。
03 写在最后
乐聚机器人与东方精工联合打造的国内首条万台级人形机器人自动化产线已在广东佛山启用;特斯拉Optimus计划2026年中实现月产1万台......
2026年是具身智能的量产元年,也注定是直面商业化的一年。至少乐聚机器人在内的中国企业,已经在市场爆发前夜把产品打磨成熟、把标准制定清楚、把数据短板补齐,为量产提前铺好了路。
或许在不久,我们再评估一台人形机器人有多先进时,不再是惊叹于它能翻多高的跟头、跳多酷的街舞,而是像一个真正的伙伴那样,步履平稳地走到你面前,稳稳地递上一杯咖啡。
热门跟贴