打开网易新闻 查看精彩图片

印度古鲁格拉姆一家服装厂里,工人们佩戴着环形摄像设备,录制缝纫动作。

摄像头记录下他们的手部操作,数据被用于训练机器人、计算机视觉和自主系统。

与此同时,中国雄安新区的机器人训练场对数据采集持续精耕细作,美国零工通过家务视频获得报酬提供补充。

不同路径交织成一条全球数据供给链,决定了机器人行业竞争的下一赛道。

01数据工厂

古鲁格拉姆的服装厂里,一排排工人坐在缝纫机前缝制衣服,头上佩戴着装有摄像头的环形设备,记录着每一步操作。

有工人说,电池就在太阳穴附近,随着电池发热,会感到不舒服,“感觉它就像在吸我们的血一样”。

管理人员在下班时收回这些配备了32GB内存卡的摄像头,设备收集到的视觉数据会提供给构建机器人、计算机视觉和自主系统的全球AI公司。

这家印度服装厂正是第一人称视角数据采集产业链上的一个节点。

行业领跑者之一是2026年1月由两名印度青少年创立的初创公司Egolab AI。

成立仅两个月,他们便以七位数价格被一家美国企业收购。

Egolab AI自称“印度最大的第一人称视角数据聚合商”,核心业务是从印度各行业聚合大量佩戴摄像设备工人录制的视频,客户包括特斯拉、波士顿动力、Figure AI等公司。

公开文件显示,Egolab计划到2027年聚合印度每个主要邦和各个行业的第一人称视角数据,包括纺织、汽车、化工、电子、钢铁和快消品。

在这些工厂里,工人们重复着缝纫、装配动作。

他们从周一到周六每天工作12个小时,月薪在20000至30000卢比之间,约合人民币1420元至2130元。

有人对设备的监视感到不安,称“去洗手间之前,我们必须把它摘下来”,也有人担心“它会偷听我们的对话”。

他们承担着全球机器人行业对“真机操作数据”的渴求。

大洋彼岸的美国,这种需求催生另一种模式。

今年3月,外卖巨头DoorDash推出Tasks应用,让美国800万零工通过拍摄叠衣服、洗碗筷、铺床、修剪植物和换盆等任务视频赚取报酬。

打开网易新闻 查看精彩图片

参与者上传数据,直接获得报酬,这些数据随后将被应用于训练AI和机器人。

两国路径迥异,但都指向同一件事,人类肢体动作被转化为机器学习的燃料。

然而,这只是一场庞大数据缺口的冰山一角。

业内指出,从收集第一人称视角数据到实现工厂机器人的自动化,科技公司依然需要来自多个地区的数十亿小时高质量数据。

02供给核心

在具身智能的世界里,机器人不仅要“会动”,更要“会做事”。

训练机器人在真实物理环境中完成复杂操作,必须依赖高质量的真实物理世界交互数据。

纯仿真数据存在固有偏差,难还原真实工况中的微妙变化,人工规则编写也难以覆盖复杂场景。

相比之下,依托人类实操经验开展真机数据采集,已成为机器人实现自主学习、持续进化的核心路径。

印度工人头戴摄像头录制的动作,正是这类数据供给的一种形式。

国内科技公司灵初智能抓住这一点,提出“人类数据预训练”路线,不是单纯关注机器人自身动作,而是让模型先学习人是如何完成任务的。

打开网易新闻 查看精彩图片

人类手部动作天然包含机器人尚未掌握的操作意图、接触关系、发力方式和任务上下文,是关键先验。

这一理念在雄安新区具身智能训练场得到体现。

数据采集员梁俪珊脖子上戴着VR眼镜,手握操控手柄,缓慢地引导一台机器人完成取面包、对准卡槽、精准放入早餐机的动作。

她说:“就像教小孩拿筷子,不能指望它一次就会,要有耐心,一遍一遍地教。”

梁俪珊解释,“一个动作需要高精准地重复采集数百上千次”,每次细微的角度和力度差异都会产生不同数据。

雄安训练场用1:1实景还原迎宾导览、工业货物搬运、家居生活、商业零售、物流装配五大应用场景,机器人接受多样化训练。

每天可生成约千条高质量数据,这些标准化数据集同步上架至雄安新区城市可信数据空间。

数据采集不仅难,采集到的数据也常存在标准不一、数据孤岛等问题。

为破解瓶颈,上海上线了国内首个大规模具身智能标准化数据集平台“浦江X”,尝试解决“数据孤岛、标准缺失、治理缺失”等行业共性难题,支撑多场景的数据治理和共享。

具身智能数据采集规模化后,行业出现几条主要路径。

灵初智能用人类操作数据做预训练,积累动作先验和任务理解。

智元机器人依托AIDEA数据体系和AgiBot World数据集,以超过100万条轨迹、217个任务和多个部署场景构建真机数据底座。

银河通用则将机器人放入智慧零售、货架整理、商品识别、抓取搬运等高频零售场景,利用真实环境积累大量数据,形成场景牵引模型迭代的闭环。

尽管路线差异明显,但行业共识已经逐渐清晰:高质量、可规模化的真机动作数据,是产业发展不可或缺的核心根基。

03供应链重塑

基于共识,行业的竞争焦点正从机器人本体和演示效果,转向数据闭环的构建。

前端负责采集与清洗,随后进入训练和验证,再把新数据持续回流系统。

这套闭环构成未来具身智能生态的重要数据基础设施。

中国业界正持续投入数据基础设施建设。

觅蜂科技6月17日完成数亿元融资,投入MEgo无本体采集硬件量产、数据治理平台升级及全球采集网络布局,规划在2026年实现千万小时级采集产能,并在2030年冲刺百亿小时级数据体量。

智元机器人旗下AgiBot World数据集包含超过100万条轨迹,涵盖217个任务和多个部署场景,并配合标准化采集流程与质量校验,构建稳定、海量的真机训练数据基础。

智元与觅蜂等分别代表真机轨迹与无本体采集等不同路径,形成数据生态的多样化供给。

打开网易新闻 查看精彩图片

回到印度,Egolab AI在成立两个月后以七位数被美国公司收购,揭示了全球资本对数据采集上游的争夺。

收购买下的不是算法,而是进入这类第一人称操作数据的通路。

从印度古鲁格拉姆工厂工人头戴摄像头,到上海浦江X平台和雄安训练场的标准化采集体系。

这不仅是数据量的增长,更是具身智能产业结构的一次转型。

与大模型行业某些发展路径相似:算法突破之后,数据越来越成为新的门槛。

如今,谁先打造出稳定、灵活、规模化的数据供给链,谁便更有机会控制具身智能的未来。