深圳商报·读创客户端首席记者 袁静娴
近日,京东在具身智能领域宣布重大布局:将依托超级供应链核心优势,以及零售、物流、健康、工业、外卖、家政等海量真实业务场景,在江苏宿迁建成全球规模最大、场景最全的具身智能数据采集中心,两年内积累超1000万小时优质数据,助力具身智能产业从算法仿真迈向真实数据驱动的新阶段。
据介绍,为确保数据的真实性和广泛性,京东将发动内部超过10万名各类职业员工,以及外部最多50万各行业人员,其中在宿迁就将发动超10万市民参与,覆盖家庭、办公室、工厂到物流、商店、餐厅、医疗、环卫等超百个细分场景,遍布人类真实活动的方方面面,开展“人类历史上规模最大的数据采集行动”。
根据规划,京东将在首年完成500万小时人类活动视频数据采集,两年内突破1000万小时,同时积累100万小时机器人本体运行数据。这一数据规模将使其成为全球最大的具身智能数据服务商。通过促进“大脑”与“小脑”的协同进化,相关技术有望实现从基础动作执行到复杂环境理解的跨越,为智能机器人落地工业生产、医疗护理、家庭服务等领域提供核心支撑。
国际权威市场调研机构M&M此前发布的报告显示,具身智能市场正在经历变革性转型,新兴技术和用户需求的演变是其重要驱动。从量化数据看,具身智能全球市场规模2025年约为44.4亿美元,年复合增长率约为39%,预计2030年将达230亿美元。
然而,当下阶段,具身智能仍面临着机器人大模型不成熟、优质AI训练数据缺乏等挑战,在技术路线、商业化模式、应用场景等方面尚未完全成熟。数据被称为具身智能产业发展的“燃料”,要让机器人在复杂的真实环境里精准地执行任务,需要“喂”给机器人大量的数据,其中一种办法正是不断重复地让机器人在不同场景执行不同任务。
当前,机器人行业尚未形成统一的数据标准,行业普遍采取的做法是真机采集、仿真生成、人类演示/视频、多源系统集成四大路径获取数据,并通过自定义规范、对齐、清洗、混合使用解决标准缺失问题。
此前,帕西尼感知科技创始人兼CEO许晋诚接受媒体采访时表示,数据的短缺是目前具身智能发展面临的瓶颈,目前具身智能产业可用的数据量仅为大语言模型可用数据量的几百分之一。
为了更好地掌握机器人发展的“燃料”,目前,国内已有多家头部智能具身企业建成或在建大规模自建数据采集中心/超级数据工厂,形成“采集—标注—训练—验证”全链路能力。比如,在位于天津的“天津Super EID Factory”超级数据采集工厂内,机器人正连续完成撕标签、贴标签、扫码等一系列动作,凭借其精准、稳定的操作能力,达到了业内领先水平。这正是深企帕西尼的“多维触觉人形机器人”,应用在仓储物流等领域。近日,帕西尼又新建了四座超级工厂,与天津的数据采集工厂一起覆盖华北、华东、华中、西南、华南五大核心区域,形成近百亿条高质量全模态数据产能。
再比如,智元在上海建设的数据采集中心,占地3000平方米,自2024年9月启动以来,已累计采集超百万条高质量数据,覆盖家居、餐饮、工业、商超和办公五大类真实场景,成为机器人学习技能的“燃料”。在数据采集基础上,智元机器人开源数据集、构建具身智能大模型、发布具身智能一站式开发平台,推动机器人智能化进阶。
技术市场研究机构Interact Analysis数据显示,截至2025年年底,中国已经有50个以上国家或省市级人形机器人数据采集与训练中心处于使用或规划建设状态,其中,50% 以上的数采中心已经在2025 年正式投入使用。以北京人形机器人数据训练中心为参照,其真机数据的年产能已达千万条级别。
热门跟贴