作者:彭堃方、吕鑫燚
编辑:吕鑫燚
出品:具身研习社
2026 年数据元年已经成为具身智能为数不多的共识。这份共识并非空喊,而是在具身智能物理世界真实应用里 “算法跑不通、场景不通用” 的现实倒逼而成的必然。
有趣的是,如果说 2025 年“量产元年”更像是本体厂商的口号,以及给市场阶段性回馈的成绩;那 2026 年“数据元年”则是本体、模型厂商必须解决的产业结构性矛盾。更深层次的差异在于,2025 年本体企业即便暂未量产,仍有技术迭代、产能爬坡的容错空间。但 2026 年如果厂商没有打磨出差异化的数据解决方案,始终徘徊在 Scaling Law 的门口,那或许会逐步消耗外界对厂商的耐心。
于是我们可以看到,一场关于数据采集设备的竞赛已悄然拉开帷幕。从规模化的应用 VR+手柄遥操作采集本体真机数据,到现在无本体数据采集设备 UMI、Ego,再到基于外骨骼遥操作的真机数据采集解决方案,在真机和仿真的二元对立间劈开了一条新路。其实已经侧面说明了一件事,对于数据究竟谁能得到业界认可,业界又真正需要什么样的数据,一直没有回答清楚。
从产业发展来看,数据采集的设备竞赛,导致本体厂商忙着自建数据采集团队,模型公司扎堆布局混合数据生成引擎,所有人都试图用差异化打法改写 “数据饥渴” 的困境,夯实自身的数据壁垒。
但这场狂欢真的能解渴吗?ALL IN 数据的厂商们,究竟是被行业焦虑裹挟的跟风者,还是真正抽丝剥茧找到了底层痛点的破局者?
我们暂且不提那些老生常谈的数据问题,单从最近的大动态来看,2025 年末 Generalist 27 万小时数据炸场具身智能,看起来好像是 Scaling law 时刻已至,但不乏有业内声音认为其底色是一场“暴力美学”。
毕竟,规模和丰富只是数据饥渴的原因之一,精细化和高质量也是解决问题的充分必要条件。数据饥渴的本质,从来不是 “缺数据”,而是 “缺有用的数据”。这才是具身数据元年的关键,不是 “堆规模”,而是 “找对路径”。
那么,当我们抛开焦虑情绪,具身智能数据真正的核心拷问才刚刚浮现。
坦白说,不少人尚未意识到“数据是为场景服务的”。
很多人看待数据金字塔存在谬误,始终觉得数据最难得但最好用的是真机数据,但事实上,数据金字塔其实是动态的,并非一成不变,取决在什么场景解决什么问题。
就像即将完成IPO“大考”的王兴兴在西门子首届科技峰会上所说,“我们公司和业内,能用仿真环境、仿真训练解决的,尽可能用仿真解决,因为速度快、成本低,可以调整一些参数”,这在人形机器人走、跑、打拳常见。而他坦言,“机器人做‘操作’相关的动作,靠仿真做得还不够好,全球范围内还是靠真人采集数据去训练”,当然真人采集也面临搭建环境有限、成本高等痛点。
从王兴兴的话中,其实可以看出他对数据的取舍,即始终要从数据本身的“可供性”出发,并从场景的验证中得到实践反馈。企业想要知道缺什么类型的数据,不是厂商在实验室里猜出来的,而是在真实场景中找到的。
所以,通过场景来看,无论是互联网数据还是少量真机+仿真形成的海量数据,都能让具身智能机器人完成“大开大合式”动作。这些数据支撑了机器人从实验室走进物理世界,但距离我们想要的生产力仍有一段距离。
互联网视频数据缺失力觉、触觉反馈,仿真数据难以还原不同材质的物理特性(如布料的柔软度、金属的光滑度),即便是少量真机数据,也多聚焦于本体运动,而非末端操作的细节。但在家庭服务、物流分拣、工业制造的大部分生产力场景中,都需要“本体运动+大量的末端操作”。换句话说,今天数据的核心诉求,可以聚焦到末端执行器上,尤其是有着复杂的“指间功夫”的灵巧手。
现在从国外呼声最高的特斯拉、Figure 都已经证实,二者的机器人在真正落地时,灵巧手干活参与度并不高,很多还是徒有“手”,却干着“夹爪”的活。
但遗憾的是,这类数据无法通过 “暴力采集” 获得。与通用场景数据不同,灵巧手数据具有极强的场景特异性:同样是 “抓取” 动作,抓取玻璃制品与抓取橡胶零件的力控曲线完全不同;同样是 “拧动” 动作,手动螺丝刀与电动螺丝刀的操作逻辑存在本质差异。这意味着,厂商必须深入具体场景,通过一系列数采设备采集 “针对性数据”。这也正是其稀缺性的核心原因。
这场数据补位战,本质是从 “泛化数据堆砌” 向 “场景化精细数据深耕” 的转型,而灵巧手数据的储备厚度,将直接决定机器人的生产力边界。
当下业内已经意识到灵巧手数据采集的重要性,下一步就落在了如何采集更准确的数据。
目前看到的数据采集设备竞赛已至。除了仍在扩张的真机数采厂之外,现在 UMI、Ego、外骨骼也异军突起,都在用低成本、高效率的方式破局。
当前 UMI 主要聚焦于机械臂末端的操作数据采集,也因此 goub 器 goub 以覆盖机器人全身协调动作,以及大多是两指夹爪作为末端专注于夹爪类任务,这使其在需要全身交互的场景中应用受限。
但对于聚焦单一操作任务的中小企业而言,UMI 仍是当前阶段 “成本与精度平衡” 的最优解之一;由此衍生出解决机器人全身协调动作的解决方案 Ego,但是 Ego 也出现依赖强大的算法后端做完成多维重建和数据对齐的难题,并且两者在数据采集中更偏向提供海量数据用于预训练,数据质量问题堆砌到后期,而这个阶段会付出很高的成本。
而且,目前看 UMI 和 Ego 这两类数采设备逐渐开始强绑定,比如鹿明机器人、简智机器人都相继在UMI之后推出Ego数采设备,并相互支持、配合使用。业内将这二者采集的数据视为互补的信息来源。
但如果只到这一步,仍不见得能够解决灵巧操作的难题。一方面 UMI 局限于夹爪形态,另一方面 Ego 这类以自我为中心的人类数据虽然有很强的扩展性,但亚毫米的手指位姿和触觉数据仍存在缺失。这使得 UMI、Ego 甚至其组合都难以让机器掌握精细操作技能。
所以,我们会看到更多关乎“灵巧末端”的数据采集新硬件,例如近期智在无界(BeingBeyond)正式推出的 U1,全球首款 Real DexUMI,深受 UMI 范式影响,将灵巧手硬件、本体交互接口、动态追踪与触觉感知整合在同一系统中,用自己的手自然地操控另一只手;还包括灵巧智能 DexCap 外骨骼数据采集系统,它实现了人体上肢及腰部的全维度动态捕捉,在常规视觉遥操的基础上,增加了手部端有震动力觉反馈,为灵巧手产品开发提供了好用、可靠的数据来源。
当然,灵巧智能不是概念先行,早在 25 年上半年,业内还未意识到末端操作数据重要性时,其已在用外骨骼路径做规模化采集。如今接近一年技术迭代后,在 UMI、Ego 引起广泛热议之际,再谈起这一设备并非“技术考古”,而是见证其穿越技术周期,仍以必要性存在于前沿数据采集中,落在产业发展的实处。
此外,当前末端操作的数据采集技术路线五花八门,除了UMI、Ego、外骨骼,还包括光学动捕、惯性动捕、IMU/量子传感/光纤/弹性传感的数据手套等都可以采集末端数据,但是经过市场验证,这些手套更适用于中低精度和弱磁场环境,且数据在后期处理成本极高,目前的技术发展条件下,规模化潜力有限。
总之,这场设备竞赛的终局,从来不是 “谁取代谁”,而是 “谁能更好地融入协同生态”。外骨骼设备凭借力觉触觉复刻、长期稳定输出、数据标准化的三重核心优势,成为灵巧手精细化数据采集的 “刚需配置”;UMI 与 Ego 则以高效、低成本的特点,承担规模化数据积累的角色;各类数据手套也在技术蛰伏。
必须强调,设备和数据更多时间不是“排他性”的,相反更应该尝试有效结合。
一个比较有意思的现象是,一方面具身智能产业链在逐步完善,以前大体分为本体、大脑两个阵营,现在已经跑出深耕数据的独角兽。一时间,市面上人人都有数据,人人都想占山为王。
但数据话语权应该给谁?
答案是拥有硬件的人,无论是本体还是模型还是数据厂商,谁更懂数据采集的硬件,谁才有话语权。
数据采集从不是简单的 “记录动作”,而是要让物理世界的操作精准转化为数字世界的可用资产,这背后离不开硬件的三大核心支撑:数据维度,数据质量,数据处理成本。
数据维度要求数据采集到的信息是足够丰富的,如果数据维度不够丰富,会让模型在训练中大量去“猜”,最终是无法收敛。数据质量,则某种程度上决定了模型吃的是粗粮还是细糠,“吃的粗”模型就长得“糙”,干不来精细活。
最后是数据处理成本,也指“全链路处理成本”,即数据采前、采后的管线建设、人员培训、数据清洗、算法映射等一整套“工业产线”式的成本。这几者,共同决定了数据采集的成功与否。
目前看,不少数采企业在这些环节上普遍未掌握全要素。但也涌现出一些厂商和设备的理念考虑到了数据的“维度、质量与处理成本”。
图片来源:灵巧智能 DexCap 演示视频 (2X Speed)
以灵巧智能的 DexCap 系统为例,其具备了这是三大核心支撑。“全维度动态捕捉”,涵盖手和双臂及腰部多维度数据,这相比只聚焦末端数据来说信息丰富度暴增。再者像“千赫兹响应和触觉感知增强”确保虚拟操控与真实动作 1:1 映射,丝滑且真实。当然外骨骼设备硬件还具备高耐用性,长期采集过程中精度无衰减,数据质量持续稳定。此外,设备输出数据格式统一、维度完整,为后续标注、清洗与复用提供便利,助力构建可持续迭代的高质量数据集。
并且必须要强调的是,灵巧智能是知名灵巧手本体厂商,尤其是在高自由度灵巧手方面,成果显著。它离“手”最近,其最懂灵巧操作的数据该长什么样。
所以回过头看,数据话语权的争夺,核心是对 “物理世界数字化入口” 的掌控。本体厂商通过硬件的轻量、高效、协同创新,构建了数据采集的底层基础设施,让高质量数据的规模化生产成为可能;而灵巧智能则依托这一基础设施,将数据价值转化为真实可用的操作能力,形成 “硬件赋能数据,数据驱动智能” 的正向循环。
这也正是具身智能产业的核心逻辑:谁掌握了硬件这一数据采集的 “第一触点”,谁就掌握了整个产业的发展主动权。
结语:数据元年真正的含义
其实回到数据元年这个背景中来看,“数据元年”并不单指数据突然陡增,而是意味着行业开始意识到:数据生产本身就是核心能力。
在互联网时代,数据往往被动产生;而在具身智能时代,数据必须主动制造。这使得数据不再那样唾手可得,进而我们必须面对的现实是,它更像一种与硬件深度绑定的工业产出。谁拥有设备,谁控制部署,谁理解场景,谁才能稳定地生产高价值数据。
在具身智能的世界里,真正稀缺的从来不是数据本身,而是稳定产出高价值数据的能力。通过灵巧智能的案例来看,谁离真实数据更近,并建立稳定、高质量、可扩展的数据生产体系,谁就更有可能在未来竞争中占据优势。
热门跟贴