编辑:Mark
头图:具身智能行业图片
转载来源:天南具身公园
大家好,我是瓦力,具身算法研究员。
先说个事情。前一阵我们找外包采了一批遥操数据,三百多条。最后能进训练集的,一百条出头。剩下的两百条数据,有动作迟疑、末端定位偏差、关键帧被遮挡的。一条条看数据,真的挺熬人。流程都对,人也到位,钱也花了,结果一大半的数据都没办法用。
我相信这也是大部分做算法的实际感受。模型调到一定程度,瓶颈基本都不在模型本身,是喂进去的数据。而且这个问题还不是花钱堆量就能解决的。你跟外包把需求讲了半天,对方点头说懂了,采出来的东西证明根本没懂。
卡到后来,我开始四处问人,有没有靠谱的办法能把数采做扎实点。问了身边搞具身的同学,发现大家遇到的问题大差不差,然后有个朋友给我指了条路,说可以问问数采厂。
我一开始是不相信的。数采厂嘛,无外乎把流程做规范、把人管好。外包的人也大多是他们提供。本体厂商和标注公司我也接触过,大同小异。
抱着取经的态度,我还是问了下之前天南接触过的几家公司。聊完之后,我才发现自己想的有些窄了。他们想干的,不单单是把采集流程优化得更好。有些公司甚至想做更大的事情,把数据和模型这两件事,融在一起。
这家厂是乐聚,我差不多从他们那里找到了一些有意思的思路,所以和大家分享一下know how。
1. 采数据这件事,外包只能搞定一半
先把问题说清楚。
现在行业里采数据,大多数是两拨人。一拨在训练端,懂模型、懂算法,知道一条好数据长什么样;另一拨在采集端,可能是外包,也可能是数据标注公司,负责遥操或者无本体的数采。
这两拨人之间,其实不太理解对方。
训练端的人,通常不会亲自去采几百小时。采集端的人,又基本碰不到模型训练。结果就是,需求在传递的过程中一层层失真。
比如我想告诉外包的同学说「我想要这个抓取的接触瞬间稳一点」,传到采集端可能就变成了「很慢的把东西抓起来」。这中间丢掉的信息,其实就是我想要模型学习的东西。
所以外包能搞定的,其实只有一半:量。它能给你堆出几百上千小时的数据。但另一半,质,或者说跟模型需求的对齐,它给不了太多。
这让我想起之前写许华哲那篇时,Pete 抛过的一个问题:全世界的机器人学家,该不该放下研究一年,专门去采集数据。
当时我的判断是不能真这么干,但确实值得算法的同学试一试。所以我也真的去试了试,就在乐聚那边。
我当时通过遥操把天平上的砝码放到盒子里的时候,我对了好一会儿才把最大的砝码放进去。但从数据本身的角度,或者从人类的角度,我觉得应该很顺利能放进去才对。
但你说数采员能做更好么,我觉得也不大可能了。
实际体验下来,我最大的感受之一就是:现在其实不是没人采数据,是采回来的数据,和算法想要的还有很大的距离。
想要把数据做成工业品,前提是采的人得懂模型,懂模型的人也得知道采集实际的状况。否则你流程做得再标准,采的东西不一定是模型需要的。
这就是为什么我说,外包只能搞定一半。不是外包不努力,是这套分工从结构上就注定了数据质量的天花板。
2. 数据和模型分不开,我觉得有两层含义
聊到这,得说回乐聚让我觉得有意思的地方。
很多人讲「数据和模型分不开」,聊的都是表面:你得有数据才能训模型。这层太浅了,谁都懂。我觉得真正的分不开,是两层。
第一层是硬件层。你得真的用过各家的本体,才知道不同构型的本体在采数据时会踩什么坑。轮臂的坑、双足的坑、不同灵巧手的坑,都不一样。 一个只做自家本体的厂商,数据重心可能只会 focus 在自家产品上,他没有动力、也没有场景去试水别家本体的坑。乐聚参与建设全国多个人形训练场,他们本体的数量多,数采需求大。本身就在采全身运控、灵巧手操作、轮臂基础运控这些不同构型的数据,它对跨本体的底层差异,理解是更全的。
第二层是组织层,这点更重要。采数据的人,必须懂算法要什么。前面说的问题,外包搞不定,本体厂商其实也隔着半道墙,因为模型团队和数据团队往往是两拨人、两个 KPI。
而乐聚这次干的事,是把数据工厂和后训练算法库,做到了一起。采集端和训练端,是同一拨人在对齐需求。采数据的时候,脑子里装着的就是模型要什么。
这两层叠在一起,才是完整的「数据和模型分不开」。我知道这里有人要反问:乐聚自己不也是本体厂吗?夸父就是它的机器人,凭什么说本体厂不行,它就行?
这个问题问得很对,我自己的第一反应也是这样。
但我周末在他们线下体验完,能感觉得到乐聚正在从一个「卖本体」的公司,转向做 infra,现阶段在做的就是「采集和训练对齐」。
三月份天南和大家聊乐聚,就在说他们也要做的具身基座,我体验完之后支持这个看法。
所以他们这次发布的后训练系统,我觉得是沿着这个方向再推进。
3. 四款本体里,唯一跑通闭环的是双足
这套后训练系统主要是乐聚自己做的,测试用的 LingBot-VLA预训练有用到乐聚的真机数据。
真正让我感兴趣的不是这个,是他们怎么去证明这套后训练系统。乐聚没只秀「我的本体跑通我的模型」,他们搭了两个方向的对照。
横向上,以夸父 KUAVO 4 Pro 这台本体,去适配 5 个主流模型,看哪个表现最好。纵向上,拿 LingBot-VLA 这一个模型,放到 4 款不同本体上去跑,看各家本体的适配情况。
这种横纵交叉的设计,是会暴露站位的。
一个纯本体厂,只会秀「我的本体加我合作的模型,能干活」。一个纯模型厂,只会秀「我的模型,在常见本体上能跑」。
只有一个把自己定位成中间层、定位成后训练这一层的玩家,才会费劲去做这种横纵交叉的对照。因为只有站在中间,这两个方向才都是你的业务。
更有意思的是纵向的结果,参与的 4 款本体里,夸父是唯一的双足人形,而且它把整条闭环跑通了。双足是很难的本体,这个不用我多说。轮臂、机械臂底盘稳、动作空间规整,双足光是站着不晃就已经在消耗一堆控制余量。
把自己难啃的双足,放到蚂蚁的模型底下去跑。
我的解读是,乐聚这是把赌注摆明了:模型是谁的不重要,本体是不是最难的也不重要,他们押的是中间这套从真机数据到失败归因的闭环,能不能把难的组合跑通。
当然,这个动作多少是做给大家看的,我们暂且不论。但双足这关真跑通了,至少说明这套闭环能 work。
这条闭环,打通的是 真实机数据 → 模型后训练 → 多本体部署 → 真实机评测 → 失败归因回流。它 solid 的不是某一段,是「回流」两个字,失败的案例能自动喂回去驱动下一轮迭代。
站位,就是这么用一个动作摆出来的。
4. 平均不到20%的成功率,我有些疑问
再聊点现实。
乐聚后训练在 95 个场景的横向测评里,平均成功率(SR)是 17.59%,平均过程得分(PS)是 36.22%。坦率讲,17.59% 的结果,有点低。我的第一反应就是:这到底是数据不行,还是模型不行?
这个问题我也直接问了乐聚的负责人,他们跟我解释的大概意思如下:
第一,任务是真的难。这 95 个场景里,很多不是单步抓放,而是精细插入、工具使用、擦拭覆盖、小目标按压、动态接触、稳定搬运、多阶段状态转换。这些任务你换成人手去做,都得屏住呼吸。
我现场拍的测试过程,好不容易成功的一条。
第二,真机执行难。同一个模型,换一台机器人,本体结构、末端夹爪、相机视角、动作空间、控制频率全变,结果跟着变。这恰恰反证了前面说的,跨本体有多难。
第三,SR 体现的并不完整。SR 只看最后有没有完整做完,中间任何一步崩了就算 0 分。而 PS 过程分才反映过程推进到了哪一步。复杂的多阶段任务,只盯着 SR 是不公平的,GM-100 论文也专门说了这点,所以才另外定义了衡量子任务完成度的指标。也就是说,PS 的 36.22% 比 SR 更能说明模型真实的能力。
第四,它的是长尾泛化,不是记忆。LingBot-VLA 论文里提到,测试集中大约 50% 的动作,根本不在训练集前 100 高频动作里。等于专门挑模型没怎么见过的组合来考,考的是举一反三,不是背答案。
讲到这,得直面一个问题,我自己一开始也是这么问的:就 150 条数据训练,会不会只是为了验证一下流程跑得通,拿来比成功率有点站不住脚? 乐聚的同学跟我强调,他们不是简单的流程验证,是小样本条件下的压力测试,外加一次统一预算的横向比较。
给所有模型同样 150 条的后训练预算,公平地比谁泛化得更好。在这个统一预算下,LingBot-VLA 的两项指标都是最优,PS 比强基线 π0.5 高出近 10 个点。
这个解释倒能说得通,不过倒也算是揭了真机工作的遮羞布。
整个行业距离可靠的通用操作,差距还很大啊。
乐聚顺手还做了垂直场景的落地。同样这套系统,到了具体的场景,比如汽车制造里的料箱拆垛,综合成功率做到了 95% 以上,技能效果从最初的 30% 出头,提到了 80% 到 90%。
一个是通才压力测试上的 17.59%,一个是专才落地场景里的 95%。这两个数不矛盾,它恰恰是「通才变专才」这条路的证据。
而把通才逼成专才的,就是中间那套后训练系统。
5. 把通才逼成专才的,是中间那套系统
这套系统的核心,是一个自研的后训练算法库。细节我不一一展开,Github上已经开源了。
挑两个我觉得比较实在的,用人话讲一下。
一个是针对「灾难性遗忘」的。
VLA 基模微调有个老毛病:新技能学会了,预训练阶段的老本事却丢了。乐聚用的是基于 LoRA 的轻量微调,你可以理解成,给模型注入新技能的时候,尽量别去动它原来那套广博的先验,这样它面对没见过的物体,泛化能力才不会塌。
另一个是融合了生成式世界模型的后训练。
传统 VLA 很多时候是在机械地模仿示范动作,并不理解动作背后的物理因果。加了世界模型之后,相当于让模型动手之前,先在脑子里预演一下「我这么操作,接下来会发生什么」,再据此选当下合理的动作。说人话就是,从背答案,变成了边推理边干。
算法库之外,是三条工具链:数据采集处理平台、后训练工具链、端侧部署测评工具链。
串起来,就是一条从数据到现场的完整流水线。其中那个数据平台很戳我,它把标准化的数据清洗做成了流水线,采完直接输出干净数据,据说能把原来 3 到 5 天的清洗工时压到一天。
开源的代码库我周末也用他们数据跑了一下,没什么很大的坑。
这套东西成不成熟,还有个侧面的证据:在刚结束的 ICRA 2026 的 REAL-I 挑战赛里,全球高校的学生,依托乐聚开放的数据集和全栈工具链,一天之内就能从零起步,把模型部署到真机上,跑通金属件翻正、日化瓶取放、快递包裹扫描这三个真实工业场景。
学生一天,从零到真机跑通。
能把上手门槛压到这个程度,说明这套后训练系统,确实在往「工业品」的方向做。
写在后面
回到最开始。我之所以去找乐聚,是因为我自己的数据采得不顺,外包采回来一大半不能用,根子在于采的人不懂模型需求。
所以乐聚选择自己打通数据和模型,我觉得他们还是有自己的想法。
在我的视角看来,他们想解决的可能是一个结构性问题:当搞数采的人自己就懂算法,那么得到的每一条数据都是带着模型需求的。
数据和模型,后面可能从数采的开端就走到一起。
但还有两件事,我还有点疑问。
一是模型用的蚂蚁的,乐聚做的是后训练和数据,从我的体感上来说,这一层的壁垒是短期还是长期,现在还说不太准,还是说换个有数据有算力的玩家也能砸出来。
二是横向测评里低 SR 就摆在那儿,整个行业对通用具身的预期还是不能太乐观,乐聚现在的领先能不能保持,也要看后面的迭代。
从我的观感上来看,我只是觉得数采厂自己做模型和算法,出发点上会有自己的思考。况且今年整个行业都在喊落地,搞运控的卷跳舞,搞大脑的找落地场景(进家庭/进工厂),产业正在滋生大量的开发需求。
这么大的需求,只靠现在行业的算法团队规模根本吃不消。乐聚这套后训练体系一定程度上降低了开发门槛,想加入但没有经验的开发团队也能快速参与进来。
热门跟贴