吐槽一下，找外包采了几百条数据，能用的剩下一百条！|吐槽|大模型|本体|算法

编辑：Mark

头图：具身智能行业图片

转载来源：天南具身公园

大家好，我是瓦力，具身算法研究员。

先说个事情。前一阵我们找外包采了一批遥操数据，三百多条。最后能进训练集的，一百条出头。剩下的两百条数据，有动作迟疑、末端定位偏差、关键帧被遮挡的。一条条看数据，真的挺熬人。流程都对，人也到位，钱也花了，结果一大半的数据都没办法用。

我相信这也是大部分做算法的实际感受。模型调到一定程度，瓶颈基本都不在模型本身，是喂进去的数据。而且这个问题还不是花钱堆量就能解决的。你跟外包把需求讲了半天，对方点头说懂了，采出来的东西证明根本没懂。

卡到后来，我开始四处问人，有没有靠谱的办法能把数采做扎实点。问了身边搞具身的同学，发现大家遇到的问题大差不差，然后有个朋友给我指了条路，说可以问问数采厂。

我一开始是不相信的。数采厂嘛，无外乎把流程做规范、把人管好。外包的人也大多是他们提供。本体厂商和标注公司我也接触过，大同小异。

抱着取经的态度，我还是问了下之前天南接触过的几家公司。聊完之后，我才发现自己想的有些窄了。他们想干的，不单单是把采集流程优化得更好。有些公司甚至想做更大的事情，把数据和模型这两件事，融在一起。

这家厂是乐聚，我差不多从他们那里找到了一些有意思的思路，所以和大家分享一下know how。

1. 采数据这件事，外包只能搞定一半

先把问题说清楚。

现在行业里采数据，大多数是两拨人。一拨在训练端，懂模型、懂算法，知道一条好数据长什么样；另一拨在采集端，可能是外包，也可能是数据标注公司，负责遥操或者无本体的数采。

这两拨人之间，其实不太理解对方。

训练端的人，通常不会亲自去采几百小时。采集端的人，又基本碰不到模型训练。结果就是，需求在传递的过程中一层层失真。

比如我想告诉外包的同学说「我想要这个抓取的接触瞬间稳一点」，传到采集端可能就变成了「很慢的把东西抓起来」。这中间丢掉的信息，其实就是我想要模型学习的东西。

所以外包能搞定的，其实只有一半：量。它能给你堆出几百上千小时的数据。但另一半，质，或者说跟模型需求的对齐，它给不了太多。

这让我想起之前写许华哲那篇时，Pete 抛过的一个问题：全世界的机器人学家，该不该放下研究一年，专门去采集数据。

当时我的判断是不能真这么干，但确实值得算法的同学试一试。所以我也真的去试了试，就在乐聚那边。

我当时通过遥操把天平上的砝码放到盒子里的时候，我对了好一会儿才把最大的砝码放进去。但从数据本身的角度，或者从人类的角度，我觉得应该很顺利能放进去才对。

但你说数采员能做更好么，我觉得也不大可能了。

实际体验下来，我最大的感受之一就是：现在其实不是没人采数据，是采回来的数据，和算法想要的还有很大的距离。

想要把数据做成工业品，前提是采的人得懂模型，懂模型的人也得知道采集实际的状况。否则你流程做得再标准，采的东西不一定是模型需要的。

这就是为什么我说，外包只能搞定一半。不是外包不努力，是这套分工从结构上就注定了数据质量的天花板。

2. 数据和模型分不开，我觉得有两层含义

聊到这，得说回乐聚让我觉得有意思的地方。

很多人讲「数据和模型分不开」，聊的都是表面：你得有数据才能训模型。这层太浅了，谁都懂。我觉得真正的分不开，是两层。

第一层是硬件层。你得真的用过各家的本体，才知道不同构型的本体在采数据时会踩什么坑。轮臂的坑、双足的坑、不同灵巧手的坑，都不一样。一个只做自家本体的厂商，数据重心可能只会 focus 在自家产品上，他没有动力、也没有场景去试水别家本体的坑。乐聚参与建设全国多个人形训练场，他们本体的数量多，数采需求大。本身就在采全身运控、灵巧手操作、轮臂基础运控这些不同构型的数据，它对跨本体的底层差异，理解是更全的。

第二层是组织层，这点更重要。采数据的人，必须懂算法要什么。前面说的问题，外包搞不定，本体厂商其实也隔着半道墙，因为模型团队和数据团队往往是两拨人、两个 KPI。

而乐聚这次干的事，是把数据工厂和后训练算法库，做到了一起。采集端和训练端，是同一拨人在对齐需求。采数据的时候，脑子里装着的就是模型要什么。

这两层叠在一起，才是完整的「数据和模型分不开」。我知道这里有人要反问：乐聚自己不也是本体厂吗?夸父就是它的机器人，凭什么说本体厂不行，它就行?

这个问题问得很对，我自己的第一反应也是这样。

但我周末在他们线下体验完，能感觉得到乐聚正在从一个「卖本体」的公司，转向做 infra，现阶段在做的就是「采集和训练对齐」。

三月份天南和大家聊乐聚，就在说他们也要做的具身基座，我体验完之后支持这个看法。

所以他们这次发布的后训练系统，我觉得是沿着这个方向再推进。

3. 四款本体里，唯一跑通闭环的是双足

这套后训练系统主要是乐聚自己做的，测试用的 LingBot-VLA预训练有用到乐聚的真机数据。

真正让我感兴趣的不是这个，是他们怎么去证明这套后训练系统。乐聚没只秀「我的本体跑通我的模型」，他们搭了两个方向的对照。

横向上，以夸父 KUAVO 4 Pro 这台本体，去适配 5 个主流模型，看哪个表现最好。纵向上，拿 LingBot-VLA 这一个模型，放到 4 款不同本体上去跑，看各家本体的适配情况。

这种横纵交叉的设计，是会暴露站位的。

一个纯本体厂，只会秀「我的本体加我合作的模型，能干活」。一个纯模型厂，只会秀「我的模型，在常见本体上能跑」。

只有一个把自己定位成中间层、定位成后训练这一层的玩家，才会费劲去做这种横纵交叉的对照。因为只有站在中间，这两个方向才都是你的业务。

更有意思的是纵向的结果，参与的 4 款本体里，夸父是唯一的双足人形，而且它把整条闭环跑通了。双足是很难的本体，这个不用我多说。轮臂、机械臂底盘稳、动作空间规整，双足光是站着不晃就已经在消耗一堆控制余量。

把自己难啃的双足，放到蚂蚁的模型底下去跑。

我的解读是，乐聚这是把赌注摆明了：模型是谁的不重要，本体是不是最难的也不重要，他们押的是中间这套从真机数据到失败归因的闭环，能不能把难的组合跑通。

当然，这个动作多少是做给大家看的，我们暂且不论。但双足这关真跑通了，至少说明这套闭环能 work。

这条闭环，打通的是真实机数据 → 模型后训练 → 多本体部署 → 真实机评测 → 失败归因回流。它 solid 的不是某一段，是「回流」两个字，失败的案例能自动喂回去驱动下一轮迭代。

站位，就是这么用一个动作摆出来的。

4. 平均不到20%的成功率，我有些疑问

再聊点现实。

乐聚后训练在 95 个场景的横向测评里，平均成功率(SR)是 17.59%，平均过程得分(PS)是 36.22%。坦率讲，17.59% 的结果，有点低。我的第一反应就是：这到底是数据不行，还是模型不行?

这个问题我也直接问了乐聚的负责人，他们跟我解释的大概意思如下：

第一，任务是真的难。这 95 个场景里，很多不是单步抓放，而是精细插入、工具使用、擦拭覆盖、小目标按压、动态接触、稳定搬运、多阶段状态转换。这些任务你换成人手去做，都得屏住呼吸。

我现场拍的测试过程，好不容易成功的一条。

第二，真机执行难。同一个模型，换一台机器人，本体结构、末端夹爪、相机视角、动作空间、控制频率全变，结果跟着变。这恰恰反证了前面说的，跨本体有多难。

第三，SR 体现的并不完整。SR 只看最后有没有完整做完，中间任何一步崩了就算 0 分。而 PS 过程分才反映过程推进到了哪一步。复杂的多阶段任务，只盯着 SR 是不公平的，GM-100 论文也专门说了这点，所以才另外定义了衡量子任务完成度的指标。也就是说，PS 的 36.22% 比 SR 更能说明模型真实的能力。

第四，它的是长尾泛化，不是记忆。LingBot-VLA 论文里提到，测试集中大约 50% 的动作，根本不在训练集前 100 高频动作里。等于专门挑模型没怎么见过的组合来考，考的是举一反三，不是背答案。

讲到这，得直面一个问题，我自己一开始也是这么问的：就 150 条数据训练，会不会只是为了验证一下流程跑得通，拿来比成功率有点站不住脚? 乐聚的同学跟我强调，他们不是简单的流程验证，是小样本条件下的压力测试，外加一次统一预算的横向比较。

给所有模型同样 150 条的后训练预算，公平地比谁泛化得更好。在这个统一预算下，LingBot-VLA 的两项指标都是最优，PS 比强基线 π0.5 高出近 10 个点。

这个解释倒能说得通，不过倒也算是揭了真机工作的遮羞布。

整个行业距离可靠的通用操作，差距还很大啊。

乐聚顺手还做了垂直场景的落地。同样这套系统，到了具体的场景，比如汽车制造里的料箱拆垛，综合成功率做到了 95% 以上，技能效果从最初的 30% 出头，提到了 80% 到 90%。

一个是通才压力测试上的 17.59%，一个是专才落地场景里的 95%。这两个数不矛盾，它恰恰是「通才变专才」这条路的证据。

而把通才逼成专才的，就是中间那套后训练系统。

5. 把通才逼成专才的，是中间那套系统

这套系统的核心，是一个自研的后训练算法库。细节我不一一展开，Github上已经开源了。