当宇树的人形机器人接连完成侧空翻和功夫表演,整个行业似乎都相信运动控制已经不再是瓶颈。头部公司开始把“通用具身大脑”推成主叙事,银河通用、星海图、千寻智能们争相定义机器人的认知未来。但往前多看一步就会发现,运动控制从未被行业广泛解决——它只是少数公司的私有能力。那些最受关注的具身大脑企业,几乎集体选择绕开宇树最强的壁垒,先用轮式或固定底盘机器人避开全身运动的复杂性。中小型人形机器人本体公司在运动控制上的追赶更为吃力,而像宇树这样想做“机器人界苹果”的公司,大概率永远都不会去建设一套跨厂商适配的通用运动控制平台。不论头部大脑公司还是中小本体公司,补上运动控制这门课,迟早要排上日程。

具身智能的数据采集格局也因此变得极度失衡。“大脑”公司扎堆,第三方数据工厂为了规模效应把产能几乎全部倾注到操作数据上,抬起手臂抓取水杯、拧开瓶盖这类动作成为主流。愿意沉到“小脑”层面做运动数据的厂商却少之又少,导致运动数据因需求规模不足而缺少商业化的数据服务,专注运动控制的团队只能在市面上采买零散数据,更多的是依赖自有团队自采。供给侧的畸形让运动控制领域长期处于高质量、高泛化数据的极度匮乏之中。桥介数物的创始人尚阳星对此形容:“近两年,头部具身智能本体厂商与上游企业已陆续把‘数据’列入战略议程,只是这股趋势在不同方向上的落点并不均衡——运动控制相关的数据建设至今仍是一片明显的洼地,甚至可以说是‘真空地带’。行业内现有的运动控制数据普遍存在供应不足、质量参差不齐、构型与场景局限性大等问题,远远跟不上模型训练所需的规模。”

打开网易新闻 查看精彩图片

尚阳星是一位1999年出生的创业者,从华中科技大学本科毕业后保研至南方科技大学,师从逐际动力创始人张巍教授。桥介数物是他的第一个创业项目,团队从宿舍起步,2023年底拿到奇绩创坛的种子轮投资后,在2024年底到2025年8月的半年内连续完成天使轮、天使+轮及Pre‑A轮,累计融资金额近亿元。正轩投资、复星创富、潜能集团、隐山资本、明荟致远、沂景资本等机构相继入场。在行业普遍亏损的环境里,桥介数物成立第一年就接到了客户项目并实现盈利。2024年8月的世界机器人大会上,27家人形机器人厂商参展,桥介数物服务了其中超过半数。对一台未经调试的人形机器人,他们最快能用一周完成模型训练,让它走起路来;一个定制化项目通常在1到3个月内即可交付。最近,桥介数物宣布自建的“跨本体全身运动数据工厂”正式投入使用,正是为了解决行业里“高质量的跨本体全身运动数据”的缺位。

当被问及什么是“高质量的跨本体全身运动数据”时,尚阳星先把问题拉回到目标上:“要回答这个问题,先要回答‘我们想要什么运动能力’。对通用全身运动模型来说,我们要的是一种能够向上兼容多模态动作意图、向下兼容不同本体硬件、安全可靠、并且可以在复杂环境中持续进化的运动能力。”这种能力对数据的要求远不止于一段孤立的运动轨迹,而是需要同时保留全身协同、任务意图、接触关系、环境上下文、物理可行性以及跨本体复用价值。在他眼中,现有的数据形态单独来看都很难满足这些条件。动捕数据可以准确结构化地记录人体运动状态,但缺失环境信息以及人与环境之间的精确交互;遥操作数据严格绑定特定机器人本体,硬件一换,复用价值便显著下降;第一人称视频集中在末端和物体交互,不能完整表达躯干、下肢、重心和接触之间的全身协调关系;第三人称视频虽然能看到整体动作,却难以从中提取出准确合理的人体动作。这些数据各有价值,但都无法单独支撑通用全身运动模型所需的数据闭环。

为此,桥介数物把真正面向通用全身运动模型训练的数据资产定义为跨本体全身运动数据,简称CWM,并要求其至少同时满足四个性质。第一是跨本体可重定向性,同一段动作必须能够通过统一的处理管线,在差异显著的多种本体上产出物理自洽的训练样本。第二是全身覆盖性,数据必须完整表达躯干、四肢、手部、手指以及它们之间的协同关系,不能只保留上半身末端轨迹或下半身步态。第三是物理可行性,一条合格的数据不只要运动学平滑合理,还需在目标本体上动力学层面具备物理可行性,不能出现浮空、穿透、滑移、失稳、力矩超限等问题。第四是多模态性,合格的数据需要同步采集人体动作、语义标签、第一人称视频、第三人称视频、环境资产和物体资产。满足这四项性质的CWM数据绝非简单采集就能得到,它需要大量后处理才能被生产出来,这也是桥介数物建设跨本体全身运动数据工厂的出发点。

“对于全身运动控制来说,数据要覆盖的不只是几个标准动作,而是行走、转身、下蹲、搬运、抓取、支撑、避障、恢复平衡、接触切换等大量连续动作组合。”尚阳星进一步解释,团队内部判断,要训练出一个真正通用的全身运动模型,最终需要数十万甚至上百万小时级别的高质量CWM数据。“在这个量级面前,少量数据在长期来看很难支撑起通用化,真正有价值的是能够不断扩张的数据规模。”而全身运动数据的复杂性在于,它并不是“采集的动作越多越好”,而是必须有正确的数据配方和严格的数据质量控制。同时,每条数据还必须经过清洗、标注、重定向和物理验证,否则大规模数据很容易变成大规模噪声。因此,CWM数据生产必须被设计成一套工业化生产体系,采集只是其中的一环。

这套工业化体系具体包含多个环节:专业动作设计人员负责定义动作谱系,采集团队负责高质量同步录制,工程团队负责清洗、格式化、重定向和仿真回放,算法团队负责物理验证、训练反馈和数据筛选,质检团队负责把不可用样本挡在训练集之外。一段动作从被设计出来到进入训练集,需要依次通过质检、跨本体重定向、动力学与仿真增强、语义标注,以及来自模型训练侧的反馈闭环。正是这种用稳定的生产流程来替代零散采集的思路,构成了CWM数据工厂的核心价值。桥介数物试图用一座数据工厂,把曾经只有极少数头部公司有能力沉淀的运动控制能力,逐步变成更多本体公司和大脑公司可以调用的公共基础设施。