编辑|杜伟
这个月,具身智能领域又卷出新高度:硅谷独角兽公司 Generalist AI 发布全新一代基础模型 GEN-1,将机器人包装手机、折纸箱这些活的平均成功率直接拉到了创纪录的 99%,折纸箱的速度更是飙到了以前的三倍(34s vs 12.1s)。
支撑起这些突破的,除了模型的重新设计,一套规模庞大的数据底座同样功不可没:超过 50 万小时的真实物理交互数据,它们通过可穿戴设备采集而来。
GEN-1 的成功说明了一点:过去数年,大语言模型的 Scaling Law 建立在几乎取之不尽的互联网数据之上;而如今,具身智能的 Scaling Law 正越来越依赖对真实世界交互数据的获取、构建与高效利用。
与文本、图像、视频等可复制、可扩展、低成本的互联网数据不同,具身智能依赖的数据往往需要在真实设备与真实环境中产生,比如机器人的每一次抓取、移动、接触与失败,都是不可复用的物理交互。
在这一背景下,行业逐渐达成一个更清晰的判断:数据采集成为制约具身智能发展的关键瓶颈,也是当前最难规模化突破的一环。面对「数据规模与多样性不足、标注成本高昂、泛化能力薄弱」这几大拦路虎,行业亟需破局。
就在今天,一家国产工业级人形机器人公司选择从源头重构数采体系,给出了另一种解法。
开普勒机器人正式发布「国内首个原生全感知力触数采系统」,该方案打通了从底层力触觉硬件采集、多模态数据处理,到顶层 VTLA(视觉 - 触觉 - 语言 - 动作)大模型原生适配与全场景落地验证的全链路闭环,构建起了一套可持续扩展的数据引擎。
这套数采系统具备了明显的「平台化」特征,依托标准化的采集硬件、统一的数据结构以及与模型的原生适配,实现了跨任务、跨场景甚至跨机器人本体的数据复用。这意味着,数据不再是一次性消耗品,而是持续积累的生产资料。
在这样的框架下,具身智能的范式也在悄然发生变化:从传统上以视觉为主导的模仿学习(看着学),逐步走向了以力触觉为核心的全感知物理交互(在接触中理解世界)。从更长远来看,这套数采系统有望成为未来人形机器人迈向全感知智能体的重要基础设施。
数采体系以及具身大模型范式上的创新为开普勒在资本市场上赢得了更多青睐。就在近日,开普勒拿到了「亿元级 A++ 轮融资」,并官宣公司战略重大升级,将全面聚焦「具身智能大脑建设」与「力触觉数据采集」核心赛道。
正如开普勒 CEO 宋华所说,「公司正加速向智能大脑升级,强化数据与模型能力,持续提升机器人在复杂工业场景中的落地效率与作业精度。」
具身数据,「不破不立」
具身智能的上限,归根结底取决于对真实物理世界的理解。这种理解无法凭空获得,建立在海量的数据之上。这使得数据成为整个系统能否持续进化的地基。当这层地基无法支撑起更复杂的能力演进时,我们就需要重新审视甚至推倒重来。
先看数据本身
现在用得最多的,还是视觉数据和仿真数据。但是,这两类数据都有明显短板。视觉只能「看」,感知不到接触和受力状态,在抓取、装配这些精细操作中天然有盲区;仿真数据又太干净,和真实工厂的复杂环境差得很远。一旦进到真实场景,模型表现往往会明显下滑,在工业场景的泛化成功率仅为 25%-30%。
再看数采路径
过去一段时间,不少团队走的是「多场景铺开」的横向数采思路,想一口气覆盖家庭、服务、工业等各种场景,做出通用能力。然而,落到工业场景,这条路往往走不通,原因是多方面的:数据太散、针对性太弱;与真实产线的需求对不上;投入很大,转化很有限,横向数采的工业场景 ROI 低至 15%。
最后是数采方式
当前很多数据还是靠人工遥操作一点点采,单采集员单日仅能采集 100 条有效数据,效率低且成本高;不同项目之间的标准也不统一,数据很难复用。看起来每个项目都在积累数据,但形不成一个可以持续产出的数据体系,模型也就很难滚动迭代起来。
以上几个问题叠加在一起,就导致了今天的局面:数据既不够多,也不够好。
更关键的是,这并不能通过「继续堆数据」就能解决,而是要从数据生产本身找问题:感知维度单一、采集效率低、与真实场景脱节,导致现有体系无法满足大规模扩展的需求。
光「看见」还不够,更要全方位「触碰」
在重打数据这层地基的过程中,每一个环节都有必要进行重构。尤其是在感知维度上,过去以视觉为主的数据所带来的信息缺失,使得模型难以全方位理解复杂物理交互的关键细节
视觉可以告诉机器人「东西在哪儿、长得什么样」,但是一旦进入真实操作,很多关键问题是看不见的,比如有没有接触、接触是否稳定、力度是否合适。特别是在遮挡、反光、柔性物体或者复杂装配的场景里,只靠视觉往往很难把动作做稳。
触觉和六维力的引入正好可以补上这些短板。我们先来了解下什么是六维力?它可以理解为机器人在接触过程中感受到的完整受力状态,包括三轴方向上的力(F_x、F_y、F_z)和绕三个轴的力矩(M_x、M_y、M_z)。前者描述「被推 / 拉了多少」,后者描述「被拧 / 扭了多少」。
不同于视觉,触觉和力反馈直接作用在接触过程中,持续提供压力、摩擦和受力方向等信息,让机器人在操作时一边执行、一边修正,「边做边感受」。
在此基础上,力反馈改变了机器人的控制方式。以往,机器人基本是按预设轨迹执行,换个环境就容易出错;有了六维力数据之后,动作可以根据接触状态随时调整。
更进一步的变化体现在了学习层面。以视觉主导的模仿学习大多只记录怎么动,不关心怎么用力,结果就是动作可以复现,一旦环境变了就容易失败。加入触觉和力数据之后,模型不仅能学习轨迹,还能学得什么时候接触、用多大力、怎么调整。这些本来隐含在操作里的经验,开始被显式建模。
得益于此,在多材质抓取、精密装配这类接触密集的任务中,模型的稳定性与成功率通常会有显著提升。
触觉和六维力数据带来的不只是性能的提升,更让机器人改变了参与物理世界的方式。从「只会看」到「可以触」,再到「理解接触过程中的力与交互反馈」,这种转变才是具身智能走向实际应用的关键。
围绕这一点,开普勒搭建了一套全感知数据采集系统,将视觉、力觉、触觉、语言和动作这些多模态数据,放在了同一套流程里同步采集并统一对齐
在这样的数据底座之上,机器人学到了更完整的操作过程,不仅清楚如何运动,也能理解「何时接触、用多大力以及如何动态调整」。
既要精,又要量,「双路径数采」并行
面对具身智能在数据本身、数采方式等方面存在的局限,开普勒亮出了一套「以力触觉为核心的全感知数采系统」,从数据生产源头着手优化。
本质上来讲,开普勒不是围绕单一路径做优化,创造性地将数据采集拆分为两条互补的路径:一条做精,追求高保真数据;另一条做量,追求规模化与全场景数据。
两条路径并行推进,在精度与规模之间建立平衡,为机器人的复杂操作能力与模型泛化能力提供稳定的数据基础。
做精的关键在于「双向遥操作闭环采集路径」,包含力反馈外骨骼、触觉反馈手套以及机器人端高分辨率触觉传感器等核心硬件。采集到的高保真多模态数据,构成了支撑精密工业场景中高精度操作的关键数据来源。
流程是这样的:首先操作员戴上力反馈外骨骼和触觉手套,手部动作被捕获并映射到机器人;接着机器人通过手部搭载的高分辨率触觉传感器,实时检测接触时的力、滑动和状态变化,这些触觉数据在被转换为振动、阻力等可感知反馈之后回传给操作员;最后操作员根据触觉反馈动态调整操作。
整个过程形成了一个完整的双向反馈回路:人做动作,机器人执行,触觉和受力信息反馈回来,人再根据这些信息微调动作。
这样采下来的数据在真实接触中不断修正,精度高、细节全,数据保真度高达 99%。
与此同时,像延迟、噪声问题,也能通过本地部署、低延迟通信和传感器补偿等手段来解决,保证链路能稳定跑起来,将延迟控制在毫秒级,噪声误差降低至 1% 以下。
做量的关键在于「类 UMI 的人类示范采集路径」,其核心硬件是集成高密度触觉传感器的手套。用一句话来总结整体思路:将数据采集从依赖成本高昂、数量有限的机器人本体转移到依赖人本身,从而降低成本并提升采集效率。
相较于做精的高保真数采路径,这一路径在流程上更为简化:采集员戴上触觉手套,在真实环境里完成各类操作任务,系统同步将视觉信息、手部关节角度、触觉压力阵列以及肌肉运动等多模态数据记录下来,再通过算法映射到目标机器人的运动学模型中。
围绕过程中可能出现的一些痛点问题,同样给出了应对方案:
针对人手与机器人之间的形态差异,引入多机型目标映射算法与策略蒸馏技术,使一套数据能够在数十种机器人本体之间复用;针对第一人称视角容易被遮挡的问题,通过头部与腕部多视角相机融合,补全视觉盲区,进一步提升数据的完整性与可用性。
这条路径不依赖真机,成本低、速度快,可以很快把数据量堆起来,覆盖的场景也更广。
两条路径放在一起来看,其实是在解决同一件事的两个面:前者保证数据足够精,支撑起复杂工业任务;后者保证数据量足够大,能够应对更多情况。
最终,开普勒构建了一套兼顾深度与广度的数采系统,为 VTLA 全感知模型的训练提供了有质有量的数据根基。
触觉加入,VTLA 开启「全感知」范式
开普勒的双路径数采方案解决了「数据如何高效生产」的问题,接下来的关键是:如何将这些数据有效地应用于模型,转化为实际操作能力。同时随着力触觉数据的引入,传统 VLA 模型架构也发生了变化。
在这一背景下,开普勒推出了 VTLA 全感知大模型,在国内首次将触觉模态提升到了与视觉、语言、动作同等重要的地位
传统 VLA(视觉 - 语言 - 动作)模型主要依赖视觉和语言来理解环境,再去生成动作。在此基础上,VTLA 加入力触觉,让模型在感知与决策过程中同时处理接触与受力信息,为复杂物理交互提供更完整的建模基础。
看起来只是多了一个模态,但带来的变化很直接:机器人不只是判断该怎么做,也能在执行过程中不断校正做得对不对。
具体实现上,VTLA 模型更倾向于把视觉、触觉、语言、关节状态这些数据放在同一套体系里处理,包括多视角 RGB-D 数据、语言指令、本体 / 关节状态、触觉 / 力数据(压力分布、力矢量、滑移事件等),不再由不同模块分开处理,而是统一编码后一起进入模型,由同一套网络端到端输出控制指令。
其次对数据的依赖也发生了变化。相比过去主要依赖视觉数据,VTLA 模型需要大量包含接触、受力和操作细节的多模态数据。因此,力反馈外骨骼、触觉手套这些采集设备提供的数据变得尤为重要,它们决定了操作成败与否。
此外在训练上,VTLA 模型通常会借助已有的视觉语言模型(VLM)做基础,再结合仿真数据、真实数据以及人类视频等多种来源提高效率。在评估上,关注点同样发生变化,从只看「任务做没做成」到更看重过程,比如抓取是否稳定、精度是否足够、面对新物体能否保持表现,以及复杂环境下是否依然可靠。
力触觉补上了具身智能长期以来最缺的一环,即对接触过程与物理交互的理解,使其更接近真实世界中的可用状态。
整体来看,开普勒没有选择集中某一个点做优化,而是把行业里几个长期存在的系统性问题,包括人采数据和机器人使用之间的错位、硬件不统一带来的重复成本以及数据质量和规模之间失衡,逐一从头理顺。
一套方案走下来,包括力触觉在内的全感知数据逐步具备了「可用、可复用、可持续生产」的能力。
目前,开普勒一方面继续夯实数采系统采集的「指尖点阵压力分布 + 三轴力 + 三轴力矩」全维度力觉数据,另一方面持续深化 VTLA 原生多模态融合能力,在精密装配、多材质抓取以及复杂环境的精细操作中,实现了远超以视觉为主的传统 VLA 方案的稳定性、成功率与泛化表现。
在真实产线中,这些能力也得到了验证。在某汽车工厂产线的实测中,依托力触觉全感知数据的 VTLA 模型连续完成 1000 次高精度装配操作,成功率达到 99.4%,较纯视觉模型提升 19.4 %,且全程无需人工干预,极大地降低了返工率与人工成本。
可以说,开普勒为当前具身智能在工业场景的规模化落地提供了更现实的解法。一定程度上,这也是具身智能从实验室阶段走向工程阶段的一个明显信号。
热门跟贴