打开网易新闻 查看精彩图片

出品 | 网易科技《态度AGI》对话

作者 | 崔玉贤

编辑 | 丁广胜

当ChatGPT凭借互联网海量文本数据实现智能涌现时,机器人却困于物理世界数据采集的“高成本泥潭”。

“通过真实数据的方式,在当前阶段想要启动具身智能的Scaling Law是没有希望的。”跨维智能创始人贾奎在与网易科技等对话中直言道。

数据不够用,数据不好用,具身智能的数据荒已经成为行业的共识。针对此问题,行业逐渐形成两大派系:真机派与仿真派。

跨维智能、英伟达、银河通用等选择的是仿真路线。 近日,跨维智能宣布同步开源自主研发的由EmbodiChain自动训练的VLA基座模型和几个具体任务examples的VLA模型。

据了解,EmbodiChain作为开源的、面向具身智能的“生成式数据引擎”,验证了一条全新的路径:机器人可以完全依靠100% 合成数据(所谓在虚拟世界中做梦)习得技能,并在真实世界中零样本(Zero-Shot)完美执行。

为什么机器人还没有ChatGPT聪明?

“具身智能的智能与大语言模型的智能是两种不同的智能。”贾奎一语指出两者的根本差异。大语言模型的成功依赖于互联网上无穷无尽的文本数据,遵循着著名的Scaling Law。然而,当这一范式试图迁移到具身智能领域时,却面临着物理世界的冷峻现实。

传统机器人学习需要采集真实数据,这一过程存在三大痛点:成本高昂,采集真实数据需要人遥控机器人,耗时耗力;效率低下,物理世界无法加速,且存在安全风险;数据孤岛,只有极少数巨头公司有能力组建庞大的采集团队。

贾奎用无人驾驶作对比解释了数据稀缺的深层原因:“为什么无人驾驶反倒真实数据能够很多?因为我们每天都在开着车做各种各样的事情。而具身智能领域,除了工厂、物流仓里面有机械臂外,我们生活的世界里面没有机器人。”

所以,面对这一困境,跨维智能选择了生成式仿真的技术路径。贾奎强调:“成熟的基础物理仿真技术是可以达到毫米级精度的,工厂里可能要求到亚毫米级。具身智能缺的不是底层的仿真技术,而是如何将物理仿真形成的任务场景到各种虚拟传感器产生的数据,到模型训练,再到本体部署,能够高效自动化地连接起来。”

仿真数据如何在真实世界中零样本完美执行?

EmbodiChain作为开源的、面向具身智能的“生成式数据引擎”,验证了一条全新路径:机器人可以完全依靠100%合成数据习得技能,并在真实世界中零样本完美执行。

EmbodiChain的核心突破体现在三个“不需要”:不需要真实数据采集,证明了VLA模型可以100%使用合成数据训练;不需要繁琐的人工调优,模型在仿真中训练完后可直接部署到真机使用;不需要专业建模工程师,能够根据文本描述自动生成场景和任务,实现全流程自动化

贾奎特别强调了100%合成数据的重要性:“各个公司走的技术路线,无论是说95%的合成,5%的真实,哪怕是0.1%,这都是评判其是否真正基于生成式数据的非常关键的指标。如果你的技术路径所形成的产品,摆脱不了真实数据的话,那意味着任何一个场景、任何一个机器人都要去部署进去任务,都要去采数据,那么成本就无法控制。”

EmbodiChain构建了完整的“Real2Sim2Real”数据飞轮流程。Real2Sim模块将有限的真实交互数据,借助高保真仿真与自动化数据编辑技术,在仿真引擎中建立规模化、多样性丰富且可训练的环境和任务。Sim Data Scaling阶段基于少量的“种子”场景,实现百万级规模的高多样性数据扩增。Sim2Real阶段则展现出显著的零样本虚实迁移能力。

据介绍,在商业化层面,跨维智能已经建立了清晰的落地路径。贾奎教授透露:“2025年实现了亿级营收,从22年到24年都按照超过double的增速在增加。26年预计相比25年会有3到4倍的增长。”这一增长主要来自于公司在泛智能制造和商业服务两大业务板块的持续扩张。

贾奎强调:“我们前期就是严格按照ROI的方式在做我们的产品,因为你不严格按照ROI,东西根本就卖不出去。”公司为此设定了明确的标准:“整套系统的售价不能超过在这个位置上一个工人18个月的工资。”

跨维智能成立于2021年6月,是一家专注于具身智能和人形机器人的科技企业。其核心团队由全球Top 2%顶尖科学家贾奎领衔。目前公司产品已经应用于50+细分行业,落地1000+项目。

打开网易新闻 查看精彩图片
给机器人做仿真训练 这家创企年营收破亿 预计26年翻4倍
打开网易新闻 查看精彩图片
给机器人做仿真训练 这家创企年营收破亿 预计26年翻4倍
给机器人做仿真训练 这家创企年营收破亿 预计26年翻4倍
打开网易新闻 查看精彩图片
给机器人做仿真训练 这家创企年营收破亿 预计26年翻4倍
给机器人做仿真训练 这家创企年营收破亿 预计26年翻4倍
打开网易新闻 查看精彩图片
给机器人做仿真训练 这家创企年营收破亿 预计26年翻4倍
给机器人做仿真训练 这家创企年营收破亿 预计26年翻4倍
打开网易新闻 查看精彩图片
给机器人做仿真训练 这家创企年营收破亿 预计26年翻4倍
给机器人做仿真训练 这家创企年营收破亿 预计26年翻4倍
打开网易新闻 查看精彩图片
给机器人做仿真训练 这家创企年营收破亿 预计26年翻4倍
给机器人做仿真训练 这家创企年营收破亿 预计26年翻4倍
打开网易新闻 查看精彩图片
给机器人做仿真训练 这家创企年营收破亿 预计26年翻4倍

以下为网易科技等与跨维智能CEO贾奎沟通的内容(略有删减):

靠真实数据集采达到ChatGPT时刻是没有希望的

提问:机器人还没有像ChatGPT那样聪明,一个非常重要的原因是数据,目前具身智能领域在数据集采方面处于怎样的一个状态?

贾奎:具身智能的智能与大语言模型的智能是两种不同的智能。这就导致了现在大语言模型的ChatGPT时刻与具身智能是不同的发展阶段。前者更多的是建立在知识上的能力,具身智能学的是智能体在三维物理世界中基于感知行动的智能。这就需要其数据从一开始就是多模态的,从视觉到力觉到触觉、语言等,是三维的,而且需要物理精确性。

虽然我们期望大模型所带来的scaling law能够延伸到具身智能,但由于先天不足(不能延伸),(这也是)具身智能到现在一直有新的技术范式在涌现的根本原因。

提问:根据模型训练数据的不同有几条路线,有真机数据派、仿真派、视频学习派,跨维智能的仿真派的优势在哪里?仿真技术物理精度上限是在哪里?在哪些任务当中存在盲区?

贾奎:真实数据的方式在当前阶段或者当前条件下,基本上没有。靠真实数据采集到达ChatGPT时刻是没有希望的。

很大的原因是因为社会上没有大量存在的机器人在做各种事情,除了工厂、物流的机械臂外,我们生活的世界里没有机器人。

对比一下,为什么无人驾驶反倒真实数据能够很多的原因是,我们每天都在开着车做各种各样的事情,把传感器装到车上,人开着车就可以形成数据,训练模型。

生成式仿真的方式,就是通过生成式AI从文本的生成到图像的生成到视频的生成再到3D的生成,可以建立这样的数据技术范式,把数据采集获取变成算力问题,这样的话才能真正实现具身智能所期待的智能涌现,或者精确一点,是其所需的泛化性、通用性。

只有通过生成式AI的方式才能生成多样的可泛化的支撑,可泛化的数据。如果还是需要真机去采的话,永远都不能实现。另外,即使真机去采,在这个实验室里集采的数据,在另外一个房间就有可能有大量的GAP。

具身智能机器人的任务本质上在生活场景中基本上要求的都是毫米级的,工厂里可能要求到亚毫米级,成熟的底层物理仿真技术是可以更精确的。因此,具身智能缺的不是底层的仿真技术,而是怎么样才能够将物理仿真形成的任务场景到各种虚拟传感器产生的数据,到模型训练,再到本体的部署,能够高效自动化的方式将链路连起来。

所以,这也是为什么具身智能引擎与物理仿真不是一件事情,但底层的仿真技术是足以支撑的。

提问:UMI的数据集采方式目前挺受关注的,如何看待这种技术路线?

贾奎:UMI是非常短暂的中间态,它要求人拿着夹爪去采数据,而且要求人拿夹爪跟机器人的夹爪是一模一样的。

提问:同样都是走仿真路线,但有些厂商在其宣传语里会提到他们用了少部分的真机数据做强化学习或者说是对齐,但跨维智能为什么可以使用100%的仿真数据呢?

贾奎:我们非常强调最后一用公里、最后一米的事。各个公司走的技术路线,无论是说95%的合成,5%的真实;或者说99%的合成数据,1%的真实;哪怕是0.1%,这都是评判其是否真正的基于生成式数据的非常关键的指标。

举个例子,如果用生成的数据做预训练,最后,还用真机数据做了最后的Fine Training,那之前的东西到底起了多大作用?如果你的技术路径所形成的产品,摆脱不了真实数据的话,那意味着任何一个场景,任何一个的机器人都要去部署进去任务;都要去采数据,那么成本就无法控制,就无法用这种技术范式形成的产品去进行竞争。

2026年:人形机器人商业服务元年

提问:2026年具身智能行业发展的关键词是什么?

贾奎:从技术角度讲,关键词是基于生成式仿真的世界模型或者简单点世界模型。但我们更强调的是世界模型2.0,因为纯粹基于视频生成的世界模型是不行的。从商业层面讲,应该是人形机器人的商业服务元年。

提问:您如何看待具身智能泡沫?

贾奎:具身智能包括人形机器人肯定不只是存在泡沫的问题。其实大家都是预期,希望它发展更快些。但当你脱离了技术、产品、业务本身的发展逻辑时候,就会出现泡沫。

我们是在2021年底开始成立和运行的,我们其实并不是在风口,或者说并不是迎着风口做的这家公司。我们从开始到现在,底层技术、产品理念,商业都是非常务实的,严格按照ROI来设计我们的产品和技术路径的。

提问:2026年世界模型是个主线,您认为目前世界模型处于怎样的发展阶段,什么时候会有突破?

贾奎:比较纯的3D物理的世界模型,仍然受制于原生数据问题。

其实我们刚才聊文本、图像、视频和3D都是鸡生蛋,蛋生鸡的问题,没有数据,没有原生数据,就做不出模型,做不出生成式的模型;有了原生模型,大到一定程度,就可以产生多种多样的数据。

如果用正确的技术方式去解耦的话,突破点其实来的不会那么晚。

严格遵守ROI 已实现亿级年营收

提问:EmbodiChain是开源的,这种开源的策略和商业化变现之间怎么平衡,开源的生态建设对我们长期的护城河有怎样的意义?

贾奎:EmbodiChain是我们基于生成式仿真的世界模型,或者可以通俗的叫它世界模型2.0,是非常基础的基建第一步。这样的开源工作是对行业、学术的推广,带有一定的学术性能;另外,它也是我们构建整个具身智能机器人生态的抓手。

从开源本身坦白来讲,我们开源的更多是理念、学术、工具链的东西,如果真的要通过它顺出一个模型到真机上,还有不少的Know-how才能达到产品级。

提问:跨维智能客户还是很多样化的,有汽车厂商、智能家电厂商等,在产品落地过程中,客户关注的关键指标有哪些,我们了解到制造业很关注ROI,这个有没有可量化的数据分享?

贾奎:我们为什么落地了这么多东西,是因为我们非常聚焦。其实我们做的是通用的技术和通用的产品,整个产品的能力在围绕机器人的灵巧操作、灵巧做作业操作。不管是商业服务、工厂还是商店,其实要做的事情非常多。我们主要还是做灵巧作业之类的事情,比如柔性分拣、柔性装配。

所以,我们前期就是严格按照ROI的方式在做我们的产品,因为你不严格按照ROI东西根本就卖不出去。

我们最一开始做这些事情的时候,具身智能风口还没有来,因此我们要打动客户,就必须以高性价比来提供我们的产品,必须严格按照ROI来计算,我们提供的产品是否真正产生了价值,或者增量价值。

比如,整套系统的售价不能超过在这个位置上一个工人18个月的工资。

提问:2025年营收是否方便透露?

贾奎:2025年实现了亿级营收,不是订单,是营收。从22年、23年到24年我们基本上是按照Double的增速在增加。26年应该会是25年的3-4倍。

提问:3-4倍的增长主要来自哪里?

贾奎:主要两大板块:泛智能制造和商业服务。泛智能制造我们是2倍的增速增加;商业服务是我们的第二增长曲线。商业服务其实是卖我们自己的本体包括大脑都是耦合在一起的。