2016 年,贾奎结束海外学业回国,投身计算机视觉研究。彼时大量人才涌入人脸识别与图像理解赛道,他却转身选择了一条几乎无人涉足的方向。
接下来的五年里,他反复追问两个看似简单的问题:3D 数据的本质是什么?Physical AGI 的定义又是什么?在他看来,这些围绕三维世界展开的探索才是核心命题。
选择冷门方向也意味着要付出长期「坐冷板凳」的代价。
在那些等待的日子里,他一遍遍推演模型、反复验证假设,也不断重构自己对世界的理解,但几乎从未动摇过。「如果你做的就是你喜欢的事情,那为什么要换呢?」这是他判断一个人是否幸运的标准,简单得近乎朴素。
他对世界模型的理解同样带着一种近乎直觉的准确。
他认为 Physical AGI 之所以被称为物理通用人工智能,关键在于它必须真正进入物理世界,并最终落到一个具体的智能终端上。
人从不同的视角观察世界,看到的往往只是现实的一个个镜像。当无数片面、零散的信息叠加在一起,世界便显得极为复杂。但在贾奎眼里,物理世界是简洁的。如果能触达其中的真实机理,它会像爱因斯坦的 E=mc² 一样轻盈。只有找到这种本质规律,才可能构建出真正科学的世界模型。
2025 年底,跨维智能开源了核心技术 EmbodiChain——一条在线数据流与模型生产线,实现了完全基于 100% 生成式合成数据训练的虚拟物理模型。在这个世界里,让 AI 去学习物理世界的本质规律,环境、对象、机器人本体都可以持续演进。
通往终点的路径不止一条。跨维选择的是一条更长远的路:先创造「世界」,再让 AI 深入物理世界的每一个角落,最终构建出通往 Physical AGI 的可持续之路。
通往 Physical AGI
Q:请先介绍下自己以及跨维现在在做的事。
贾奎:从 2021 年创立至今,跨维智能一直致力于解决 AI 与三维物理世界的交互问题。
2001 年,我就开始研究计算机视觉。从 2016 年起,我开始探索如何利用 AI 进行 3D 建模与生成,以及如何通过合成数据训练模型,驱动机器人完成灵巧作业。
一个重要的技术节点是在 2019 年,我们发表了一个端到端模型,它能够完全依靠混合数据训练,实现对未知物体的精准抓取。这些技术积淀为我们 2020 年筹备创立公司打下了基础,当时真格也作为天使投资方加入。
这几年,随着 Physical AI 的兴起和大模型的加持,跨维智能的底层技术、产品与业务也经历了一个从稳健到加速发展的周期。如今,我们逐步形成了一套多维协同的产品矩阵:以 DexVerse™ 引擎为技术底座,配合 KINGFISHER 视觉传感器、Dexforce W1 人形机器人本体,以及 PickWiz 机器人大脑软件。
回到跨维智能的核心信仰:Develop a sustainable road towards Physical AGI(构建一条通往 Physical AGI 的可持续道路)。我们希望走出一条可持续的路径,以持续的原创技术推动 AI 深入物理世界的每一个角落,在不同行业中创造真正的价值。
Q:你目前怎么理解 Physical AI?在创业过程中有什么变化?
贾奎:我始终认为 Physical AI 是一件需要在实践中推进的事情。只有不断做技术、做产品,才能真正走近它。人是一个典型的高级生物智能体。人的认知智能与身体形态的关系正对应着今天大语言模型与 Physical AGI 的关系。
从技术来看,目前我们仍遵循由海量数据、大模型和强算力支撑的 AI 范式。这种范式受惠于 90 年代以来互联网所累积的文本、图像和视频,因此大语言模型和多模态在 2022-25 年间实现了快速积累。
但 Physical AGI 是下一个十年,甚至更长周期的命题。它对数据的要求不仅是数量的增加,更是数据产生范式的一次根本性变化。
实现 Physical AGI 的基本数据要素可能来自于真实机器人的数据采集,也可能借由视频生成,或者是我们团队非常擅长的 3D 生成式技术以及生成式仿真(Generative Simulation)等前沿范式。
另一方面,Physical AI 必须落地在实际的智能体上,在家庭、工厂等真实应用场景中运行。这又对终端智能体的功能提出了不同诉求。
无论是从技术还是应用角度,Physical AGI 都比目前大家看到的大模型和 AI Agent 应用更难。但它的天花板更高,想象空间更大,对整个社会经济和人类行为的牵引作用也更大。
正在洗牌的跨维机器人
Q:你在设计跨维智能人形机器人的本体构型时有哪些考量?
贾奎:Physical AGI 之所以被称为物理通用人工智能,核心在于它必须进入物理世界,并最终落到一个具体的智能终端上。
这个终端的形态则取决于它应用场景的第一性原理。如果是应用在工厂里的机器人,它不一定非要具备人形,它的核心诉求是能否稳定、高精度地完成既定作业任务。
在一些商业服务场景,机器人的演进路径会变得更像人类。在社会生活或商业服务中,人是在打造自己的 IP 和人设,因为你卖的不仅仅是功能,还有品牌价值。如果我们将眼光跳出数字人,去观察物理世界真实存在的人,就会发现营造机器人 IP,让它本身产生衍生价值,是一件非常重要的事情。
至于家庭场景,大家对机器人有多维度的诉求。首先是解决实际的家务问题,比如我们希望在下班后,它能把鞋柜整理好;或者在家里有小朋友的情况下,能把散落一地的玩具收拾妥当。这是对它工具属性的需求。
但如果机器人具备了人形形态,人们会有更高的陪伴诉求。这种陪伴涵盖了语言的交流、情感的互通,甚至包括外形是否可爱、是否有温度。这就是为什么目前有人专门研究「有温度」的机器人,或者在外观设计上追求极致美感。
如果你想要打造一个既能解决实际问题,又能与人产生良性互动的深度产品,兼顾外形设计与交互逻辑至关重要。
实现世界模型
Q:你怎么看现在几种不同的数据采集方式?
贾奎:行业普遍期待,大语言模型中观察到的 Scaling Law 也能在 Physical AI 上出现。但这里有一个前提:如果没有足够量级的数据支撑,单纯增加模型规模或算力意义不大。
因此,具身智能当下面临的首要问题,是如何提升数据产生的效率。
在 2024-25 年间,行业逐渐形成了一种共识:通过搭建数采场、利用真机遥操来获取训练数据。但这种方式的效率依然有限。后来也出现了像 UMI(Universal Manipulation Interface,通用操作接口)这样更高效的本体采集方案,不过这种路径究竟能训练出多强的模型还有待验证。
另一条被寄予厚望的路径是视频生成。像 Sora 这样的模型在内容创作领域已经展现出强大的能力,但视频生成的本质是二维结果。从技术范式来看,基于扩散模型的视频生成本质还是在 RGB 像素空间中建模,缺乏明确的物理因果结构。这意味着它在精度、稳定性和物理一致性上,很难达到严格的工程标准。
我们的目标是一方面充分利用模型与算力带来的生成效率,另一方面又保证生成内容具备严格的三维物理真实性。围绕这一点,我们也做了严谨的原理性验证。结果证明,完全基于 100% 生成式合成数据训练出来的模型,在真实应用中确实可以跑通。
我们真正应该关注的不是某一种数据获取方式本身的优劣,而是哪一种数据范式,能够让 AI 大模型的 Scaling Law 真正运转起来。
Q:当时 Sora 发布的时候,你有什么感受?
贾奎:Sora 发布时一个很重要的传播理念就是世界模型。
但世界模型这一概念早在 2018 年就在强化学习领域被提出了。它的核心逻辑是,如果要进行高效的强化学习,系统必须具备一个内在的模型来模拟世界,从而学习并产生优秀的策略。尽管这一理念在学术界早已存在,但此前一直没有大众化。
Sora 的惊艳之处在于它生成的视频在外观、动态和场景表现力上远超以往,但它依然是在 RGB 像素空间内进行扩散模型的学习。OpenAI 试图说明,如果我们的模型不是世界模型的话,为何能产生如此逼真的视频结果?
Physical AI 所需模型的服务对象不是人类的眼睛,而是具体的任务执行,比如机器人要如何精准地拿起一杯咖啡并递到你手上。
这与单纯的二维视觉观感完全不同。具备基础机器学习或工程知识的人都明白,二维图像只是三维世界在特定视角下的投影,这意味着信息在投影过程中必然发生缺失。生成的视频看起来很精美,但一旦切换视角,往往会暴露出大量的失真。
目前的视频生成视觉模型从根本上无法解决生成结果在 3D 形状准确性、物理准确性以及动态因果准确性上的问题。
Q:目前世界模型处在一个怎样的进程?
贾奎:这是一个大家都想要实现的目标。但究竟该如何实现,我认为首先要把问题想清楚。目前业界对于「什么是世界模型」依然缺乏一个公认且精确的定义。
在定义尚未统一时,人们只能用结果来评价一个模型是否真正具备世界模型的能力。如果你的模型是世界模型,它在无人驾驶场景中就应该始终能够准确避障、规划路径;在机器人作业中,也应该精准且稳定地完成抓取与操作。
Q:跨维实现世界模型的优势是什么?
贾奎:我们的世界模型从 AI 架构建模方式的底层逻辑上就确保了绝对的三维稳定性。如果从统计学或数学的角度来看,这个物理世界非常简洁。
为什么大家却觉得它复杂?因为我们在通过不同的视角观察世界,包括人的眼睛和各种感知传感器,而这些观测结果都只是真实世界的镜像。这些镜像提供的往往是片面的信息,当无数片面且琐碎的信息交织在一起时,就会让人产生世界极其复杂的错觉。
但实际上,如果你能触达世界内蕴的真实机理,它就像爱因斯坦的 E=mc^2 一样简洁明了。只有找到了这种真正正确、简洁的本质规律,你才能构建出真正科学的世界观。
我们的核心逻辑正是通过 AI 去学习这种本质规律,而不是粗暴地利用海量视频进行堆砌训练。因为大量的视频本质上只是不同视角下的景象叠加,学习效率低下,也无法从根本上保障三维物理的准确性。
其实别的团队也不是不能做,行业内几乎所有的团队都会强调三维物理的重要性,也都在尝试往这个方向努力。而我们团队的优势在于,在神经三维建模(Neural 3D Modeling)和神经三维生成(Neural 3D Generation)领域,即利用 AI 进行三维物理建模与生成的技术路线上,我们始终处于行业领先地位。
Q:您能简单地讲一下跨维最近的开源工作吗?
贾奎:我们开源的 EmbodiChain 数据生成管线正面回应了为什么数据产生效率如此重要。
在《GS-World》中,我们开篇提出了效率定律(Efficiency Law),它是规模定律(Scaling Law)的前提。只有当数据产生效率满足特定条件时,模型性能才方能持续提升。
它接着讲如何用生成式的方式,严谨地构建出一个符合物理规律的三维虚拟世界。在这个世界里,我们可以高效地生成环境、操作对象乃至机器人本体。机器人可以在这个可控的虚拟空间中通过作业产生数据,进而形成模型,甚至实现本体的进化。
这不仅是一项具体的学术成果,也是我们的一份技术路线图。
EmbodiChain 示意图
基于此,我们设计了一套能够实现效率定律的架构。这首先是一个从模拟到现实的过程。无论是通过真机遥操、UMI 这种方式,还是直接记录人类操作的视频,我们都能从中提取出三维逻辑动作,并将其投射到虚拟世界。随后,我们在虚拟世界中进行高效的数据扩增和强化学习。这种范式既能生成精准的三维物理模型,也能生成动作策略。
我们也在开源的 Motion 数据集上进行了严格的对比测试。结果显示,这种范式在效率和成功率上明显优于英伟达的 GR00T、RDT 等主流模型。正如我们所发布的,跨维智能确实实现了完全使用 100% 生成的合成数据训练出的 VLA 模型。这在全球范围内都是绝无仅有的。
我们认为正确的逻辑是你必须首先送进去一个有价值的机器人,让它运行起来服务客户、产生价值。
我们效仿无人驾驶领域开启「影子模式」,让数据回流。在这种模式下回流的是高质量、带标注、剔除异常数据、能直接提升模型性能的数据。此时,机器人已经在真实环境中工作并产生了收益,获取数据只是顺道完成的过程。这才是产品和服务高效演进的数据飞轮范式。
经历「冷板凳时期」
Q:当时是什么契机开始关注到世界模型?
贾奎:当时关注到这个领域,是因为我关注的是 AI 信号的本质。
回看 2015 年,当时太多的人涌入人脸识别和图像理解领域,但我会去思考 3D 数据的本质是什么?信号的本质又是什么?作为一个做创新研究的人,最基本的要素就是绝对不能跟风。如果一件事情已经有很多人在做了,那么它就不应该是你的首选。研究者必须遵从第一性原理,而不是人云亦云。
在那个没有人涉足的阶段,这些关于 3D 维度的探索才是 AI 领域中更本质、更重要的问题,是我认为真正有价值的创新。这种独立研究的能力,其实是每一个成熟的博士在职业训练阶段就应该具备的基本要素。
当然,这种坚持是有代价的。研究的源头固然可以基于好奇心,但在好奇心之上,还需要带一点「功利」的思考,这种好奇心最终能否产生价值?无论是短线、中期还是长线的价值,你必须去推演它。
选择非热门方向的代价就是你可能需要长期「坐冷板凳」。我们观察 AI 的发展史,从 1950 年代至今经历了几轮波峰波谷,即便像 AI 教父辛顿(Geoffrey Hinton)也经历过极长周期的冷板凳时期。
人要有自己的坚持。
Q:你什么时候有过这种「坐冷板凳」的感觉?
贾奎:在 2016 年到 2021 年这段时间里,坦白说,我获得的成就感远比那些做图像理解的人要少得多。
在学术界,你的论文引用量很大程度上取决于研究该问题的基数。如果全球范围内关注某个 3D 任务的人只有 1000 个,而研究图像理解的有 100 万人,那么无论研究做得多好,在绝对影响力指标上也无法与热门方向相比。在长达五年的时间里,这种差距是客观存在的。
但即便是在那段时间里,我也没有想过要更换方向。我觉得判断一个人是否幸运的标准在于,他是不是在做自己真正喜欢的事情。如果你做的就是你喜欢的事情,那为什么要换呢?
在当时,我依然坚信自己所做的研究具有更大的价值,这与我如今对 Physical AGI 的判断逻辑是一致的。
从企业成长和创业逻辑来看,Physical AGI 的天花板比现在的大模型厂商的天花板还要高。
Q:科研和创业有什么不同?
贾奎:科研创新与创业是不同形式的价值创造与实现。从科研创新的角度来看,你潜心钻研,期待逻辑上成立的研究最终会产生价值,但成果还是往往停留在纸面上,这种互动相对内敛且间接。
相比之下,创业则是实打实地从商业价值出发进行反向推导。为了实现真正的价值,我们需要什么样的产品或服务?哪些技术需要突破且具备条件?突破的周期是多久?在这种逻辑下,我们还需要思考团队的核心优势、差异化特色以及能否在目标商业场景中真正产生价值。
这种思维方式的转变,能让我们在创新的过程中摆脱一些科研惯性。我们不会为了发表论文而去做事,也不会去做那些看似有价值、实则无法在商业上产生实际贡献的研究。
当你的产品在真实的场景中被使用起来,那种成就感与单纯追求论文引用量是完全不同的。这种价值创造更加直接,能够真实地在社会的各个层面反映出来,无论影响是大是小。
回归劳动力本质
Q:有没有什么具体的合作案例可以分享?
贾奎:我们在工业、物流等相对半结构化的场景中已经积累了大量经验,部分项目的运行时间已超过两年。我们不是单纯在推广跨维这个机器人品牌,而是要将机器人深度嵌入加盟店、品牌方和购物中心的业务流程里。
让别人生意做得更好才是这台人形机器人真正的价值。
一个案例是我们和「维小饭」的合作。维小饭是一家在深圳和香港的健康饮食品牌,每份盒饭都会标注卡路里。我们的机器人部署在维小饭的门店内,承担售卖引导等工作。这种「健康饮食 + 前沿科技」的组合既是一个极具吸引力的商业噱头,也是机器人在真实商业环境中去创造价值的实践。
跨维在「维小饭」门店部署的机器人
Q:跨维产品的差异化特色在哪里?
贾奎:核心不在于单纯的技术高低,而在于谁能真正跑通技术到细分商业场景的闭环。就像人脸识别技术,现在几乎任何一家公司都能拥有成功率足够高的技术,但最终胜出的是那些已经形成了品牌认知、并占据了市场的企业。当然,如果未来机器人的需求量变得极大,它的功能性价值和附加价值的主次地位可能会发生变化。
Q:跨维的下一步会是什么?
贾奎:我们的商业理念可以用一句话概括:DexBot Inside。
这个词借用了当年英特尔著名的「Intel Inside」广告语。作为一个人形机器人,即便在商业服务场景中具备引流作用和 IP 属性,它最终也必须回归到劳动力本质。
人与人之间交往,最初的新鲜感都可能在两周内消退,机器人更是如此。如果机器人不能产生真正的劳动价值,它的 IP 和可爱外形就无法支撑其长久的商业存在。在门店等实际场景中,它最终会从一个新鲜事退化到一个劳动者的本质。
文|Nuohan
编辑|Cindy
热门跟贴